Rich Sutton의 AI 창의성과 발견

2 hours ago 1

(twitter.com/RichardSSutton)

  • 지도학습으로 훈련된 생성 AI는 사례와 비슷하게 행동하는 모방 모델로, 유용하더라도 과학·수학의 새로운 발견에는 한계가 있음
  • 인터넷 답변이나 문서 요약에서는 새로움이 오히려 환각이 되며, 좋은 답변은 원천 자료의 품질에서 나옴
  • 소설·이미지 생성처럼 새로움이 필요한 경우에도 출력이 학습 자료와 얼마나 가까운지 알기 어렵고, 무작위성은 새로움을 만들지만 평가 없이는 좋은 발견이 되지 못함
  • AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code, RL-Lyft 같은 시스템은 평가와 선택적 보존을 통해 새롭고 좋은 결과를 찾음
  • 완전한 AI 과학자를 원한다면 명시적 목표를 공유해 AI가 만들고 평가하고 발견하도록 해야 하며, 창의성과 발견의 자동화가 필요함

생성 AI의 한계와 유용성

  • 생성 AI는 대량의 예시를 받아 사람처럼 텍스트를 만들거나, 예술가·자연처럼 이미지를 만들거나, 인터넷 영상처럼 비디오를 만드는 모방 모델
  • 생성 AI는 매우 유용할 수 있지만, “좋은 부분은 새롭지 않고 새로운 부분은 좋지 않다”는 오래된 농담의 평가가 큰 부분에 적용됨
  • 인터넷에서 답을 찾거나 문서를 요약할 때는 AI가 새로울 필요가 없고, 답의 품질은 문서 작성자나 인터넷 글 같은 원천 자료에서 나옴
  • AI 답변이 원천 자료를 넘어 무언가를 더하면 그것이 환각이며, 대부분의 경우 사용자는 AI가 지어내는 것을 원하지 않음

새로움, 무작위성, 평가의 문제

  • 사용자가 사실이나 현실이 아니라 소설과 오락을 원할 때는 새로움이 예외적으로 필요함
  • 아이를 위한 잠자리 이야기나 기존 인터넷 이미지와 다르면서도 그 기반을 가진 이미지는 생성 AI에 요청할 수 있음
  • 인터넷이 너무 크고 가능한 원천이 너무 많기 때문에 AI의 이야기, 시, 이미지가 실제로 얼마나 창의적인지 실용적으로 알기 어려움
  • 생성 AI의 처리는 일부 확률적이어서 매 결정이 여러 방향으로 갈 수 있고, 매번 다른 궤적을 만들 수 있음
  • 궤적이 무작위에 기반하면 새롭고, 학습 데이터에 기반하면 데이터의 품질 때문에 좋을 수 있지만, 동시에 새롭고 좋지는 못함

과학·수학에 필요한 발견

  • 생성 AI가 동시에 좋고 새롭지 못해도 대부분의 용도에서는 치명적 문제가 아니며, 빠르고 싸고 작고 맞춤화 가능하고 복제 가능하다면 변혁적 기술이 될 수 있음
  • 과학과 수학에서는 단순 모방 AI만으로 충분하지 않으며, 진짜 창의성과 발견이 필요함
  • AlphaGo의 37수, AlphaZero의 독창적인 체스 스타일, GT-Sophy의 시뮬레이션 레이싱 성능은 새롭고 좋은 것을 찾은 사례임
  • AlphaFold, AlphaProof, Claude-Code는 과학·수학·프로그래밍에서 실제 진전을 가져온 사례로 제시됨
  • RL-Lyft는 차량 호출 사업에서 승객에게 차량을 배정하는 방식을 최적화하는 시스템임
  • 일부 언어 모델은 지도학습 기반 생성 AI를 넘어서는 방식으로 보강되어 있음

발견의 세 단계

  • 발견은 여러 가지를 시도하고, 무엇이 작동하는지 본 뒤, 가장 잘 작동한 것을 유지하는 과정임
  • 자연선택에 의한 진화, 과학적 방법, 일상생활과 학습은 모두 시도하고 작동한 것을 기억하는 방식으로 움직임
  • 심리학에서는 이를 도구적 학습 또는 조작적 조건형성이라고 부르고, 기계학습에서는 강화학습이라고 부름
  • 계획과 조합 탐색에서도 “생성하고 시험하기”라는 발견의 아이디어가 작동함
  • 발견의 핵심은 변이, 평가, 선택적 보존이라는 세 단계를 결합하는 것임
  • 지도학습만으로는 런타임에 생성물을 평가할 방법이 없고, 평가가 없으면 선택적 보존도 없으며, 따라서 발견도 없음
  • 새로움은 잠깐 나타날 수 있지만 그 가치가 인식되지 않으면 사라지고 잃어버리게 됨

평가, 목표, 자율성

  • 사람이 생성 AI로 여러 그림을 만들고 마음에 드는 하나를 고르면, 인간+AI 시스템이 발견을 완성함
  • 명확한 목표가 있을 때도 평가가 가능하며, 어떤 수는 체크메이트로 이어지고, 어떤 단계는 증명으로 이어지고, 어떤 행동은 높은 보상으로 이어짐
  • 어떤 유전자형은 더 많은 복제를 만들고, 어떤 이론은 데이터를 더 잘 설명함
  • 변이는 완전히 무작위일 필요는 없고, 좋은 과학자는 시험할 이론을 임의로 고르지 않음
  • 답이 어디에 있는지 완전히 결정되어 있으면 발견이 아니며, 발견에는 불확실성이 필요함
  • 역전파의 가중치 업데이트는 결정적이지만, 가중치는 작은 무작위 값으로 초기화되므로 변이가 존재함
  • 무작위 초기화는 좋은 성능을 얻기 위해 제대로 수행되어야 하는 필요한 변이 형태임
  • 역전파에서는 변이가 네트워크 초기화 때 한 번만 일어나므로 효과가 일시적이고, 나중에 네트워크가 학습 능력을 잃을 수 있음
  • “continual backpropagation”은 덜 사용되는 뉴런을 가끔 작은 무작위 가중치로 다시 초기화해 변이가 계속되고 가소성이 유지되도록 함
  • 발견에는 사람이나 명시적 목표에서 오는 평가가 필요하며, 완전한 자율성은 명시적 목표가 평가를 제공할 때 가능함
  • AI 과학자의 전체 능력을 원한다면 목표를 공유해 AI가 만들고 평가하고 발견하며 목표 달성에 참여하도록 해야 함
Read Entire Article