Rich Sutton의 AI 창의성과 발견

2 hours ago 1

(twitter.com/RichardSSutton)

지도학습으로 훈련된 생성 AI는 사례와 비슷하게 행동하는 모방 모델로, 유용하더라도 과학·수학의 새로운 발견에는 한계가 있음
인터넷 답변이나 문서 요약에서는 새로움이 오히려 환각이 되며, 좋은 답변은 원천 자료의 품질에서 나옴
소설·이미지 생성처럼 새로움이 필요한 경우에도 출력이 학습 자료와 얼마나 가까운지 알기 어렵고, 무작위성은 새로움을 만들지만 평가 없이는 좋은 발견이 되지 못함
AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code, RL-Lyft 같은 시스템은 평가와 선택적 보존을 통해 새롭고 좋은 결과를 찾음
완전한 AI 과학자를 원한다면 명시적 목표를 공유해 AI가 만들고 평가하고 발견하도록 해야 하며, 창의성과 발견의 자동화가 필요함

생성 AI의 한계와 유용성

생성 AI는 대량의 예시를 받아 사람처럼 텍스트를 만들거나, 예술가·자연처럼 이미지를 만들거나, 인터넷 영상처럼 비디오를 만드는 모방 모델임
생성 AI는 매우 유용할 수 있지만, “좋은 부분은 새롭지 않고 새로운 부분은 좋지 않다”는 오래된 농담의 평가가 큰 부분에 적용됨
인터넷에서 답을 찾거나 문서를 요약할 때는 AI가 새로울 필요가 없고, 답의 품질은 문서 작성자나 인터넷 글 같은 원천 자료에서 나옴
AI 답변이 원천 자료를 넘어 무언가를 더하면 그것이 환각이며, 대부분의 경우 사용자는 AI가 지어내는 것을 원하지 않음

새로움, 무작위성, 평가의 문제

사용자가 사실이나 현실이 아니라 소설과 오락을 원할 때는 새로움이 예외적으로 필요함
아이를 위한 잠자리 이야기나 기존 인터넷 이미지와 다르면서도 그 기반을 가진 이미지는 생성 AI에 요청할 수 있음
인터넷이 너무 크고 가능한 원천이 너무 많기 때문에 AI의 이야기, 시, 이미지가 실제로 얼마나 창의적인지 실용적으로 알기 어려움
생성 AI의 처리는 일부 확률적이어서 매 결정이 여러 방향으로 갈 수 있고, 매번 다른 궤적을 만들 수 있음
궤적이 무작위에 기반하면 새롭고, 학습 데이터에 기반하면 데이터의 품질 때문에 좋을 수 있지만, 동시에 새롭고 좋지는 못함

과학·수학에 필요한 발견

생성 AI가 동시에 좋고 새롭지 못해도 대부분의 용도에서는 치명적 문제가 아니며, 빠르고 싸고 작고 맞춤화 가능하고 복제 가능하다면 변혁적 기술이 될 수 있음
과학과 수학에서는 단순 모방 AI만으로 충분하지 않으며, 진짜 창의성과 발견이 필요함
AlphaGo의 37수, AlphaZero의 독창적인 체스 스타일, GT-Sophy의 시뮬레이션 레이싱 성능은 새롭고 좋은 것을 찾은 사례임
AlphaFold, AlphaProof, Claude-Code는 과학·수학·프로그래밍에서 실제 진전을 가져온 사례로 제시됨
RL-Lyft는 차량 호출 사업에서 승객에게 차량을 배정하는 방식을 최적화하는 시스템임
일부 언어 모델은 지도학습 기반 생성 AI를 넘어서는 방식으로 보강되어 있음

발견의 세 단계

발견은 여러 가지를 시도하고, 무엇이 작동하는지 본 뒤, 가장 잘 작동한 것을 유지하는 과정임
자연선택에 의한 진화, 과학적 방법, 일상생활과 학습은 모두 시도하고 작동한 것을 기억하는 방식으로 움직임
심리학에서는 이를 도구적 학습 또는 조작적 조건형성이라고 부르고, 기계학습에서는 강화학습이라고 부름
계획과 조합 탐색에서도 “생성하고 시험하기”라는 발견의 아이디어가 작동함
발견의 핵심은 변이, 평가, 선택적 보존이라는 세 단계를 결합하는 것임
지도학습만으로는 런타임에 생성물을 평가할 방법이 없고, 평가가 없으면 선택적 보존도 없으며, 따라서 발견도 없음
새로움은 잠깐 나타날 수 있지만 그 가치가 인식되지 않으면 사라지고 잃어버리게 됨

평가, 목표, 자율성

사람이 생성 AI로 여러 그림을 만들고 마음에 드는 하나를 고르면, 인간+AI 시스템이 발견을 완성함
명확한 목표가 있을 때도 평가가 가능하며, 어떤 수는 체크메이트로 이어지고, 어떤 단계는 증명으로 이어지고, 어떤 행동은 높은 보상으로 이어짐
어떤 유전자형은 더 많은 복제를 만들고, 어떤 이론은 데이터를 더 잘 설명함
변이는 완전히 무작위일 필요는 없고, 좋은 과학자는 시험할 이론을 임의로 고르지 않음
답이 어디에 있는지 완전히 결정되어 있으면 발견이 아니며, 발견에는 불확실성이 필요함
역전파의 가중치 업데이트는 결정적이지만, 가중치는 작은 무작위 값으로 초기화되므로 변이가 존재함
무작위 초기화는 좋은 성능을 얻기 위해 제대로 수행되어야 하는 필요한 변이 형태임
역전파에서는 변이가 네트워크 초기화 때 한 번만 일어나므로 효과가 일시적이고, 나중에 네트워크가 학습 능력을 잃을 수 있음
“continual backpropagation”은 덜 사용되는 뉴런을 가끔 작은 무작위 가중치로 다시 초기화해 변이가 계속되고 가소성이 유지되도록 함
발견에는 사람이나 명시적 목표에서 오는 평가가 필요하며, 완전한 자율성은 명시적 목표가 평가를 제공할 때 가능함
AI 과학자의 전체 능력을 원한다면 목표를 공유해 AI가 만들고 평가하고 발견하며 목표 달성에 참여하도록 해야 함