ChatGPT 5.5 Pro를 최근 사용한 경험
2 hours ago
2
- Tim Gowers는 ChatGPT 5.5 Pro로 약 1시간 만에 조합론의 박사과정 수준 연구 결과를 얻었고, 자신의 수학적 입력은 사실상 없었다고 봄
- ChatGPT 5.5 Pro는 Mel Nathanson의 덧셈적 정수론 문제에서 주어진 합집합 크기를 갖는 집합의 직경에 대해 최선일 수밖에 없는 이차 상계 구성을 17분 5초 만에 제시함
- 이어서 제한 합집합 문제도 같은 방식으로 해결했고, Isaac Rajagopal의 기존 지수적 상계를 다항식 의존성으로 개선하는 논증까지 만들어 Rajagopal에게 거의 확실히 맞는 결과로 보였음
- 핵심 아이디어는 Rajagopal의 구성에서 기하급수열 구성요소를 h-dissociated 집합 기반 구성으로 바꿔, 필요한 합집합 크기 패턴을 다항식 크기 구간 안에서 재현하는 것이었음
- AI가 만든 결과는 출판 가능할 수준으로 보이지만 저널 게재나 arXiv 등록보다는 인간 수학자가 정확성을 인증하는 별도 저장소가 필요할 수 있으며, 초심 연구자의 훈련 기준도 LLM과 협업해 LLM 혼자 못 하는 일을 증명하는 방향으로 이동할 수 있음
LLM이 바꾸는 조합론 문제 풀이
- 대형 언어 모델은 이미 연구 수준 문제를 풀 수 있는 단계로 보이며, Thomas Bloom의 Erdős 문제 사이트에 올라온 여러 문제도 해결한 것으로 알려져 있음
- 초기 LLM 성과는 문헌의 기존 답을 찾아내거나 알려진 결과에서 쉽게 따라 나오는 결론을 내는 경우가 많았지만, 이제는 사람이 놓친 쉬운 논증을 LLM이 찾아낼 가능성이 커짐
- 인간 수학에서도 기존 지식과 증명 기법을 조합하는 일이 상당 부분을 차지하므로, LLM이 “기존 지식만 조합한다”는 위안은 제한적임
- 조합론에서는 새 조합적 매개변수를 도입한 논문들이 자연스럽게 여러 문제를 낳고, 예전에는 초심 연구자에게 좋은 공개 문제 공급원이었지만 이제는 LLM이 풀지 못할 만큼 어려운지가 새 기준이 됨
Nathanson 문제와 첫 번째 성과
- Gowers는 Mel Nathanson의 논문 Diversity, Equity and Inclusion for Problems in Additive Number Theory에 나온 문제들을 ChatGPT 5.5 Pro에 시도하게 했음
- Nathanson은 나중에 유행하게 된 문제와 정리에 일찍 관심을 보였고, 그 결과 시의적절하고 영향력 있는 교과서들을 쓴 인물로 소개됨
- 핵심 대상은 정수 집합의 합집합(sumset), 여러 번 더한 합집합, 주어진 원소 수에서 가능한 합집합 크기들임
- 원소 수가 주어졌을 때 가능한 합집합 크기가 최소와 최대 사이의 모든 값을 항상 갖지는 않으며, 완전한 기술도 아직 없음
- Nathanson은 주어진 원소 수와 합집합 크기를 갖는 집합을 만들 때 필요한 직경(diameter) 의 상계를 제시했고, 이 상계를 개선할 수 있는지 물었음
- ChatGPT 5.5 Pro는 17분 5초 동안 생각한 뒤, 최선일 수밖에 없는 이차 상계를 주는 구성을 제시함
- Gowers가 일반적인 수학 프리프린트 스타일의 LaTeX 파일로 다시 써 달라고 하자, ChatGPT는 2분 23초 뒤 해당 형태를 제공했고 Gowers는 논증이 맞는지 확인하는 데 시간을 썼음
Sidon 집합과 제한 합집합으로의 확장
- Nathanson의 논증과 ChatGPT의 논증은 모두 주어진 크기의 집합과 주어진 크기의 합집합을 만들기 위해 Sidon 집합과 등차수열을 함께 쓰는 아이디어에 기반함
- Sidon 집합은 여기서 합집합 크기가 최대인 집합이라는 단순화된 의미로 쓰임
- 세부 조정을 위해 등차수열 근처에 추가 점 하나를 더할 수 있고, 여러 매개변수를 조절하면 원하는 크기의 집합들을 얻을 수 있음
- Nathanson은 이 논문의 Theorem 5에서 귀납적 논증을 제시했지만, 풀어 쓰면 사실상 2의 거듭제곱으로 된 Sidon 집합을 쓰는 구조로 보임
- ChatGPT의 개선은 더 효율적인 Sidon 집합을 쓴 데서 나왔고, 이차 직경을 갖는 Sidon 집합을 찾을 수 있다는 사실은 잘 알려져 있음
- Gowers는 이어서 합집합 크기 대신 제한 합집합(restricted sumset) 의 크기를 보는 밀접한 문제도 시도시켰고, ChatGPT는 별 어려움 없이 같은 방식의 결과를 냄
- 두 결과를 중복 없이 하나의 노트로 정리한 문서는 여기에 공개됨
일반 차수 문제와 Rajagopal 논문 개선
- Gowers는 더 일반적인 경우에 대해 ChatGPT가 무엇을 할 수 있는지도 물었음
- 원래는 훨씬 덜 낙관적이었는데, 앞선 증명이 Erdős와 Szemerédi의 결과, 즉 만들어야 할 크기들을 정확히 알고 있다는 사실에 본질적으로 의존했기 때문임
- Nathanson 논문에는 MIT 학생 Isaac Rajagopal의 논문이 나오며, Rajagopal은 고정된 차수마다 지수적 의존성을 증명했음
- Rajagopal에게 실제 난점은 “가능한 크기 집합을 모른다”는 데 있지 않았음
- 그의 논증은 충분히 큰 경우에 대한 완전한 기술을 제공함
- 고정된 차수에 대해 다항식 의존성을 보이려면 충분히 큰 경우만 가정해도 됨
- 실제 난점은 주어진 합집합 크기를 갖는 집합을 만드는 구성이 훨씬 복잡하고, 차수가 커질수록 다항식의 차수도 커져 더 많은 매개변수가 필요하다는 데 있음
- ChatGPT의 과제는 문제를 처음부터 푸는 것이 아니라 Rajagopal의 논증을 조이는 것이었음
- 진행 과정은 다음과 같음
- 16분 41초 뒤, 기존 상계를 지수 함수에서 임의의 양의 상수에 대해 더 작은 지수 형태로 개선하는 논증을 제시함
- 프리프린트 형태로 작성하는 데 추가로 47분 39초가 걸림
- Gowers는 이를 Nathanson에게 보냈고, Nathanson은 Rajagopal에게 전달했으며, Rajagopal에게는 맞아 보였음
- ChatGPT와 Rajagopal 모두 다항식 상계로 더 밀어붙이려면 무엇이 필요할지 일부 추측했고, Gowers는 ChatGPT에 이를 시도하게 함
- 13분 33초 뒤 ChatGPT는 그런 논증이 존재할 가능성에 낙관적이지만 확인해야 할 기술적 명제가 몇 개 있다고 답함
- 확인을 요청하자 9분 12초 뒤 검사를 마쳤고, 다시 프리프린트 형태 작성을 요청함
- 31분 40초 뒤 프리프린트가 준비됐고, 문서는 여기에 공개됨
- Rajagopal은 이를 거의 확실히 맞는 것으로 봤고, 이는 줄 단위만이 아니라 아이디어 수준에서도 그렇다는 뜻으로 받아들여짐
AI가 만든 수학 결과를 어디에 둘 것인가
- 사람이 만든 결과였다면 출판 가능했을 수준이므로, 이를 AI slop이라고 부르기는 부적절해 보임
- 반면 저널에 싣는 일은 별 의미가 없어 보임
- 결과는 무료로 공개될 수 있음
- 누구도 “공로”를 필요로 하지 않음
- 다만 ChatGPT가 구축할 수 있는 틀을 만든 Rajagopal에게는 많은 공로가 있음
- arXiv가 AI 작성 콘텐츠를 받지 않는 정책을 가진 것으로 이해되며, 이는 합리적이라고 봄
- AI가 만든 결과를 둘 별도 저장소가 필요할 수 있음
- 인간 수학자가 정확성을 인증한 결과만 포함하는 조정 절차가 바람직할 수 있음
- 더 좋게는 증명 보조기로 형식화된 결과일 수 있음
- 인간이 쓴 논문에서 제기된 질문에 답하는 결과인지도 기준이 될 수 있음
- 조정 절차가 막대한 작업량을 만들면 곤란하고, 그 작업을 다시 AI가 맡는 방향에는 명백한 위험이 있음
- 당분간 해당 결과는 공개 링크로 접근 가능하며, LLM의 문헌 검색 능력이 좋아졌기 때문에 Nathanson의 문제가 해결됐는지 찾으려는 사람에게 발견 가능할 수도 있음
Isaac Rajagopal의 평가와 기술적 배경
-
ChatGPT가 기여한 핵심
- ChatGPT는 몇 번의 프롬프트만으로 특정 상계를 지수적 의존성에서 다항식 의존성으로 개선함
- 첫 개선은 Rajagopal의 작업을 비교적 일상적으로 수정한 것이었지만, 다항식 개선은 상당히 인상적이었음
- ChatGPT가 낸 아이디어는 독창적이고 영리했으며, Rajagopal이 1~2주 고민 끝에 떠올렸다면 자랑스러워했을 법한 종류였음
- ChatGPT는 Rajagopal 자신의 증명과 비슷한 방법을 사용해 1시간도 안 돼 아이디어를 찾고 증명함
-
문제의 배경
- 이 상계 문제는 Rajagopal이 Duluth REU(Research Experience for Undergrads) 프로그램에서 다뤘던 문제와 밀접함
- 핵심 대상은 가능한 여러 번 합집합 크기의 집합과, 이를 특정 원소 수의 정수 집합으로 모두 실현하기 위한 최소 범위임
- Rajagopal은 지난여름 충분히 큰 경우 가능한 값들의 집합을 명시적으로 특성화했음
- 불가능하다고 배제하지 못한 모든 크기를 실현하는 집합들을 구성했고, 이에 따라 해당 상계는 그 구성을 최적화해 얻을 수 있음
-
기하급수적 크기 구성의 대체
- Rajagopal의 원래 구성은 분석이 쉬운 여러 작은 구성요소 집합을 결합하는 방식임
- 일부 구성요소는 여러 값의 매개변수에 대한 기하급수열 형태였고, 그 원소는 매개변수에 대해 지수적으로 커졌음
- Rajagopal은 Tim을 통해 ChatGPT에, 이 기하급수열과 비슷한 합집합 크기를 가지면서 원소 크기는 다항식으로 제한되는 집합이 있는지 물었음
- ChatGPT는 “다항식 구간 안에 기하급수열의 절반을 밀어 넣은” 것처럼 행동하는 집합들을 구성함
- 이는 직관에 반하는 구성으로 보임
Bₕ 집합, dissociated 집합, ChatGPT의 구성 아이디어
-
Bₕ 집합의 역할
- 주어진 차수에 대해, 한쪽 합이 다른쪽 합의 재배열인 자명한 해를 제외하고는 합 관계가 없는 집합을 Bₕ 집합으로 부름
- 크기가 정해진 Bₕ 집합에서는 반복을 허용해 원소들을 고르는 방식과 여러 번 합집합의 원소가 정확히 대응함
- “stars and bars”로 계산하면, 이는 같은 크기의 집합 중 가능한 최대 여러 번 합집합 크기임
- Sidon 집합은 이 관점에서 B₂ 집합임
-
기하급수열이 재현하던 성질
- 특정 기하급수열 집합은 Bₕ 집합이지만, 더 높은 차수의 B 집합은 아님
- 방해가 되는 관계들은 일정한 형태의 합 관계로 나타남
- 한 집합에서는 합집합 크기가 매개변수의 선형 함수가 되고, 다른 집합에서는 이차 함수가 됨
- ChatGPT는 이 네 가지 성질을 만족하면서도 원소가 모두 매개변수에 대해 다항식 크기인 새 집합들을 찾음
-
h-dissociated 집합 사용
- ChatGPT의 구성은 h-dissociated 집합을 사용함
- h-dissociated 집합은 제한된 차수 이하의 합 관계에서 자명한 해만 허용하는 집합임
- 크기가 대략 매개변수와 같고, 직경이 다항식인 h-dissociated 집합을 만들 수 있음
- 이런 구성은 유한체를 사용하는 Singer(1938)와 Bose–Chowla(1963)의 구성으로 거슬러 올라가며, Appendix 1에서 설명됨
-
관계 수를 절반만 담는 직관
- ChatGPT가 만든 두 집합은 기하급수열 대응물과 비교해 특정 합 관계를 절반 정도만 포함함
- 동시에 h-dissociated 성질 덕분에 다른 낮은 차수 관계는 거의 없음
- 그 결과 다항식 구간 안에 있으면서도 필요한 합집합 크기 패턴을 재현함
- Rajagopal에게 h-dissociated 집합으로 차수 이하 관계를 통제하는 ChatGPT의 아이디어는 매우 교묘하고, 완전히 독창적으로 보였음
ChatGPT 증명과 Rajagopal 증명의 대응
- ChatGPT의 증명은 Rajagopal의 원래 증명에서 기하급수열 구성요소를 ChatGPT의 새 구성요소로 바꾼 형태와 매우 비슷함
- 최종 구성은 여러 차수 값에 대해 새 집합들을 결합하고, 여기에 등차수열과 한 점의 합집합으로 된 또 다른 집합을 결합함
- 직관적으로 새 집합들은 큰 합집합을 만들고, 등차수열은 작은 합집합을 만들기 때문에, 이를 결합하면 중간 크기의 합집합들을 모두 얻을 수 있을 것처럼 보임
- 실제 증명은 상당히 복잡하며, Rajagopal의 논문 Section 4와 ChatGPT 프리프린트 전체를 차지함
- 비교를 위해 해당 양의 하한은 적어도 특정 차수의 거듭제곱 수준임을 쉽게 볼 수 있지만, 실제 값은 알려져 있지 않음
- Rajagopal은 Tim이 ChatGPT 5.5 Pro에 넣은 문제가 우연히 자신의 arXiv 논문으로 이어진 점에 놀랐다고 밝힘
수학 연구와 박사과정 훈련에 대한 의미
- ChatGPT가 2시간 안에 찾은 결과는 조합론 박사논문의 충분히 합리적인 한 장에 해당하는 수준으로 평가됨
- Isaac의 아이디어에 크게 기대고 있어 놀라운 결과는 아니지만, 그 아이디어의 비자명한 확장이었음
- 박사과정 학생이 같은 확장을 찾으려면 Rajagopal의 논문을 소화하고, 최적이 아닐 수 있는 지점을 찾고, 사용된 여러 대수적 기법에 익숙해지는 데 상당한 시간이 필요했을 것임
- 초심 박사과정 학생에게 비교적 부드러운 공개 문제를 주는 방식의 연구 훈련은 더 어려워질 수 있음
- LLM이 “부드러운 문제”를 풀 수 있다면, 수학에 기여하기 위한 하한은 “아직 아무도 증명하지 않았고 누군가는 흥미롭다고 여기는 결과”가 아니라 “LLM이 증명하지 못하는 결과” 쪽으로 이동함
- 초심자도 LLM을 사용할 수 있으므로, 실제 과제는 LLM이 혼자 하지 못하는 일을 LLM과 협업해 증명하는 것일 수 있음
- Gowers는 최근 LLM과 여러 협업을 했고, 아직 판도를 바꾸는 아이디어까지는 아니어도 유용한 기여를 얻었다고 봄
분야별 차이와 향후 변화
- 이러한 변화가 다른 수학 분야에도 얼마나 일반화되는지는 확실하지 않음
- 조합론은 문제 중심적인 경향이 강함
- 질문에서 출발해 거꾸로 추론하거나, 앞으로 추론하더라도 그 질문을 강하게 의식함
- 다른 분야에서는 아이디어들의 범위에서 출발해 어디로 이어지는지 보는 전방향 추론이 더 중요할 수 있음
- 그런 분야에서는 흥미로운 관찰과 흥미롭지 않은 관찰을 가려내는 능력이 필요하고, LLM이 여기에 얼마나 잘할지는 분명하지 않음
- 현재 LLM에 대한 평가는 몇 달 안에 낡을 가능성이 높을 정도로 발전 속도가 빠름
- 수학 연구 방식, 특히 신규 연구자를 입문시키는 방식은 크게 교란될 가능성이 높음
- 다음 학년에 박사과정을 시작하는 사람은 빨라도 2029년에 마치게 되며, 그때쯤 수학 연구의 의미는 지금과 알아볼 수 없을 만큼 달라졌을 수 있음
수학을 하는 이유의 변화
- 수학 연구를 계속 진로로 삼는 것이 의미 있는지 묻는 이메일이 종종 온다고 밝힘
- 수학 문제와 씨름하는 일에는 여전히 큰 가치가 있지만, 특정 정리나 정의에 자신의 이름이 영원히 연결되는 기쁨의 시대는 끝에 가까울 수 있음
- 수학을 하는 목적이 일종의 불멸성이라면, 그것이 더 오래 가능하지 않을 수 있음을 이해해야 함
- 사고실험으로, 수학자가 LLM과 긴 대화를 나누며 유용한 안내 역할을 했지만 기술적 작업과 핵심 아이디어를 LLM이 모두 수행해 큰 문제를 풀었다면, 이를 그 수학자의 중대한 업적으로 볼지는 의문임
- 이미 답이 알려진 문제를 푸는 것도 만족스러울 수 있지만, 인생의 몇 년을 쓸 충분한 이유로는 부족함
- 더 나은 이유는 어려운 문제를 풀면서 자신의 전문 분야에서 문제 해결 과정 자체에 대한 통찰을 얻는 것임
- 어려운 문제를 직접 풀어 본 사람은 AI의 도움을 받아 문제를 푸는 데도 더 뛰어날 가능성이 큼
- 좋은 코더가 그렇지 않은 사람보다 바이브 코딩을 더 잘하는 것과 비슷함
- 기본 산술을 잘 이해한 사람이 계산기를 더 잘 쓰고, 특히 답이 이상할 때 더 잘 알아차리는 것과 비슷함
- 수학은 전이 가능성이 높은 기술이며, 이는 연구 수준의 수학에도 적용됨
- 수학 연구를 통해 이전 세대와 같은 보상을 얻지는 못할 수 있지만, 앞으로 올 세계에 매우 잘 대비하게 될 가능성이 있음
부록의 기술적 내용
-
부록 1: h-dissociated 집합 구성
- 목표는 직경이 대략 다항식 수준인 h-dissociated 집합을 만드는 것임
- 이 구성은 Bose–Chowla(1963)의 구성에 대한 아주 작은 변형이며, Rajagopal은 이 논문에서 배웠다고 밝힘
- ChatGPT 프리프린트의 Lemma 3.1은 moment curve를 사용하는 다른, 덜 효율적인 구성을 사용함
- 구성은 소수, 유한체, 유한체 확장의 생성원, 각 원소를 특정 거듭제곱 표현과 대응시키는 방식을 사용함
- 제한된 차수 이하의 덧셈 관계를 생성원의 거듭제곱 관계로 바꿔 볼 수 있음
- 확장 차수와 생성원 성질 때문에 낮은 차수의 비영 다항식을 만족하지 않으므로, 양쪽 다항식이 동일해야 함
- 따라서 해당 덧셈 관계는 자명한 관계뿐이고, 집합은 h-dissociated가 됨
- 필요하면 몇 개 원소를 제거해 원하는 크기로 줄일 수 있음
-
부록 2: ChatGPT 구성의 세부 구조
- 고정 상수들을 선택하고, ChatGPT가 만든 두 집합을 사용함
- 원하는 크기를 달성하는 집합 구성은 네 가지 유형의 구성요소를 결합함
- 두 매개변수를 선택하는 한 유형
- 각 차수 값마다 두 매개변수를 선택하는 두 가지 유형
- 전체 원소 수가 맞도록 하는 집합
- 이 구성이 복잡한 이유 중 하나는 충분히 많은 서로 다른 집합을 만들어야 하기 때문임
- 이를 위해 한 영역의 매개변수들과 다른 영역의 매개변수들을 함께 변화시킴
- 매개변수 중 하나를 제거하고 나머지를 그대로 두면, 필요한 수만큼 많은 집합을 만들 수 없게 됨
- 차수가 2인 Nathanson의 구성은 Sidon 집합, 등차수열, 추가 값 하나를 결합하고, 등차수열의 크기와 추가 값을 일정 범위에서 바꿔 필요한 집합들을 만드는 더 단순한 구조임
- 부록 1의 구성으로 각 차수마다 다항식 직경을 갖는 h-dissociated 집합을 얻을 수 있음
- 여러 구성요소를 결합할 때, 기저 벡터를 가진 격자 형태의 구조를 사용함
- 이 구성은 Rajagopal의 Lemma 4.9와 유사하게 생성함수 곱셈 항등식을 보장함
- ChatGPT 프리프린트의 표준 Lemma 2.3에 따라, 해당 구성은 일정 차수의 Freiman 동형을 통해 정수 구간 부분집합으로 옮길 수 있음
- 충분히 큰 경우에 대해 전체 구성이 작동함
-
부록 3: Rajagopal 논문과 ChatGPT 프리프린트 대응
- Rajagopal 논문 Section 4.2는 더 단순한 구성을 사용해 특정 값들을 달성하는 집합을 만듦
- 이 집합들은 다항식 크기의 원소만 갖는 구간의 부분집합이며, 이 사실은 ChatGPT 프리프린트 Section 5에서 관찰됨
- Rajagopal 논문 Section 4.3은 여러 구성요소를 결합하는 핵심 구성을 수행하며, ChatGPT 프리프린트 Sections 2, 3, 4, 6에 대응함
- Rajagopal 논문 Section 4.3.1은 움직이는 요소가 많은 해당 부분의 개요를 제공함
- Rajagopal 논문 Section 4.3.2는 구성요소 결합 방식을 설명하고, Rajagopal은 이를 disjoint union이라고 부름
- 생성함수를 장부 정리 도구로 도입해 집합의 합집합 크기를 추적하며, 이는 ChatGPT 프리프린트 Section 2와 Section 4에 대응함
- Rajagopal 논문 Section 4.3.3은 각 구성요소 집합의 생성함수를 계산하며, Lemma 4.15와 Lemma 4.17을 포함함
- 이는 ChatGPT 프리프린트 Section 3과 Section 6.1에 대응하고, ChatGPT 프리프린트에서는 한 생성함수가 Lemma 3.3에서, 다른 생성함수가 Lemma 3.4에서 계산됨
- 생성함수를 계산한 뒤 나머지 증명은 Rajagopal 논문과 ChatGPT 프리프린트에서 거의 동일함
- Rajagopal 논문 Section 4.3.4는 구성한 집합들을 변화시킬 때 합집합 크기 값들이 가능한 모든 값을 취함을 보임
- 핵심은 가능한 값들의 집합이 하나의 구간을 이루며, 특정 기준값보다 작은 수와 같은 수를 모두 포함한다는 것임
-
Homepage
-
Tech blog
- ChatGPT 5.5 Pro를 최근 사용한 경험