ChatGPT 5.5 Pro를 최근 사용한 경험

2 hours ago 2

Tim Gowers는 ChatGPT 5.5 Pro로 약 1시간 만에 조합론의 박사과정 수준 연구 결과를 얻었고, 자신의 수학적 입력은 사실상 없었다고 봄
ChatGPT 5.5 Pro는 Mel Nathanson의 덧셈적 정수론 문제에서 주어진 합집합 크기를 갖는 집합의 직경에 대해 최선일 수밖에 없는 이차 상계 구성을 17분 5초 만에 제시함
이어서 제한 합집합 문제도 같은 방식으로 해결했고, Isaac Rajagopal의 기존 지수적 상계를 다항식 의존성으로 개선하는 논증까지 만들어 Rajagopal에게 거의 확실히 맞는 결과로 보였음
핵심 아이디어는 Rajagopal의 구성에서 기하급수열 구성요소를 h-dissociated 집합 기반 구성으로 바꿔, 필요한 합집합 크기 패턴을 다항식 크기 구간 안에서 재현하는 것이었음
AI가 만든 결과는 출판 가능할 수준으로 보이지만 저널 게재나 arXiv 등록보다는 인간 수학자가 정확성을 인증하는 별도 저장소가 필요할 수 있으며, 초심 연구자의 훈련 기준도 LLM과 협업해 LLM 혼자 못 하는 일을 증명하는 방향으로 이동할 수 있음

LLM이 바꾸는 조합론 문제 풀이

대형 언어 모델은 이미 연구 수준 문제를 풀 수 있는 단계로 보이며, Thomas Bloom의 Erdős 문제 사이트에 올라온 여러 문제도 해결한 것으로 알려져 있음
초기 LLM 성과는 문헌의 기존 답을 찾아내거나 알려진 결과에서 쉽게 따라 나오는 결론을 내는 경우가 많았지만, 이제는 사람이 놓친 쉬운 논증을 LLM이 찾아낼 가능성이 커짐
인간 수학에서도 기존 지식과 증명 기법을 조합하는 일이 상당 부분을 차지하므로, LLM이 “기존 지식만 조합한다”는 위안은 제한적임
조합론에서는 새 조합적 매개변수를 도입한 논문들이 자연스럽게 여러 문제를 낳고, 예전에는 초심 연구자에게 좋은 공개 문제 공급원이었지만 이제는 LLM이 풀지 못할 만큼 어려운지가 새 기준이 됨

Nathanson 문제와 첫 번째 성과

Gowers는 Mel Nathanson의 논문 Diversity, Equity and Inclusion for Problems in Additive Number Theory에 나온 문제들을 ChatGPT 5.5 Pro에 시도하게 했음
Nathanson은 나중에 유행하게 된 문제와 정리에 일찍 관심을 보였고, 그 결과 시의적절하고 영향력 있는 교과서들을 쓴 인물로 소개됨
핵심 대상은 정수 집합의 합집합(sumset), 여러 번 더한 합집합, 주어진 원소 수에서 가능한 합집합 크기들임
원소 수가 주어졌을 때 가능한 합집합 크기가 최소와 최대 사이의 모든 값을 항상 갖지는 않으며, 완전한 기술도 아직 없음
Nathanson은 주어진 원소 수와 합집합 크기를 갖는 집합을 만들 때 필요한 직경(diameter) 의 상계를 제시했고, 이 상계를 개선할 수 있는지 물었음
ChatGPT 5.5 Pro는 17분 5초 동안 생각한 뒤, 최선일 수밖에 없는 이차 상계를 주는 구성을 제시함
Gowers가 일반적인 수학 프리프린트 스타일의 LaTeX 파일로 다시 써 달라고 하자, ChatGPT는 2분 23초 뒤 해당 형태를 제공했고 Gowers는 논증이 맞는지 확인하는 데 시간을 썼음

Sidon 집합과 제한 합집합으로의 확장

Nathanson의 논증과 ChatGPT의 논증은 모두 주어진 크기의 집합과 주어진 크기의 합집합을 만들기 위해 Sidon 집합과 등차수열을 함께 쓰는 아이디어에 기반함
Sidon 집합은 여기서 합집합 크기가 최대인 집합이라는 단순화된 의미로 쓰임
세부 조정을 위해 등차수열 근처에 추가 점 하나를 더할 수 있고, 여러 매개변수를 조절하면 원하는 크기의 집합들을 얻을 수 있음
Nathanson은 이 논문의 Theorem 5에서 귀납적 논증을 제시했지만, 풀어 쓰면 사실상 2의 거듭제곱으로 된 Sidon 집합을 쓰는 구조로 보임
ChatGPT의 개선은 더 효율적인 Sidon 집합을 쓴 데서 나왔고, 이차 직경을 갖는 Sidon 집합을 찾을 수 있다는 사실은 잘 알려져 있음
Gowers는 이어서 합집합 크기 대신 제한 합집합(restricted sumset) 의 크기를 보는 밀접한 문제도 시도시켰고, ChatGPT는 별 어려움 없이 같은 방식의 결과를 냄
두 결과를 중복 없이 하나의 노트로 정리한 문서는 여기에 공개됨

일반 차수 문제와 Rajagopal 논문 개선

Gowers는 더 일반적인 경우에 대해 ChatGPT가 무엇을 할 수 있는지도 물었음
원래는 훨씬 덜 낙관적이었는데, 앞선 증명이 Erdős와 Szemerédi의 결과, 즉 만들어야 할 크기들을 정확히 알고 있다는 사실에 본질적으로 의존했기 때문임
Nathanson 논문에는 MIT 학생 Isaac Rajagopal의 논문이 나오며, Rajagopal은 고정된 차수마다 지수적 의존성을 증명했음
Rajagopal에게 실제 난점은 “가능한 크기 집합을 모른다”는 데 있지 않았음
- 그의 논증은 충분히 큰 경우에 대한 완전한 기술을 제공함
- 고정된 차수에 대해 다항식 의존성을 보이려면 충분히 큰 경우만 가정해도 됨
- 실제 난점은 주어진 합집합 크기를 갖는 집합을 만드는 구성이 훨씬 복잡하고, 차수가 커질수록 다항식의 차수도 커져 더 많은 매개변수가 필요하다는 데 있음
ChatGPT의 과제는 문제를 처음부터 푸는 것이 아니라 Rajagopal의 논증을 조이는 것이었음
진행 과정은 다음과 같음
- 16분 41초 뒤, 기존 상계를 지수 함수에서 임의의 양의 상수에 대해 더 작은 지수 형태로 개선하는 논증을 제시함
- 프리프린트 형태로 작성하는 데 추가로 47분 39초가 걸림
- Gowers는 이를 Nathanson에게 보냈고, Nathanson은 Rajagopal에게 전달했으며, Rajagopal에게는 맞아 보였음
- ChatGPT와 Rajagopal 모두 다항식 상계로 더 밀어붙이려면 무엇이 필요할지 일부 추측했고, Gowers는 ChatGPT에 이를 시도하게 함
- 13분 33초 뒤 ChatGPT는 그런 논증이 존재할 가능성에 낙관적이지만 확인해야 할 기술적 명제가 몇 개 있다고 답함
- 확인을 요청하자 9분 12초 뒤 검사를 마쳤고, 다시 프리프린트 형태 작성을 요청함
- 31분 40초 뒤 프리프린트가 준비됐고, 문서는 여기에 공개됨
- Rajagopal은 이를 거의 확실히 맞는 것으로 봤고, 이는 줄 단위만이 아니라 아이디어 수준에서도 그렇다는 뜻으로 받아들여짐

AI가 만든 수학 결과를 어디에 둘 것인가

사람이 만든 결과였다면 출판 가능했을 수준이므로, 이를 AI slop이라고 부르기는 부적절해 보임
반면 저널에 싣는 일은 별 의미가 없어 보임
- 결과는 무료로 공개될 수 있음
- 누구도 “공로”를 필요로 하지 않음
- 다만 ChatGPT가 구축할 수 있는 틀을 만든 Rajagopal에게는 많은 공로가 있음
arXiv가 AI 작성 콘텐츠를 받지 않는 정책을 가진 것으로 이해되며, 이는 합리적이라고 봄
AI가 만든 결과를 둘 별도 저장소가 필요할 수 있음
- 인간 수학자가 정확성을 인증한 결과만 포함하는 조정 절차가 바람직할 수 있음
- 더 좋게는 증명 보조기로 형식화된 결과일 수 있음
- 인간이 쓴 논문에서 제기된 질문에 답하는 결과인지도 기준이 될 수 있음
조정 절차가 막대한 작업량을 만들면 곤란하고, 그 작업을 다시 AI가 맡는 방향에는 명백한 위험이 있음
당분간 해당 결과는 공개 링크로 접근 가능하며, LLM의 문헌 검색 능력이 좋아졌기 때문에 Nathanson의 문제가 해결됐는지 찾으려는 사람에게 발견 가능할 수도 있음

Isaac Rajagopal의 평가와 기술적 배경

ChatGPT가 기여한 핵심
- ChatGPT는 몇 번의 프롬프트만으로 특정 상계를 지수적 의존성에서 다항식 의존성으로 개선함
- 첫 개선은 Rajagopal의 작업을 비교적 일상적으로 수정한 것이었지만, 다항식 개선은 상당히 인상적이었음
- ChatGPT가 낸 아이디어는 독창적이고 영리했으며, Rajagopal이 1~2주 고민 끝에 떠올렸다면 자랑스러워했을 법한 종류였음
- ChatGPT는 Rajagopal 자신의 증명과 비슷한 방법을 사용해 1시간도 안 돼 아이디어를 찾고 증명함
문제의 배경
- 이 상계 문제는 Rajagopal이 Duluth REU(Research Experience for Undergrads) 프로그램에서 다뤘던 문제와 밀접함
- 핵심 대상은 가능한 여러 번 합집합 크기의 집합과, 이를 특정 원소 수의 정수 집합으로 모두 실현하기 위한 최소 범위임
- Rajagopal은 지난여름 충분히 큰 경우 가능한 값들의 집합을 명시적으로 특성화했음
- 불가능하다고 배제하지 못한 모든 크기를 실현하는 집합들을 구성했고, 이에 따라 해당 상계는 그 구성을 최적화해 얻을 수 있음
기하급수적 크기 구성의 대체
- Rajagopal의 원래 구성은 분석이 쉬운 여러 작은 구성요소 집합을 결합하는 방식임
- 일부 구성요소는 여러 값의 매개변수에 대한 기하급수열 형태였고, 그 원소는 매개변수에 대해 지수적으로 커졌음
- Rajagopal은 Tim을 통해 ChatGPT에, 이 기하급수열과 비슷한 합집합 크기를 가지면서 원소 크기는 다항식으로 제한되는 집합이 있는지 물었음
- ChatGPT는 “다항식 구간 안에 기하급수열의 절반을 밀어 넣은” 것처럼 행동하는 집합들을 구성함
- 이는 직관에 반하는 구성으로 보임

Bₕ 집합, dissociated 집합, ChatGPT의 구성 아이디어

Bₕ 집합의 역할
- 주어진 차수에 대해, 한쪽 합이 다른쪽 합의 재배열인 자명한 해를 제외하고는 합 관계가 없는 집합을 Bₕ 집합으로 부름
- 크기가 정해진 Bₕ 집합에서는 반복을 허용해 원소들을 고르는 방식과 여러 번 합집합의 원소가 정확히 대응함
- “stars and bars”로 계산하면, 이는 같은 크기의 집합 중 가능한 최대 여러 번 합집합 크기임
- Sidon 집합은 이 관점에서 B₂ 집합임
기하급수열이 재현하던 성질
- 특정 기하급수열 집합은 Bₕ 집합이지만, 더 높은 차수의 B 집합은 아님
- 방해가 되는 관계들은 일정한 형태의 합 관계로 나타남
- 한 집합에서는 합집합 크기가 매개변수의 선형 함수가 되고, 다른 집합에서는 이차 함수가 됨
- ChatGPT는 이 네 가지 성질을 만족하면서도 원소가 모두 매개변수에 대해 다항식 크기인 새 집합들을 찾음
h-dissociated 집합 사용
- ChatGPT의 구성은 h-dissociated 집합을 사용함
- h-dissociated 집합은 제한된 차수 이하의 합 관계에서 자명한 해만 허용하는 집합임
- 크기가 대략 매개변수와 같고, 직경이 다항식인 h-dissociated 집합을 만들 수 있음
- 이런 구성은 유한체를 사용하는 Singer(1938)와 Bose–Chowla(1963)의 구성으로 거슬러 올라가며, Appendix 1에서 설명됨
관계 수를 절반만 담는 직관
- ChatGPT가 만든 두 집합은 기하급수열 대응물과 비교해 특정 합 관계를 절반 정도만 포함함
- 동시에 h-dissociated 성질 덕분에 다른 낮은 차수 관계는 거의 없음
- 그 결과 다항식 구간 안에 있으면서도 필요한 합집합 크기 패턴을 재현함
- Rajagopal에게 h-dissociated 집합으로 차수 이하 관계를 통제하는 ChatGPT의 아이디어는 매우 교묘하고, 완전히 독창적으로 보였음

ChatGPT 증명과 Rajagopal 증명의 대응

ChatGPT의 증명은 Rajagopal의 원래 증명에서 기하급수열 구성요소를 ChatGPT의 새 구성요소로 바꾼 형태와 매우 비슷함
최종 구성은 여러 차수 값에 대해 새 집합들을 결합하고, 여기에 등차수열과 한 점의 합집합으로 된 또 다른 집합을 결합함
직관적으로 새 집합들은 큰 합집합을 만들고, 등차수열은 작은 합집합을 만들기 때문에, 이를 결합하면 중간 크기의 합집합들을 모두 얻을 수 있을 것처럼 보임
실제 증명은 상당히 복잡하며, Rajagopal의 논문 Section 4와 ChatGPT 프리프린트 전체를 차지함
비교를 위해 해당 양의 하한은 적어도 특정 차수의 거듭제곱 수준임을 쉽게 볼 수 있지만, 실제 값은 알려져 있지 않음
Rajagopal은 Tim이 ChatGPT 5.5 Pro에 넣은 문제가 우연히 자신의 arXiv 논문으로 이어진 점에 놀랐다고 밝힘

수학 연구와 박사과정 훈련에 대한 의미

ChatGPT가 2시간 안에 찾은 결과는 조합론 박사논문의 충분히 합리적인 한 장에 해당하는 수준으로 평가됨
Isaac의 아이디어에 크게 기대고 있어 놀라운 결과는 아니지만, 그 아이디어의 비자명한 확장이었음
박사과정 학생이 같은 확장을 찾으려면 Rajagopal의 논문을 소화하고, 최적이 아닐 수 있는 지점을 찾고, 사용된 여러 대수적 기법에 익숙해지는 데 상당한 시간이 필요했을 것임
초심 박사과정 학생에게 비교적 부드러운 공개 문제를 주는 방식의 연구 훈련은 더 어려워질 수 있음
LLM이 “부드러운 문제”를 풀 수 있다면, 수학에 기여하기 위한 하한은 “아직 아무도 증명하지 않았고 누군가는 흥미롭다고 여기는 결과”가 아니라 “LLM이 증명하지 못하는 결과” 쪽으로 이동함
초심자도 LLM을 사용할 수 있으므로, 실제 과제는 LLM이 혼자 하지 못하는 일을 LLM과 협업해 증명하는 것일 수 있음
Gowers는 최근 LLM과 여러 협업을 했고, 아직 판도를 바꾸는 아이디어까지는 아니어도 유용한 기여를 얻었다고 봄

분야별 차이와 향후 변화

이러한 변화가 다른 수학 분야에도 얼마나 일반화되는지는 확실하지 않음
조합론은 문제 중심적인 경향이 강함
- 질문에서 출발해 거꾸로 추론하거나, 앞으로 추론하더라도 그 질문을 강하게 의식함
다른 분야에서는 아이디어들의 범위에서 출발해 어디로 이어지는지 보는 전방향 추론이 더 중요할 수 있음
그런 분야에서는 흥미로운 관찰과 흥미롭지 않은 관찰을 가려내는 능력이 필요하고, LLM이 여기에 얼마나 잘할지는 분명하지 않음
현재 LLM에 대한 평가는 몇 달 안에 낡을 가능성이 높을 정도로 발전 속도가 빠름
수학 연구 방식, 특히 신규 연구자를 입문시키는 방식은 크게 교란될 가능성이 높음
다음 학년에 박사과정을 시작하는 사람은 빨라도 2029년에 마치게 되며, 그때쯤 수학 연구의 의미는 지금과 알아볼 수 없을 만큼 달라졌을 수 있음

수학을 하는 이유의 변화

수학 연구를 계속 진로로 삼는 것이 의미 있는지 묻는 이메일이 종종 온다고 밝힘
수학 문제와 씨름하는 일에는 여전히 큰 가치가 있지만, 특정 정리나 정의에 자신의 이름이 영원히 연결되는 기쁨의 시대는 끝에 가까울 수 있음
수학을 하는 목적이 일종의 불멸성이라면, 그것이 더 오래 가능하지 않을 수 있음을 이해해야 함
사고실험으로, 수학자가 LLM과 긴 대화를 나누며 유용한 안내 역할을 했지만 기술적 작업과 핵심 아이디어를 LLM이 모두 수행해 큰 문제를 풀었다면, 이를 그 수학자의 중대한 업적으로 볼지는 의문임
이미 답이 알려진 문제를 푸는 것도 만족스러울 수 있지만, 인생의 몇 년을 쓸 충분한 이유로는 부족함
더 나은 이유는 어려운 문제를 풀면서 자신의 전문 분야에서 문제 해결 과정 자체에 대한 통찰을 얻는 것임
어려운 문제를 직접 풀어 본 사람은 AI의 도움을 받아 문제를 푸는 데도 더 뛰어날 가능성이 큼
- 좋은 코더가 그렇지 않은 사람보다 바이브 코딩을 더 잘하는 것과 비슷함
- 기본 산술을 잘 이해한 사람이 계산기를 더 잘 쓰고, 특히 답이 이상할 때 더 잘 알아차리는 것과 비슷함
수학은 전이 가능성이 높은 기술이며, 이는 연구 수준의 수학에도 적용됨
수학 연구를 통해 이전 세대와 같은 보상을 얻지는 못할 수 있지만, 앞으로 올 세계에 매우 잘 대비하게 될 가능성이 있음

부록의 기술적 내용

부록 1: h-dissociated 집합 구성
- 목표는 직경이 대략 다항식 수준인 h-dissociated 집합을 만드는 것임
- 이 구성은 Bose–Chowla(1963)의 구성에 대한 아주 작은 변형이며, Rajagopal은 이 논문에서 배웠다고 밝힘
- ChatGPT 프리프린트의 Lemma 3.1은 moment curve를 사용하는 다른, 덜 효율적인 구성을 사용함
- 구성은 소수, 유한체, 유한체 확장의 생성원, 각 원소를 특정 거듭제곱 표현과 대응시키는 방식을 사용함
- 제한된 차수 이하의 덧셈 관계를 생성원의 거듭제곱 관계로 바꿔 볼 수 있음
- 확장 차수와 생성원 성질 때문에 낮은 차수의 비영 다항식을 만족하지 않으므로, 양쪽 다항식이 동일해야 함
- 따라서 해당 덧셈 관계는 자명한 관계뿐이고, 집합은 h-dissociated가 됨
- 필요하면 몇 개 원소를 제거해 원하는 크기로 줄일 수 있음
부록 2: ChatGPT 구성의 세부 구조
- 고정 상수들을 선택하고, ChatGPT가 만든 두 집합을 사용함
- 원하는 크기를 달성하는 집합 구성은 네 가지 유형의 구성요소를 결합함
  - 두 매개변수를 선택하는 한 유형
  - 각 차수 값마다 두 매개변수를 선택하는 두 가지 유형
  - 전체 원소 수가 맞도록 하는 집합
- 이 구성이 복잡한 이유 중 하나는 충분히 많은 서로 다른 집합을 만들어야 하기 때문임
- 이를 위해 한 영역의 매개변수들과 다른 영역의 매개변수들을 함께 변화시킴
- 매개변수 중 하나를 제거하고 나머지를 그대로 두면, 필요한 수만큼 많은 집합을 만들 수 없게 됨
- 차수가 2인 Nathanson의 구성은 Sidon 집합, 등차수열, 추가 값 하나를 결합하고, 등차수열의 크기와 추가 값을 일정 범위에서 바꿔 필요한 집합들을 만드는 더 단순한 구조임
- 부록 1의 구성으로 각 차수마다 다항식 직경을 갖는 h-dissociated 집합을 얻을 수 있음
- 여러 구성요소를 결합할 때, 기저 벡터를 가진 격자 형태의 구조를 사용함
- 이 구성은 Rajagopal의 Lemma 4.9와 유사하게 생성함수 곱셈 항등식을 보장함
- ChatGPT 프리프린트의 표준 Lemma 2.3에 따라, 해당 구성은 일정 차수의 Freiman 동형을 통해 정수 구간 부분집합으로 옮길 수 있음
- 충분히 큰 경우에 대해 전체 구성이 작동함
부록 3: Rajagopal 논문과 ChatGPT 프리프린트 대응
- Rajagopal 논문 Section 4.2는 더 단순한 구성을 사용해 특정 값들을 달성하는 집합을 만듦
- 이 집합들은 다항식 크기의 원소만 갖는 구간의 부분집합이며, 이 사실은 ChatGPT 프리프린트 Section 5에서 관찰됨
- Rajagopal 논문 Section 4.3은 여러 구성요소를 결합하는 핵심 구성을 수행하며, ChatGPT 프리프린트 Sections 2, 3, 4, 6에 대응함
- Rajagopal 논문 Section 4.3.1은 움직이는 요소가 많은 해당 부분의 개요를 제공함
- Rajagopal 논문 Section 4.3.2는 구성요소 결합 방식을 설명하고, Rajagopal은 이를 disjoint union이라고 부름
- 생성함수를 장부 정리 도구로 도입해 집합의 합집합 크기를 추적하며, 이는 ChatGPT 프리프린트 Section 2와 Section 4에 대응함
- Rajagopal 논문 Section 4.3.3은 각 구성요소 집합의 생성함수를 계산하며, Lemma 4.15와 Lemma 4.17을 포함함
- 이는 ChatGPT 프리프린트 Section 3과 Section 6.1에 대응하고, ChatGPT 프리프린트에서는 한 생성함수가 Lemma 3.3에서, 다른 생성함수가 Lemma 3.4에서 계산됨
- 생성함수를 계산한 뒤 나머지 증명은 Rajagopal 논문과 ChatGPT 프리프린트에서 거의 동일함
- Rajagopal 논문 Section 4.3.4는 구성한 집합들을 변화시킬 때 합집합 크기 값들이 가능한 모든 값을 취함을 보임
- 핵심은 가능한 값들의 집합이 하나의 구간을 이루며, 특정 기준값보다 작은 수와 같은 수를 모두 포함한다는 것임