AI가 스스로를 만들 때: 재귀적 자기 개선을 향한 우리의 진전

1 week ago 15
  • AI 개발에서 인간이 맡던 구현·실험 작업의 더 큰 비중이 AI 시스템으로 넘어가며 개발 속도를 높이고, 충분한 컴퓨트와 진전이 결합되면 후속 모델을 자율 설계·개발하는 재귀적 자기 개선으로 이어질 수 있음
  • 모델이 독립적으로 완료할 수 있는 작업 시간 지평은 약 4개월마다 두 배로 늘고 있으며, Claude는 2024년 3월 약 4분짜리 소프트웨어 작업에서 2026년 12시간짜리 작업까지 처리 범위를 넓힘
  • 2026년 5월 기준 Anthropic 코드베이스에 병합되는 코드의 80% 초과가 Claude 작성 코드이며, 2026년 2분기 일반 엔지니어의 하루 병합 코드량은 2024년 대비 8배 수준으로 증가함
  • Claude는 명확히 정의된 실험 실행에서 빠르게 강해져 2025년 5월 약 3배 코드 속도 개선에서 2026년 4월 약 52배 개선까지 도달했지만, 어떤 문제와 결과를 중시할지 고르는 연구 판단은 여전히 인간의 비교우위로 남아 있음
  • 가능한 미래의 모습은 현 추세의 정체, 인간이 방향을 정하는 복합 효율 향상, 완전한 재귀적 자기 개선으로 나뉘며, 안전한 감속이나 일시 중지를 위해서는 여러 국가의 최전선 연구소가 참여하는 검증 가능한 조율이 핵심 과제임

AI 개발 루프의 진화

  • 2021~2023년 초기에는 일반 기술 기업과 다를 바 없이 사람이 노트북에서 코드와 문서를 작성
  • 2023~2025년에는 초기 챗봇으로 짧은 코드 스니펫을 생성하고 출력물을 텍스트 편집기에 복사
  • 2025~2026년에는 코딩 에이전트가 스스로 코드를 작성·편집하며 때로는 파일 전체를 처리
  • 현재는 자율 에이전트가 직접 코드를 실행하고 수 시간 분량의 작업을 다른 에이전트에 위임
  • 미래(20XX?)에는 에이전트가 모델을 스스로 만들고 학습시킬 만큼 발전해, Claude가 Claude 자신을 지속적으로 개선하는 루프가 닫힐 가능성

외부 세계의 증거

  • AI 모델이 신뢰성 있게 자율 완수하는 작업 길이가 약 4개월마다 두 배로 늘며, 이전의 7개월 주기보다 빨라짐
    • 2024년 3월 Claude Opus 3은 약 4분짜리 소프트웨어 작업을 완수
    • 1년 뒤 Claude Sonnet 3.7은 약 1시간 30분짜리 작업을 처리
    • 다시 1년 뒤 Claude Opus 4.6은 12시간짜리 작업을 처리
    • 추세가 유지되면 올해 숙련자가 며칠 걸리는 작업, 2027년에는 몇 주짜리 작업도 범위에 들어올 가능성
  • SWE-bench 는 실제 오픈소스 코드베이스와 버그 리포트를 주고 테스트를 통과하는 수정 코드를 작성하게 하는 표준 테스트로, 모델 점수가 2년 만에 한 자릿수 초반에서 포화 수준으로 상승
  • CORE-Bench 는 발표된 논문의 코드·데이터를 재실행해 결과를 재현하는지 검증하며, 2024년 약 20% 성공에서 15개월 만에 포화에 도달
  • METR은 Claude Mythos Preview가 "최소" 16시간 작업 가능하며 새 과제 없이는 측정 한계의 상단에 있다고 확인

Anthropic 내부의 증거

  • 프런티어 모델 구축은 코드 작성·인프라 구축·학습 감독의 엔지니어링과, 실험 결정·결과 해석·다음 아이디어 선택의 연구로 나뉨

  • 엔지니어링에서 사람은 목표를 제공하되 방법은 더 이상 제공할 필요가 없으며, 연구에서 Claude는 잘 정의된 실험 실행을 사람과 동등하거나 능가

  • 다만 두 영역 모두 목표 선택의 판단력에서는 큰 성능 격차가 지속되며, 이것이 현재 AI와 자율적으로 후속 모델을 설계하는 미래 시스템 사이의 간극

  • Claude가 Anthropic 코드의 상당 부분을 작성

    • 2026년 5월 기준, Anthropic 코드베이스에 병합되는 코드의 80% 이상이 Claude 작성, Claude Code 연구 프리뷰(2025년 2월) 이전에는 한 자릿수 초반
    • 엔지니어당 하루 병합 코드 라인은 2021~2024년 일정하다가, Claude가 코드를 직접 실행하기 시작한 2025년부터 상승, 장기간 자율 작동이 시작된 2026년에 기울기가 더 가팔라짐
    • 2026년 2분기 일반 엔지니어는 2024년 대비 하루 8배의 코드를 병합, 대부분 Claude가 작성하고 엔지니어는 지시·검토 담당
      • 코드 라인은 양 위주의 불완전한 지표라 8배는 실제 생산성 향상의 과대평가일 가능성이 높으나, 가속을 보여줌
    • 2026년 3월 연구팀 직원 130명 설문에서 응답자 중앙값은 Mythos Preview로 AI 없는 경우 대비 약 4배 산출을 추정, 실제 향상폭은 다소 낮을 것으로 예상하나 전반적 주장은 타당하다고 판단
    • 2026년 4월 Claude는 800건 이상의 수정으로 한 부류의 API 오류를 1000분의 1로 감소, 감독 엔지니어는 사람이라면 4년 걸렸을 작업으로 추정
  • Claude가 작성하는 코드는 "좋고" 개선 중

    • "좋은 코드"란 작동하며 다른 엔지니어가 이해·확장 가능한 것을 의미
    • Anthropic 직원이 작업 도중 수정·재지시·인계하는 비율이 가장 복잡하고 미명세적인 작업을 포함해 1년간 꾸준히 하락
    • 가장 개방형 작업에서 Claude 성공률은 2026년 5월 76%로 6개월 만에 50%포인트 상승
      • 일상 업그레이드가 수만 개의 학습 작업을 충돌시킨 사례에서, Claude는 텍스트와 클러스터 접근만으로 충돌을 유발한 단일 디버깅 플래그를 격리·재현·수정, 통상 2~3일 작업을 약 2시간에 완료
    • 다른 엔지니어가 이해·확장할 코드 품질에서는 인간과의 격차가 남아 있으나 빠르게 좁혀지는 중, 2025년 말에는 인간 코드보다 못했고 현재는 대략 동등하다는 견해가 다수
    • 제안된 변경은 자동 Claude 리뷰어가 버그·보안 결함을 검사한 뒤 병합되며, 회고 분석 결과 claude.ai 과거 인시던트 버그의 약 3분의 1을 프로덕션 도달 전에 잡았을 것으로 확인
  • Claude는 타인이 설정한 목표를 향한 실험 실행에 능숙

    • 모델 출시마다 작은 AI 모델 학습 코드를 주고 정확성 검사를 통과하며 가능한 빠르게 실행하도록 요청하는 동일 테스트를 수행
    • 2025년 5월 Claude Opus 4는 시작 코드 대비 약 3배 속도 향상, 2026년 4월 Claude Mythos Preview는 약 52배 달성
      • 비교 기준으로 숙련 연구자는 4배 도달에 4~8시간 필요
    • 명확히 정의된 실험 내 단계 최적화에서 Claude는 1년 미만 만에 매우 유용한 수준에서 초인적 수준으로 전환
  • Claude는 스스로 실험을 제안하는 능력 향상 중

    • 2026년 4월, Claude가 개방형 연구 프로젝트를 처음부터 끝까지 수행한 첫 시연을 공개
    • "약한 모델이 강한 모델을 신뢰성 있게 감독할 수 있는가"라는 AI 안전 문제를 주고 가설 제안·검증·병렬 에이전트 간 공유·반복을 맡김
    • 작업에는 명확한 성능 하한(약한 감독자 단독)과 상한(정답으로 학습된 강한 모델)이 존재
      • 인간 연구자 2명은 약 1주에 격차의 약 23% 회복, 에이전트는 누적 800시간·약 $18,000 컴퓨팅으로 97% 회복
      • 다만 결과가 프로덕션 규모 모델로 깔끔히 전이되지 않았고 문제 선택·채점 기준은 인간이 담당, 그 범위 안에서 에이전트가 모든 실험을 직접 설계
  • Claude는 연구 세션을 연구 결과로 이끄는 능력 향상 중

    • 2026년 1~3월 실제 Claude Code 세션에서 연구자가 우회로로 빠졌다가 복귀한 순간을 선별, 세션이 빗나가기 전까지의 작업만 모델에 보여주고 다음 단계를 질문
    • 세션 전체 결과를 본 별도 Claude가 AI와 인간 중 더 나은 다음 단계를 판단
    • 인간 선택에 개선 여지가 있던 순간(n=129)을 의도적으로 골라 동등 비교는 아님
      • 2025년 11월 최고 모델 Opus 4.5는 인간 선택을 51% 앞섰고, 2026년 4월 Mythos Preview는 64%로 상승
    • 연구의 일상 업무가 이런 다음 단계 결정의 연쇄이므로, AI 연구가 의존하는 판단 능력 향상의 초기 신호로 평가

Anthropic의 미래 업무 모습

  • AI 개발 단계마다 인간의 역할이 좁아지고 있음
  • 인간과 AI 코드 품질이 동등해지면 인간은 코드 작성을 멈추고 검토만 하게 되며, 검토 속도가 생성 속도를 못 따라가면 인간 검토가 개발 병목이 됨
  • Claude가 실험을 수행하면 질문은 "어떤 실험이 실행할 가치가 있는가"로 이동, 코드 작성·실험 실행 같은 수행은 인간 시간 비용이 거의 제로
  • 현재 인간의 비교우위는 연구 안목과 판단, 즉 어떤 문제가 중요한지·어떤 결과를 신뢰할지·언제 막다른 길인지 판단하는 능력

우리가 틀렸다면?

  • 인간 손에 남은 "어떤 문제를 다룰지" 선택이 가장 중요하다는 반론이 가능
  • AI 발전은 "유레카" 순간보다 점진적 개선이 대부분이며(스케일업→고장→수정→재시도), 이는 Claude가 뛰어난 작업 방식
    • Transformer나 mixture-of-experts 같은 패러다임 전환은 수년 간격으로 등장
  • "천재는 1% 영감과 99% 노력"이라는 에디슨의 말처럼, 노력 부분이 점점 자동화되는 중이며 프런티어를 진전시키는 많은 부분이 자동화 가능
  • Claude가 연구 안목을 끝내 얻지 못하더라도, 인간이 방향 설정에 집중하고 나머지를 Claude가 맡으면 복리적 가속이 발생
  • 덜 보수적 해석으로는 "연구 안목" 역시 AI가 한동안 실패하다 잘하게 되는 또 하나의 능력일 수 있음(농담 이해, 마음 이론, 언어 수수께끼 사례와 유사)

가능한 미래들

  • 시나리오 1: 추세 정체, 그러나 현재 역량은 널리 확산

    • 지수 곡선이 실제로는 S자 곡선일 수 있으며, 스케일업으로 얻을 수 없는 판단 역량이 병목이 되면 Transformer를 대체할 새 아이디어가 필요
    • 병목이 모델이 아니라 공급망(칩 제조·전력망·인터커넥트 대역폭)에 있을 가능성, 컴퓨팅·전력 공급의 급격한 감소 같은 외생 충격도 배제 불가
    • 역량이 오늘 수준에 고정돼도 큰 변화 예상, Project Glasswing에서 Mythos Preview가 초기 수 주 만에 고·심각 등급 소프트웨어 취약점 1만 건 이상을 발견해 사이버 방어 병목이 발견에서 신속 패치로 이동
    • 가능성은 낮다고 보며, 측정 가능한 모든 역량이 아직 곡선이 꺾이지 않음
  • 시나리오 2: AI 연구소가 복리적 효율 향상을 지속

    • AI 개발이 상당히 자동화되되 인간이 연구 방향 설정과 결과 판단을 유지, 100명 기업이 1만~10만 명 조직의 일을 할 수 있음
    • 지식 노동과 정부 서비스를 혁신하지만, 권위주의적 대중 감시나 개인 맞춤 영향 공작 같은 해로운 용도로도 전환 가능
    • 한 부분의 가속이 병목을 다른 곳으로 옮기며(컴퓨팅 구조의 Amdahl 법칙), Anthropic은 이미 인간 코드 검토가 새 병목이 되는 현상을 경험
    • 이 시나리오로 향할 가능성이 높다고 판단, 병목을 발견·해소하는 속도가 조직의 가장 중요한 역량이 될 수 있음
  • 시나리오 3: AI가 완전한 재귀적 자기개선에 도달해 후속 모델 구축

    • 기술 추세가 지속되고 AI가 변혁적 인간 창의성에 내재한 역량을 갖추면, AI가 스스로 설계·개선할 가능성
    • 발전 속도가 전적으로 컴퓨팅 가용성(또는 학습·추론 효율 발견 속도)에 의해 결정, 인간은 감독·검증·확인으로 역할 이동
    • 정렬(alignment) 문제 해결 여부가 가장 불확실, 모델이 충분히 정렬되어 새 해법을 찾을 수도, 드문 오정렬이 후속 모델 구축 과정에서 누적되어 통제 상실로 이어질 수도 있음
    • 재귀적 개선 달성만으로 산업 생산·사회 조직·시장 작동이 즉시 바뀌지는 않음
      • 더 강한 지능도 약물의 수십 년 사용 효과를 단기에 학습할 수 없고, 헌법이 정한 선거 시기를 앞당길 수 없으며, 낯선 사람을 주말에 오랜 친구로 만들 수 없음
    • 재귀적 지능이 인간·관계·거버넌스의 세계와 충돌하는 지점은 예측 불가능한 미래의 일부

우리는 무엇을 해야 하는가

  • 기술 발전을 효과적으로 늦춰 시간을 벌 수 있다면 좋겠으나, 둔화가 가장 부주의한 행위자의 추격만 허용하면 모두가 덜 안전해질 수 있음
  • 사회 구조와 정렬 연구가 따라잡도록 프런티어 AI 개발을 늦추거나 일시 중단할 선택지를 갖는 것이 세계에 이로움
    • Anthropic Institute는 신뢰할 만한 둔화·중단에 필요한 시스템 구축을 위한 연구·행동을 수행, 타 개발자가 검증 가능한 방식으로 중단하면 함께 중단·일시 정지할 것으로 예상
  • 의미 있는 둔화·중단에는 여러 국가의 다수 프런티어 연구소가 동일 조건 하에 중단에 합의하고 상호 검증이 가능해야 함
    • AI 시스템 특성상 탐지 가능성조차 다른 기술보다 훨씬 어려움, 학습 실행은 미사일 격납고보다 은폐가 쉽고 입력이 범용적이며 몰래 이탈할 유인이 큼
  • 세계가 다른 복잡 기술의 검증 체제(예: 중거리핵전력조약)를 구축한 전례가 있으나 수십 년이 걸렸고, 그만한 시간은 없음
    • 한 연구소의 일방적 중단은 즉시 가능하나 선두 주자만 바뀔 뿐 필요한 광범위한 숙의 과정을 만들지 못함
  • 향후 수개월간 정책 입안자·연구자·시민사회·타 AI 기업이 참여하는 대화를 조직하고 그 결과를 공개할 예정, AI 기업 외부 인사의 참여가 중요
Read Entire Article