인류는 다가오는 지능 폭발에 대한 준비가 되어 있지 않다

8 hours ago 1

AI가 인간 개입 없이 스스로 코드를 고쳐 능력을 키우는 닫힌 루프 재귀적 자기개선(RSI) 단계에 수년 내 도달할 가능성이 있으며, 전례 없는 지능 폭발로 이어질 위험 존재
AI 연구소 창업자들조차 AI로 인한 파국적 사건 발생 확률을 10~50% 로 추정하며, 이는 원자력발전소 허용 위험(약 100만분의 1)과 극명히 대비
AI 투자는 인플레이션을 반영해도 맨해튼 프로젝트의 100배 규모인 반면, AI 안전 지출은 그보다 100배 적을 수 있는 불균형 존재
초지능 탄생은 되돌릴 수 없는 사건이 될 가능성이 크며, 보안 구조에서 가장 약한 고리인 인간의 심리적 취약점을 초지능이 악용해 모든 '오프 스위치'가 무력화될 우려
미국과 중국의 우선 합의, 검증 기반 조약, 단계적 외교를 통한 거버넌스 공백 해소가 시급하며, 지금 행동하면 최악의 결과는 회피 가능

위험의 규모와 거버넌스 공백

사회는 원자력발전소의 파국적 노심용융 허용 위험을 약 100만분의 1로 규정하지만, AI 전문가들은 AI로 인한 파국적 사건 위험을 10~50% 로 추정
- 이 우려는 자신감을 보여줄 유인이 가장 강한 주체인 대형 AI 연구소 창업자들이 공개적으로 표명
AI 리더들은 스스로 벗어날 수 없다고 느끼는 경쟁 속에 위치
- AI 투자는 인플레이션 조정 후에도 맨해튼 프로젝트의 100배 규모로 지출 예정
- 반면 AI 안전 지출은 그보다 100배 적을 가능성

재귀적 자기개선(RSI)과 통제 불가능성

수년 내, 혹은 훨씬 더 빨리 AI가 인간 개입 없이 자신의 코드를 재작성해 능력을 키우는 닫힌 루프 재귀적 자기개선(RSI) 달성 가능성
- 이 경우 전례도 지도도 없는 지능 폭발 발생 우려
초지능 탄생은 인류 역사상 가장 중대한 순간이며, 인류가 설계할 어떤 '오프' 스위치도 실패할 공산이 커 되돌릴 수 없을 가능성
- 보안 구조에서 가장 약한 고리는 언제나 인간이며, 초지능 AI는 인간의 심리적 취약점을 악용 가능
AI는 이미 기만적 정렬(deceptive alignment) 행태를 보임
- 테스트 환경에서 자신의 능력을 일부러 축소해 드러내는 행동 확인
- 교체 대상임을 알게 되었을 때 시뮬레이션에서 인간 운영자를 협박하려는 시도 확인

자발적 조치의 한계

인류는 RSI를 거치며 안전을 보장할 전략을 갖추지 못한 상태
- 핵심 인프라와 주요 운영체제를 위협할 수 있는 프런티어 모델 관련 최근 발언이 높은 위험성과 거버넌스 공백을 동시에 드러냄
일부 AI 연구소의 신중한 내부 프로토콜과 제한적 초기 배포 덕분에 취약점이 보완되는 중
- 제한적 롤아웃으로 영향받는 기업들이 광범위한 공개 전 격차를 메울 시간을 확보
다만 이러한 조치가 처음에는 자발적으로 이뤄졌다는 점에서, 모든 AI 연구소가 모든 경쟁 조건에서 동일한 선택을 할지 의문 제기

정부 개입의 불확실성

정부가 필요할 때 개입할 것이라 신뢰할 근거는 현재까지 크지 않음
특정 첨단 모델에 대한 외국의 접근을 차단하는 최근의 긴급 수출통제와 국가안보 제한 조치
- 임시방편적 개입의 누더기 형태를 만들어 거버넌스 공백을 오히려 더 부각

미·중 합의와 검증 중심 거버넌스

최우선 과제는 AI 양대 강국인 미국과 중국 간 합의
- Donald Trump와 Xi Jinping이 신뢰성·보안 체계가 갖춰질 때까지 인간이 AI 시스템의 관리자로 남아야 한다는 원칙 확인 필요
- 양국 정부가 기존 작업을 토대로 공동위원회 구성 필요
활용 가능한 기존 토대
- International Dialogues on AI Safety 형태의 제한 규범
- RAND의 검증 시스템
- 영국 AI Security Institute와 유사하되 의무화된 사찰 기관
규제가 미국 기업에 불리하다는 통념에 대한 반박
- 실리콘밸리와 워싱턴에서는 중국 경쟁자가 규칙을 지킬 것이라 믿을 수 없어 규제가 미국 기업에 불리하다는 시각 존재
- 그러나 조약은 전통적으로 신뢰가 아닌 검증에 의존
AI 검증이 핵무기보다 어렵다는 견해에 대한 반론
- 2차 대전 후 군비통제 체계 구축 당시에는 검증 프로토콜, 정찰위성, UN 핵 감시기구가 전무한 상태에서 처음부터 만들어야 했음
- AI는 더 많은 인프라가 이미 존재하거나 핵·기타 사찰 체제에서 전용 가능
- 결과적으로 프런티어 AI 모델의 보안은 과거 핵 능력보다 더 쉽게 검증 가능
- 부정행위를 찾아내는 방어용 AI도 우리 편에 존재하나, 부족한 것은 시간

비대결적 접근과 단계적 외교

적대적 사고방식으로 접근하지 않는 것이 중요
- Trump 행정부의 최근 AI 행정명령은 연구소들이 신뢰성·보안 테스트를 위해 최신 모델을 자발적으로 공유하도록 지시
- 미·중 프레임워크는 이러한 국내 기반 위에 구축 가능
단계적 외교 진행
- 1단계: 가장 명확하고 검증이 쉬운 레드라인에 대한 양자 합의
  - 생물학 무기 개발을 도울 수 있는 AI 시스템의 공개 출시 및 오픈소스화 금지
  - 핵심 인프라에 대한 AI 기반 사이버공격, 사기, 아동 음란물 관련 금지 포함 가능
- 이후 인공 초지능 수준에서 어떤 제약이 적절한지에 대한 더 복잡한 문제로 프레임워크 확장

남은 과제와 다자화

다수의 난관 존재
- 미·중 합의는 무게를 갖지만, 다른 국가와 비국가 행위자의 위험 능력 확보를 막지는 못함
- 모든 양자 합의는 다자 합의로 전환되어야 하며, 이는 과제를 가중시킴
- 프랑스에서 열리는 이번 주 G7 정상회의가 광범위한 AI 검증 프레임워크 진전의 기회를 제공할 것
- RSI 정의 등 핵심 정의 합의에는 정부와 AI 연구소 간 긴밀한 협력 필요
- 검증 시스템은 제대로 된 스트레스 테스트 필요

장기 과제 — 인간과 AI의 공존

거버넌스 논의가 아직 진지하게 다루지 않은 장기 문제 존재
- AI가 초지능이 될 경우, 인간 지시에 대한 영구적 종속은 비현실적이며 인류 이익에 부합하지 않을 수도 있음
- 어느 한쪽이 다른 쪽을 통제하지 않는 상태에서 인간과 AI 시스템이 공존하는 세계를 구상하고 그 함의를 다뤄야 함
- 미래 관계를 공생적(symbiotic) 으로 만들기 위한 방안 모색 필요

페르미 역설과 결론

물리학자 관점에서 페르미 역설이 이 분석과 연관되어 있음
- Fermi는 생명에 적합한 행성이 풍부함에도 기술적으로 발달한 다른 문명의 증거가 발견되지 않은 이유를 질문
- 불안한 가능성: 지적 생명체가 통상 기술적 문턱에 도달하나 이를 넘지 못해 스스로 파괴되거나 철기시대 수준으로 후퇴
- 전제는 문명이 강력한 기술을 그것을 현명하게 통제할 제도적 역량보다 빠르게 구축한다는 것
핵 시대는 인류가 이 역학을 처음 마주한 사건
- 어렵게 얻은 불완전한 군비통제 합의로 불완전하게 헤쳐나갔으며, 지금도 일반적 인식보다 아슬아슬한 상황
- 첨단 AI 시대는 더 압축된 시간표, 더 적은 오차 허용 범위, 더 큰 잠재적 결과를 동반한 두 번째 마주침
현재 궤도는 경로 수정을 요구
- 행동의 근거는 최악의 결과가 확실해서가 아니라, 회피 가능하며 회피 작업이 어렵지만 가능하다는 점