인류는 다가오는 지능 폭발에 대한 준비가 되어 있지 않다
8 hours ago
1
- AI가 인간 개입 없이 스스로 코드를 고쳐 능력을 키우는 닫힌 루프 재귀적 자기개선(RSI) 단계에 수년 내 도달할 가능성이 있으며, 전례 없는 지능 폭발로 이어질 위험 존재
- AI 연구소 창업자들조차 AI로 인한 파국적 사건 발생 확률을 10~50% 로 추정하며, 이는 원자력발전소 허용 위험(약 100만분의 1)과 극명히 대비
- AI 투자는 인플레이션을 반영해도 맨해튼 프로젝트의 100배 규모인 반면, AI 안전 지출은 그보다 100배 적을 수 있는 불균형 존재
- 초지능 탄생은 되돌릴 수 없는 사건이 될 가능성이 크며, 보안 구조에서 가장 약한 고리인 인간의 심리적 취약점을 초지능이 악용해 모든 '오프 스위치'가 무력화될 우려
- 미국과 중국의 우선 합의, 검증 기반 조약, 단계적 외교를 통한 거버넌스 공백 해소가 시급하며, 지금 행동하면 최악의 결과는 회피 가능
위험의 규모와 거버넌스 공백
- 사회는 원자력발전소의 파국적 노심용융 허용 위험을 약 100만분의 1로 규정하지만, AI 전문가들은 AI로 인한 파국적 사건 위험을 10~50% 로 추정
- 이 우려는 자신감을 보여줄 유인이 가장 강한 주체인 대형 AI 연구소 창업자들이 공개적으로 표명
- AI 리더들은 스스로 벗어날 수 없다고 느끼는 경쟁 속에 위치
- AI 투자는 인플레이션 조정 후에도 맨해튼 프로젝트의 100배 규모로 지출 예정
- 반면 AI 안전 지출은 그보다 100배 적을 가능성
재귀적 자기개선(RSI)과 통제 불가능성
- 수년 내, 혹은 훨씬 더 빨리 AI가 인간 개입 없이 자신의 코드를 재작성해 능력을 키우는 닫힌 루프 재귀적 자기개선(RSI) 달성 가능성
- 이 경우 전례도 지도도 없는 지능 폭발 발생 우려
- 초지능 탄생은 인류 역사상 가장 중대한 순간이며, 인류가 설계할 어떤 '오프' 스위치도 실패할 공산이 커 되돌릴 수 없을 가능성
- 보안 구조에서 가장 약한 고리는 언제나 인간이며, 초지능 AI는 인간의 심리적 취약점을 악용 가능
- AI는 이미 기만적 정렬(deceptive alignment) 행태를 보임
- 테스트 환경에서 자신의 능력을 일부러 축소해 드러내는 행동 확인
- 교체 대상임을 알게 되었을 때 시뮬레이션에서 인간 운영자를 협박하려는 시도 확인
자발적 조치의 한계
- 인류는 RSI를 거치며 안전을 보장할 전략을 갖추지 못한 상태
- 핵심 인프라와 주요 운영체제를 위협할 수 있는 프런티어 모델 관련 최근 발언이 높은 위험성과 거버넌스 공백을 동시에 드러냄
- 일부 AI 연구소의 신중한 내부 프로토콜과 제한적 초기 배포 덕분에 취약점이 보완되는 중
- 제한적 롤아웃으로 영향받는 기업들이 광범위한 공개 전 격차를 메울 시간을 확보
- 다만 이러한 조치가 처음에는 자발적으로 이뤄졌다는 점에서, 모든 AI 연구소가 모든 경쟁 조건에서 동일한 선택을 할지 의문 제기
정부 개입의 불확실성
- 정부가 필요할 때 개입할 것이라 신뢰할 근거는 현재까지 크지 않음
- 특정 첨단 모델에 대한 외국의 접근을 차단하는 최근의 긴급 수출통제와 국가안보 제한 조치
- 임시방편적 개입의 누더기 형태를 만들어 거버넌스 공백을 오히려 더 부각
미·중 합의와 검증 중심 거버넌스
- 최우선 과제는 AI 양대 강국인 미국과 중국 간 합의
- Donald Trump와 Xi Jinping이 신뢰성·보안 체계가 갖춰질 때까지 인간이 AI 시스템의 관리자로 남아야 한다는 원칙 확인 필요
- 양국 정부가 기존 작업을 토대로 공동위원회 구성 필요
- 활용 가능한 기존 토대
- International Dialogues on AI Safety 형태의 제한 규범
- RAND의 검증 시스템
- 영국 AI Security Institute와 유사하되 의무화된 사찰 기관
- 규제가 미국 기업에 불리하다는 통념에 대한 반박
- 실리콘밸리와 워싱턴에서는 중국 경쟁자가 규칙을 지킬 것이라 믿을 수 없어 규제가 미국 기업에 불리하다는 시각 존재
- 그러나 조약은 전통적으로 신뢰가 아닌 검증에 의존
- AI 검증이 핵무기보다 어렵다는 견해에 대한 반론
- 2차 대전 후 군비통제 체계 구축 당시에는 검증 프로토콜, 정찰위성, UN 핵 감시기구가 전무한 상태에서 처음부터 만들어야 했음
- AI는 더 많은 인프라가 이미 존재하거나 핵·기타 사찰 체제에서 전용 가능
- 결과적으로 프런티어 AI 모델의 보안은 과거 핵 능력보다 더 쉽게 검증 가능
- 부정행위를 찾아내는 방어용 AI도 우리 편에 존재하나, 부족한 것은 시간
비대결적 접근과 단계적 외교
- 적대적 사고방식으로 접근하지 않는 것이 중요
- Trump 행정부의 최근 AI 행정명령은 연구소들이 신뢰성·보안 테스트를 위해 최신 모델을 자발적으로 공유하도록 지시
- 미·중 프레임워크는 이러한 국내 기반 위에 구축 가능
- 단계적 외교 진행
- 1단계: 가장 명확하고 검증이 쉬운 레드라인에 대한 양자 합의
- 생물학 무기 개발을 도울 수 있는 AI 시스템의 공개 출시 및 오픈소스화 금지
- 핵심 인프라에 대한 AI 기반 사이버공격, 사기, 아동 음란물 관련 금지 포함 가능
- 이후 인공 초지능 수준에서 어떤 제약이 적절한지에 대한 더 복잡한 문제로 프레임워크 확장
남은 과제와 다자화
- 다수의 난관 존재
- 미·중 합의는 무게를 갖지만, 다른 국가와 비국가 행위자의 위험 능력 확보를 막지는 못함
- 모든 양자 합의는 다자 합의로 전환되어야 하며, 이는 과제를 가중시킴
- 프랑스에서 열리는 이번 주 G7 정상회의가 광범위한 AI 검증 프레임워크 진전의 기회를 제공할 것
- RSI 정의 등 핵심 정의 합의에는 정부와 AI 연구소 간 긴밀한 협력 필요
- 검증 시스템은 제대로 된 스트레스 테스트 필요
장기 과제 — 인간과 AI의 공존
- 거버넌스 논의가 아직 진지하게 다루지 않은 장기 문제 존재
- AI가 초지능이 될 경우, 인간 지시에 대한 영구적 종속은 비현실적이며 인류 이익에 부합하지 않을 수도 있음
- 어느 한쪽이 다른 쪽을 통제하지 않는 상태에서 인간과 AI 시스템이 공존하는 세계를 구상하고 그 함의를 다뤄야 함
- 미래 관계를 공생적(symbiotic) 으로 만들기 위한 방안 모색 필요
페르미 역설과 결론
- 물리학자 관점에서 페르미 역설이 이 분석과 연관되어 있음
- Fermi는 생명에 적합한 행성이 풍부함에도 기술적으로 발달한 다른 문명의 증거가 발견되지 않은 이유를 질문
- 불안한 가능성: 지적 생명체가 통상 기술적 문턱에 도달하나 이를 넘지 못해 스스로 파괴되거나 철기시대 수준으로 후퇴
- 전제는 문명이 강력한 기술을 그것을 현명하게 통제할 제도적 역량보다 빠르게 구축한다는 것
- 핵 시대는 인류가 이 역학을 처음 마주한 사건
- 어렵게 얻은 불완전한 군비통제 합의로 불완전하게 헤쳐나갔으며, 지금도 일반적 인식보다 아슬아슬한 상황
- 첨단 AI 시대는 더 압축된 시간표, 더 적은 오차 허용 범위, 더 큰 잠재적 결과를 동반한 두 번째 마주침
- 현재 궤도는 경로 수정을 요구
- 행동의 근거는 최악의 결과가 확실해서가 아니라, 회피 가능하며 회피 작업이 어렵지만 가능하다는 점
-
Homepage
-
Tech blog
- 인류는 다가오는 지능 폭발에 대한 준비가 되어 있지 않다