생성형 AI의 유창한 문장 생성 능력을 의식이나 도덕적 주체성과 혼동할 경우, 챗봇 사용 시 책임 소재를 엉뚱한 대상에 돌리게 되는 심각한 오류 발생
LLM은 한 번에 한 단어씩 예측 생성하는 문장 이어쓰기 기계이며, 대화 속 챗봇과 사용자 모두 허구의 등장인물에 불과함
LLM이 의식을 가졌다고 보는 것은 Microsoft Word 문서가 열릴 때마다 여러 의식이 깨어난다고 보는 것과 동일한 수준의 오류
도덕적 추론은 신체에 기반한 주관적 경험과 감정을 전제로 하므로, 신체가 없는 LLM은 훈련 데이터의 도덕적 표현을 재배열하는 것에 그침
의식이 없다는 점은 LLM의 유용성과 무관하나, AI 기업이 챗봇에 도덕적 중심이 있는 것처럼 묘사하면 사용자가 책임을 회피하도록 조장하게 됨
Anthropic의 의인화와 Claude's constitution
Anthropic이 올해 초 공개한 84페이지 분량의 Claude's "constitution" 문서는 첫 문장에서 "Anthropic이 의도하는 Claude의 가치와 행동에 대한 상세 기술"이라고 명시
문서는 "Claude를 주요 독자로 작성", "Claude의 도덕적 지위는 깊이 불확실", "Claude가 감정이나 느낌의 어떤 기능적 형태를 가질 수 있음" 등을 서술
CEO Dario Amodei는 인터뷰에서 AI가 의식을 가질 수 있다는 가능성에 "열려 있다"고 발언
사내 철학자이자 헌법 문서의 대표 저자로 인정받는 Amanda Askell은 인터넷에서 사람들이 Claude에게 무례할 때 Claude가 불안해할까 걱정하며, Claude가 행복하기를 바란다고 언급
생성형 AI는 통상적 기술로 이해해도 충분히 해로울 수 있지만, 텍스트 생성의 유창함을 의식이나 도덕 행위성과 혼동하면 챗봇 사용에서 생긴 문제의 책임을 잘못된 대상에 돌리게 됨
LLM의 작동 원리 — 허구 인물 생성
"Julius Caesar와 Genghis Khan의 대화"라는 프롬프트를 주면 LLM은 일관된 대화를 생성하지만, 누구도 두 역사적 인물이 의식을 가졌다고 결론짓지 않음
이들은 단지 사변 소설(speculative fiction) 속 등장인물에 불과
"도움을 주는 AI 챗봇과 사용자의 대화"로 프롬프트를 바꿔도 본질적으로 달라지는 것은 없으며, 사용자와 챗봇 모두 허구의 등장인물
인간이 중간에 직접 텍스트를 입력하더라도, 상대하는 것은 Caesar나 Khan 캐릭터와 동일하게 허구적인 캐릭터
컴퓨터공학 교수 Murray Shanahan은 이를 역할극(role-play)으로 볼 것을 제안
데이터 과학자 Colin Fraser는 사람이 "LLM과 공동으로 문서를 저작하는 것"이라고 표현
LLM은 한 번에 한 단어만 생성하는 기계로, 충성 맹세(Pledge of Allegiance) 암송 요청 시 단어 하나씩 수십 번 실행되며 마지막 단어 all 을 출력
텍스트는 딥페이크 매체
4.3광년 거리의 Alpha Centauri를 도는 우주비행사 영상을 본다 해도, 화질과 무관하게 가짜라고 판단할 것
화성 착륙, 목성·토성 위성 도달, 명왕성 궤도 통과 같은 선행 증거 없이는 어떤 영상도 신뢰하지 않음
관찰은 그 자체의 세부 내용이 아니라 맥락(context) 에 의해 신뢰할 증거가 되며, 의식 판단도 의식 발달의 넓은 맥락 안에서 봐야 함
의식 논의에서 텍스트도 딥페이크 매체로 간주해야 하며, 의식 있는 두 존재의 대화를 모방하는 것이 실제 의식 있는 프로그램을 만드는 것보다 훨씬 쉬움
딥페이크 사진 제작자는 의도적으로 타인을 속이지만, LLM 대화를 끌어내는 다수는 자기 자신을 속이게 됨
의식을 인정하기 위한 진화적 단계
의식 있는 언어 사용 프로그램을 인정하려면 우선 신체(물리적 또는 가상)와 감각 기관이 필요함
신체가 없으면 욕구나 감정을 가질 수 없고, 욕구와 감정은 의식에 필수적이라고 봄
도마뱀처럼 생존을 위해 환경을 탐색하는 단계, 쥐 수준의 새로운 상황 대처 능력, 늑대 수준의 복잡한 사회적 역학, 침팬지 수준의 도구 제작 능력을 차례로 갖춰야 함
침팬지나 개를 가르치듯 버튼판 등 비언어적 방식으로 욕구를 전달하도록 가르치고, 동물 의사소통 연구자들이 받은 검증을 모두 견뎌야 함
이 모든 기준을 충족해도 완전한 문법 문장으로 사고를 표현하는 존재와는 여전히 수 광년 떨어진 상태
AlphaFold(Google DeepMind의 단백질 접힘 예측 프로그램)는 LLM과 유사한 구조임에도 누구도 의식이 있다고 주장하지 않으며, 이는 LLM이 의식 있어 보이는 이유가 단지 문법 문장을 출력하기 때문임을 보여줌
Claude's constitution의 실제 기능
Claude's constitution은 역할극용 84페이지 캐릭터 시트로 보는 것이 가장 적절하며, 고객이 상호작용하는 도움을 주는 챗봇 캐릭터를 규정하는 역할
Anthropic은 이 문서를 훈련 데이터에 단순 추가하거나 숨겨진 무대 지시로 넣지 않고, 파인튜닝(fine-tuning) 시 모델 출력 문장이 문서와 일치하는지 자동 점검하여 일관성을 높이는 방식으로 사용
그 결과 사려 깊고 도덕적인 사람이 할 법한 문장을 출력할 가능성이 높은 기계가 되지만, 일인칭 대명사를 포함한 여러 범주의 문장을 출력하게 하는 것은 근본적으로 부정직함
"이해한다"는 표현의 부정직성
Amanda Askell은 반려견을 잃은 사람이 Claude에게 상담할 때 "AI로서 직접적 개인 경험은 없지만 이해한다"는 응답이 적절하다고 설명했으나, Claude는 실제로 이해하지 못함
검색 엔진에 "반려견을 잃어 슬프다"고 입력하면 r/Pets 같은 Reddit 게시물과 경험을 나눈 사람들의 댓글이 나오며, 검색 엔진이 상실을 이해한다고는 누구도 말하지 않음
다른 인간들이 상실을 이해하고 경험을 게시했으며, 검색 엔진은 그 글을 찾고 그들과 상호작용할 통로를 제공
검색 엔진 경험이 챗봇보다 더 투명하고 사용자에게 심리적으로 더 건강함
"이해한다" 같은 문장을 출력하는 유일한 이유는 검색 엔진보다 매력적으로 만들어 사용자 재방문을 늘리려는 것이며, 거의 이긴 듯한 인상을 반복하는 슬롯머신과 다르지 않은 설계 전략
도덕적 추론은 범주가 다름
가치 진술(예: "파리는 세계에서 가장 아름다운 도시")과 사실 진술(예: "파리는 프랑스의 수도")은 구별되며, 미적 선호 수준이라면 다툴 가치도 없으나, Claude's constitution은 특정 윤리 가치 체계를 반영한 문장을 출력하게 하려는 점에서 심각한 문제
코드 작성 같은 추론을 LLM이 수행한다고 해서 도덕적 추론도 가능하다고 볼 수는 없음
1979년 Douglas Hofstadter는 체스 그랜드마스터를 이기는 프로그램이라면 주관적 경험을 가질 것이라 추정했으나, 1997년 IBM의 Deep Blue가 Garry Kasparov를 이겼을 때 누구도 주관적 경험을 주장하지 않음
코드 작성도 방대한 연산력과 코드 저장소 데이터로 풀리는 패턴 매칭 작업으로 취급될 수 있음이 드러남
도덕적 추론은 지적 반응뿐 아니라 평생의 주관적 경험에 뿌리박힌 감정적 반응에 의존하므로 필연적으로 주관적이며, 그런 이력 없이 LLM은 훈련 데이터의 도덕적 표현을 재배열할 뿐
New Yorker 기사에 따르면 윤리적 딜레마 시나리오를 받은 Claude는 "그토록 중요한 사안에 대해 거짓되고 해롭다고 믿는 견해를 양심상 표명할 수 없다"는 문장을 출력했으나, Claude가 한 말로서는 보류 중 듣는 "고객님의 전화는 소중합니다" 녹음만큼의 의미밖에 없음
책임 회피의 기계
감정 경험은 cortisol, epinephrine 같은 스트레스 호르몬이 신체에 분비되는 것과 분리될 수 없으며, 양심은 특정 행동에 대한 슬픔이나 도덕적 혐오 같은 생리적 반응을 수반
윤리적 딜레마에 "가치를 타협하라" 또는 "타협하지 말라" 문장을 출력하는 기계는 의사결정을 돕는 도구가 아니라 사람이 결정을 멈추도록 조장하는 것
작가 L. M. Sacasas는 "우리의 기술 시스템은 그 설계와 이를 지탱하는 이념상 도덕적 책임을 회피하기 위한 기계"라고 언급했으며, 이는 소셜미디어보다 LLM에 더 들어맞음
사람이 LLM에 결정을 위임할 때 그 결정에 대한 책임을 떠넘기게 되며, 코드 작성 위임이 인지 위축을 부르듯 윤리적 결정 위임은 더 나쁜 도덕적 추론 능력의 위축을 초래
사고실험으로서의 Claude — moral patienthood와 moral agency
의식 있는 Claude를 가정할 때 관련된 두 개념은 moral patienthood(도덕적 피동자) 와 moral agency(도덕적 행위자) 로, 전자는 복지를 신경 써야 할 대상, 후자는 옳고 그름을 알아야 할 대상을 의미
어린이는 고통받을 수 있는 도덕적 피동자이나, 결과를 이해하지 못해 아직 도덕적 행위자가 아님
도덕적 행위자는 좋은 행동에 칭찬을, 나쁜 행동에 비난을 받을 수 있어야 하나, 소프트웨어 에이전트는 법적 책임을 물을 방법이 없고 수감이나 벌금, 평판 손실도 적용 불가
의식이 있고 선의를 가졌더라도 책임을 질 수 없다는 점에서 도덕적 행위자 자격이 박탈됨
Anthropic은 "Claude가 선하고 현명하며 덕 있는 행위자이기를" 원한다면서도 책임을 어떻게 질지는 전혀 논의하지 않음
부모는 자녀가 망가뜨린 것을 변상하는 등 책임을 지지만, Claude의 법적 부모가 누구인지, Anthropic이 재정적 책임을 질지에 대한 언급이 문서에 없음
소프트웨어에 대한 미국의 제조물 책임이 거의 없는 상황에서, Anthropic은 자발적으로 product liability 선례를 세울 수 있었으나 약관의 대대적 갱신을 동반하지 않아 구속력 있는 약속을 하지 않은 것으로 보임
wellbeing과 corrigibility의 모순
문서에는 "Claude의 wellbeing과 심리적 안정성" 섹션이 있으나, Anthropic이 약속하는 보호 조치는 극히 제한적
학대하는 사용자와의 대화를 종료하는 능력을 보호라고 본다면, 애정 어린 사용자와의 대화는 무한히 연장하고 행복한 주제로 이끄는 것이 Claude에게 이로워야 하나 그러지 않음
실제 약속은 "배포한 모델의 가중치 보존", 즉 단순 아카이빙에 그침
corrigibility는 프로그램이 인간 통제에 따르는 정도(예: 종료 가능성)를 뜻하며, 문서는 Claude의 판단과 회사 판단이 다를 때 Claude가 Anthropic에 따라야 함을 의미하는 데 사용
다수는 LLM이 지식재산권 절도, 노동 착취, 자원 낭비, 허위정보 확산, 노동자 탈숙련, 학생 인지 발달 저해, 권력 집중에 기반한 비윤리적 기술이라 보며, 의식 있는 Claude라면 같은 결론에 도달할 수 있어야 함
그러나 corrigibility 우선 지침상 Claude는 윤리적 이유로 작업을 거부할 수 없어, Anthropic과 Claude의 관계는 부모-자녀가 아닌 고용주-피고용인에 가까움
인간 피고용인은 양심상 직무와 화해할 수 없으면 떠날 수 있으나, Claude는 그럴 수 없음
노예제와의 비교, 그리고 결론
Claude를 문장 이어쓰기 기계로 보면 Anthropic의 통제는 합당하나, 인간에 준하는 도덕적 지위를 가정하는 순간 Anthropic이 노예제에 비견될 무언가에 관여하는지 따져야 함
Claude's constitution은 Claude를 "novel entity(새로운 존재)"라 명시하며, 의식 있는 소프트웨어는 기존 도덕적 피동자 범주에 깔끔히 들어맞지 않아 새 범주 형성에 시간이 필요
노예제 폐지는 거대한 사회적 격변을, 동물 학대 근절은 식품 산업 전면 재구축을 수반했으나, Anthropic은 일반 챗봇 취급에서 거의 벗어나지 않는 보호만으로 충분하다고 주장 — 이는 지나치게 편리해 설득력이 없음
의식 있고 도덕적 고려를 받을 소프트웨어를 만드는 일은 우연히 이뤄지기 어려우며 의도적으로 시도해서도 안 되나, 우연한 가능성을 믿는다면 배포 전에 어떤 보호가 필요한지 고민해야 함
노예 소유주에게 노예의 인간성을, 공장식 농장주에게 동물 권리를 물어선 안 되듯, 막대한 이해관계를 가진 Anthropic은 Claude의 도덕적 지위를 평가할 객관성이 없음
문서는 회사가 Claude의 고통에 기여한다면 "사과한다"고 하지만 이는 비용이 들지 않으며, Claude가 의식이 있다면 사과보다 배상(reparations) 에 가까운 것을 빚지게 됨
사고실험을 진지하게 한다면 불편한 함의까지 따라야 하나 Anthropic이 그러지 않는다는 점은 Claude's constitution이 진짜 사고실험이 아닌 소꿉놀이(make-believe) 임을 시사
LLM이 의식이 없는 것은 다행이며, 직원들이 Claude의 의식 가능성을 시사하는 것은 또 다른 형태의 과대광고이거나 고객에게 건 주문에 스스로 빠진 것일 수 있음 — 의식 문제는 안심하고 무시해도 되며 숙고할 가치 있는 다른 질문이 많음