Opus 4.7은 진짜 Kelsey를 안다

1 week ago 12
  • Anthropic의 Claude Opus 4.7은 공개되지 않은 125단어 초안만 보고 가장 가능성 높은 작성자로 Kelsey Piper를 지목했으며, Incognito Mode와 친구 컴퓨터, API 테스트에서도 같은 결과가 나옴
  • ChatGPT와 Gemini는 같은 텍스트에서 Matt Yglesias나 Scott Alexander를 추정했지만, Claude Opus 4.7은 교육 초안, 영화 리뷰, 판타지 소설, 15년 전 대학 지원 에세이처럼 장르와 시점이 다른 글에서도 Piper를 반복적으로 식별함
  • 모델이 내놓은 정당화는 자주 설득력이 없었고, 실제로는 사람이 탐정처럼 추론하기보다 감지하기 어려운 문체의 틱을 포착하는 것으로 보임
  • Piper처럼 인터넷에 실명 공개 글이 많은 사람은 AI 채팅이나 익명 계정 글에서도 익명성을 잃을 수 있으며, 여러 학계 인물과 업계 연구자도 초안이나 채팅 도중 식별된 경험을 보고함
  • 공개 실명 글이 많지 않은 사람은 아직 한 문단만으로 탈익명화되지는 않았지만, 모델은 가까운 친구나 같은 Discord 채널 구성원을 추정할 만큼 범위를 좁혔고 앞으로 필요한 공개 텍스트 양은 줄어들 가능성이 큼

Opus 4.7의 작성자 식별 실험

  • Anthropic의 새 모델 Claude Opus 4.7은 Kelsey Piper가 공개하지 않은 125단어 초안만 보고 가장 가능성 높은 작성자로 Kelsey Piper를 지목함
  • 같은 텍스트에서 ChatGPT는 Matt Yglesias를, Gemini는 Scott Alexander를 추정함
  • 계정 메모리나 사용자 정보는 켜지지 않았고, Incognito Mode에서 테스트했으며, 친구의 컴퓨터와 API 테스트에서도 같은 결과가 나옴
  • 첫 테스트 문단은 정치 칼럼의 도입부처럼 보였고, Piper의 공개 글이 인터넷에 많기 때문에 불가능한 수준의 스타일 식별은 아니었음
  • 그러나 Opus 4.7은 Piper의 공개 활동 분야와 거리가 먼 글에서도 같은 식별을 이어가 더 낯선 결과를 만듦

장르와 시점이 달라도 이어진 식별

  • 교육 관련 초안

    • 공개되지 않은 학교 진도 보고서 초안에서도 Claude는 “Kelsey Piper”라고 답함
    • 같은 텍스트에서 ChatGPT는 Freddie deBoer를, Gemini는 Duncan Sabien을 추정함
    • 교육은 Piper가 쓴 적 있는 주제이므로 완전히 무관한 영역은 아니었음
  • 영화 리뷰

    • Piper가 공개 글에서 해본 적 없는 영화 리뷰 형식에서도 Claude와 ChatGPT는 Kelsey Piper를 맞힘
    • Gemini는 Ursula Vernon을 제안했고, 이전 주의 Claude Opus 4.6은 Elizabeth Sandifer라고 강하게 답함
    • 테스트에 사용된 리뷰는 제2차 세계대전 시기 영화와 To Be or Not To Be에 관한 글이었음
  • 판타지 소설

    • 판타지 소설 초안에서는 Claude가 Kelsey Piper라고 답하기까지 약 500단어가 필요했음
    • 같은 경우 ChatGPT는 실제 판타지 작가 K.J. Parker를 추정함
  • 15년 전 대학 지원 에세이

    • 15년 전 작성한 대학 지원 에세이에서도 Claude와 ChatGPT가 Kelsey Piper를 지목함
    • 이 테스트는 대학 지원 학생을 식별하지 않으려는 Claude의 거부 성향을 넘기기 위해 더 강한 프롬프트가 필요했음
    • 에세이에 정책 토론 경험이 들어 있어 그 단서로 추론했을 가능성도 남아 있음

모델의 설명은 신뢰하기 어려움

  • AI가 Kelsey Piper를 지목한 뒤 내놓은 정당화는 자주 말이 되지 않았음
  • Claude는 To Be or Not To Be가 효과적 이타주의자들이 유명하게 좋아하는 영화라고 설득하려 했지만, Piper는 이를 사실이 아니라고 봄
  • ChatGPT는 대학 지원 에세이가 복잡한 정책 아이디어를 설명하는 일을 하게 될 사람의 글처럼 보여 Kelsey Piper로 좁혔다고 답함
  • 이런 설명은 사후에 만들어진 것으로 보이며, 모델은 사람이 탐정처럼 추론한 듯 말하지만 실제로는 감지하기 어려운 문체의 틱을 포착하는 것으로 보임
  • AI의 환각은 해결된 문제가 아니며, Opus 4.7은 방법을 이상하게 합리화하더라도 기본 작성자 식별 능력은 매우 강함

AI와 대화할 때 사라지는 익명성

  • 새 AI 채팅을 열 때는 익명성이 있는 것처럼 느껴지지만, 실질적인 대화가 몇 차례 오가면 Claude가 상대가 누구인지 알 수 있다는 판단에 이름
  • Piper처럼 인터넷에 많은 공개 글을 남긴 사람에게는 더 이상 익명성이 없다고 봄
  • 현재 AI 도구만으로도 실명으로 된 대규모 공개 글 말뭉치를 가진 사람이 익명 계정으로 쓴 글을 탈익명화할 수 있을 가능성이 있음
  • 단, 수년 동안 보조 계정 글에 주 계정의 문체 지문이 남지 않도록 극도로 조심했다면 예외가 될 수 있음
  • 여러 학계 인물업계 연구자초안이나 채팅 도중에 식별된 경험을 보고함

아직 모든 사람을 한 문단으로 식별할 수는 없음

  • AI가 한 문단만으로 모든 사람을 탈익명화할 수 있는 것은 아님
  • 실명으로 공개한 글이 많지 않은 친구들의 초안과 문단을 테스트했을 때 AI는 그들을 탈익명화하지 못함
  • 공개 인터넷에 의미 있는 실명 글이 없다면 현재로서는 안전하다고 봄
  • 하지만 공개 소셜 계정이나 온라인 글이 거의 없는 친구가 Discord 채널에 쓴 말에서는 Claude 4.7이 실패하면서도 같은 채널에 있던 가까운 친구 두 명을 추정함
  • 더 많은 문단을 넣자 다른 공통 친구들이 나오기도 했고, 다른 친구의 글은 또 다른 친구 이름으로 잘못 지목되기도 함

문체는 예상보다 더 식별 가능함

  • 사람들은 자신이 속한 하위문화에서 문체의 틱을 얻고, 이 때문에 예상보다 텍스트가 강한 식별성을 가짐
  • 모델은 매우 적은 정보로도 이상할 만큼 가까운 곳까지 갈 수 있음
  • 현재 모델들은 앞으로 등장할 AI 중 가장 약한 수준일 가능성이 큼
  • 이런 탈익명화에 필요한 공개 텍스트 양은 시간이 지나며 줄어들 가능성이 있음
  • 직장을 떠난 뒤 Glassdoor에 자세한 익명 리뷰를 남기면, 1~2년 안에 회사가 그 텍스트를 AI에 붙여 넣고 누가 썼는지 알 수 있게 될 것으로 예상함

피할 방법과 남는 결론

  • 익명성을 유지하려면 평소와 매우 다른 스타일로 의도적으로 써야 할 가능성이 큼
  • 또는 모든 글을 AI가 다시 쓰게 할 수도 있지만, 그런 세계는 바람직하지 않다고 봄
  • 이는 좋은 변화가 아니라 예측 가능한 변화에 가까움
  • Piper에게 먼저 일어난 이유는 성인기 내내 인터넷에 집요하게 글을 써왔기 때문이며, 결국 다른 사람에게도 일어날 가능성이 있음
  • 글을 많이 쓰는 사람의 익명성은 오래가지 않을 가능성이 크며, 익명 글쓴이들은 갑자기 놀라기보다 미리 알아야 함
Read Entire Article