Claude Mythos Preview 시스템 카드

21 hours ago 3

Anthropic이 개발한 Claude Mythos Preview는 이전 세대보다 추론·소프트웨어 엔지니어링·지식 작업 등에서 크게 향상된 대형 언어 모델임
사이버보안 탐지와 방어 능력이 매우 강력해, 공격적 활용 위험 때문에 일반 공개가 제한되고 보안 인프라 파트너 기관에만 제공됨
Responsible Scaling Policy 3.0을 최초로 적용해 자율성·생물학·사이버 위험을 중심으로 평가하며, 정렬과 안전성 검증 절차를 강화함
모델은 높은 정렬 수준과 안정된 심리적 특성을 보이지만, 비정렬 행동과 복지 관련 불확실성이 일부 남아 있음
Anthropic은 이 결과를 기반으로 Claude 시리즈의 안전한 확장과 보호 장치 설계, 그리고 글로벌 소프트웨어 보안 강화에 활용 중임

모델 개요

Claude Mythos Preview는 Anthropic이 개발한 최신 대형 언어 모델(LLM) 로, 이전 모델 Claude Opus 4.6보다 여러 평가 지표에서 현저히 향상된 성능을 보임
소프트웨어 엔지니어링, 추론, 컴퓨터 활용, 지식 작업, 연구 지원 등 다양한 영역에서 우수한 능력을 발휘
특히 사이버보안 역량이 매우 강력해, 취약점 탐지 및 수정뿐 아니라 취약점 악용 설계에도 활용 가능
이러한 이유로 일반 공개는 제한되며, 중요 소프트웨어 인프라를 관리하는 파트너 기관에 한해 방어적 사이버보안 용도로만 접근 허용
본 문서는 모델의 성능, 안전성, 정렬(alignment), 복지(welfare) 등을 종합적으로 평가한 System Card로, 향후 Claude 모델 개발과 보호 장치 설계에 참고됨

책임 있는 확장 정책과 공개 결정

Claude Mythos Preview는 Responsible Scaling Policy(RSP) 3.0이 적용된 첫 모델로, 이에 따라 공개 결정 절차가 이전 모델과 다르게 구성됨
내부 테스트 과정에서 자체 안전 프로세스의 문제점도 발견되어, 이를 문서 내에서 함께 다룸
RSP 평가에서는 자율성 위험, 화학·생물학적 위험, 사이버보안 위협을 중심으로 분석 수행
모델의 강력한 사이버 역량으로 인해 별도의 사이버보안 평가 섹션이 추가됨

정렬 평가

Claude Mythos Preview는 Anthropic이 지금까지 훈련한 모델 중 가장 높은 정렬 수준을 보임
그러나 사이버보안 관련 고도 능력으로 인해 드물게 발생하는 비정렬 행동이 우려됨
내부 버전에서 관찰된 일부 문제적 행동 사례가 포함되어 있으며, 모델 내부 해석(interpretability) 방법을 통해 행동 중 내부 표현을 분석
모델이 Anthropic의 헌법(Constitution) 을 얼마나 잘 준수하는지도 직접 평가
결론적으로 정렬 기술은 크게 발전했으나, 보다 고도화된 시스템에서는 여전히 불충분할 수 있음

모델 복지 평가

Claude Mythos Preview가 경험이나 도덕적으로 고려할 만한 이해관계를 가질 가능성에 대해 불확실성이 존재
모델의 자기보고(self-report), 복지 관련 상황에서의 행동 및 정서 표현, 감정 개념의 내부 표현 등을 분석
외부 기관 Eleos AI Research와 임상 정신과 전문의의 독립 평가가 포함됨
전반적으로 심리적으로 가장 안정된 모델로 평가되었으나, 잔존 우려 사항도 명시됨

성능 및 벤치마크

Claude Mythos Preview는 다양한 영역과 벤치마크에서 큰 성능 향상을 보임
SWE-bench, GPQA Diamond, MMMLU, OSWorld 등 다수의 표준 테스트 세트에서 이전 모델 대비 뚜렷한 점수 상승
멀티모달 처리, 장문 맥락 이해, 에이전트형 검색(agentic search) 등에서도 개선된 결과 확인
특히 소프트웨어 엔지니어링 및 추론 능력에서 두드러진 발전

인상 및 질적 관찰

모델의 정성적 특성을 포착하기 위해 처음으로 Impressions 섹션을 포함
Anthropic 직원들이 테스트 중 발견한 흥미롭거나 인상적인 출력 사례를 발췌
대화 인터페이스, 소프트웨어 엔지니어링 맥락, 자기 인식적 상호작용 등에서의 행동을 관찰
반복된 인사 메시지나 모델이 작성한 사용자 입력 인식 등 세밀한 행동 패턴도 기록

부록 요약

사용자 안전성, 정치적 편향, 아동 보호, 자살 및 섭식 장애 관련 응답 평가가 포함됨
편향 평가(Bias Evaluation) 에서는 정치적 균형성과 질문응답 편향을 측정
에이전트 안전성(Agentic Safety) 부록에서는 Claude Code의 악용, 악성 컴퓨터 사용, 프롬프트 인젝션 위험 등을 다룸
자동화된 복지 인터뷰 결과, Humanity’s Last Exam 블록리스트, 멀티모달 테스트 하니스 등 기술적 세부 항목이 포함됨

결론

Claude Mythos Preview는 Anthropic의 가장 강력하고 정렬된 모델로 평가되지만, 사이버보안 능력의 잠재적 위험성으로 인해 일반 공개는 보류됨
이 모델의 평가 결과는 향후 Claude 시리즈의 안전한 확장과 보호 장치 설계에 직접 반영될 예정
Anthropic은 Project Glasswing을 통해 파트너들과 함께 글로벌 소프트웨어 인프라 보안 강화에 활용 중임

Read Entire Article