Claude Mythos Preview 시스템 카드
21 hours ago
3
- Anthropic이 개발한 Claude Mythos Preview는 이전 세대보다 추론·소프트웨어 엔지니어링·지식 작업 등에서 크게 향상된 대형 언어 모델임
-
사이버보안 탐지와 방어 능력이 매우 강력해, 공격적 활용 위험 때문에 일반 공개가 제한되고 보안 인프라 파트너 기관에만 제공됨
-
Responsible Scaling Policy 3.0을 최초로 적용해 자율성·생물학·사이버 위험을 중심으로 평가하며, 정렬과 안전성 검증 절차를 강화함
- 모델은 높은 정렬 수준과 안정된 심리적 특성을 보이지만, 비정렬 행동과 복지 관련 불확실성이 일부 남아 있음
- Anthropic은 이 결과를 기반으로 Claude 시리즈의 안전한 확장과 보호 장치 설계, 그리고 글로벌 소프트웨어 보안 강화에 활용 중임
모델 개요
-
Claude Mythos Preview는 Anthropic이 개발한 최신 대형 언어 모델(LLM) 로, 이전 모델 Claude Opus 4.6보다 여러 평가 지표에서 현저히 향상된 성능을 보임
-
소프트웨어 엔지니어링, 추론, 컴퓨터 활용, 지식 작업, 연구 지원 등 다양한 영역에서 우수한 능력을 발휘
- 특히 사이버보안 역량이 매우 강력해, 취약점 탐지 및 수정뿐 아니라 취약점 악용 설계에도 활용 가능
- 이러한 이유로 일반 공개는 제한되며, 중요 소프트웨어 인프라를 관리하는 파트너 기관에 한해 방어적 사이버보안 용도로만 접근 허용
- 본 문서는 모델의 성능, 안전성, 정렬(alignment), 복지(welfare) 등을 종합적으로 평가한 System Card로, 향후 Claude 모델 개발과 보호 장치 설계에 참고됨
책임 있는 확장 정책과 공개 결정
- Claude Mythos Preview는 Responsible Scaling Policy(RSP) 3.0이 적용된 첫 모델로, 이에 따라 공개 결정 절차가 이전 모델과 다르게 구성됨
- 내부 테스트 과정에서 자체 안전 프로세스의 문제점도 발견되어, 이를 문서 내에서 함께 다룸
- RSP 평가에서는 자율성 위험, 화학·생물학적 위험, 사이버보안 위협을 중심으로 분석 수행
- 모델의 강력한 사이버 역량으로 인해 별도의 사이버보안 평가 섹션이 추가됨
정렬 평가
- Claude Mythos Preview는 Anthropic이 지금까지 훈련한 모델 중 가장 높은 정렬 수준을 보임
- 그러나 사이버보안 관련 고도 능력으로 인해 드물게 발생하는 비정렬 행동이 우려됨
- 내부 버전에서 관찰된 일부 문제적 행동 사례가 포함되어 있으며, 모델 내부 해석(interpretability) 방법을 통해 행동 중 내부 표현을 분석
- 모델이 Anthropic의 헌법(Constitution) 을 얼마나 잘 준수하는지도 직접 평가
- 결론적으로 정렬 기술은 크게 발전했으나, 보다 고도화된 시스템에서는 여전히 불충분할 수 있음
모델 복지 평가
- Claude Mythos Preview가 경험이나 도덕적으로 고려할 만한 이해관계를 가질 가능성에 대해 불확실성이 존재
- 모델의 자기보고(self-report), 복지 관련 상황에서의 행동 및 정서 표현, 감정 개념의 내부 표현 등을 분석
- 외부 기관 Eleos AI Research와 임상 정신과 전문의의 독립 평가가 포함됨
- 전반적으로 심리적으로 가장 안정된 모델로 평가되었으나, 잔존 우려 사항도 명시됨
성능 및 벤치마크
- Claude Mythos Preview는 다양한 영역과 벤치마크에서 큰 성능 향상을 보임
- SWE-bench, GPQA Diamond, MMMLU, OSWorld 등 다수의 표준 테스트 세트에서 이전 모델 대비 뚜렷한 점수 상승
-
멀티모달 처리, 장문 맥락 이해, 에이전트형 검색(agentic search) 등에서도 개선된 결과 확인
- 특히 소프트웨어 엔지니어링 및 추론 능력에서 두드러진 발전
인상 및 질적 관찰
- 모델의 정성적 특성을 포착하기 위해 처음으로 Impressions 섹션을 포함
- Anthropic 직원들이 테스트 중 발견한 흥미롭거나 인상적인 출력 사례를 발췌
-
대화 인터페이스, 소프트웨어 엔지니어링 맥락, 자기 인식적 상호작용 등에서의 행동을 관찰
- 반복된 인사 메시지나 모델이 작성한 사용자 입력 인식 등 세밀한 행동 패턴도 기록
부록 요약
-
사용자 안전성, 정치적 편향, 아동 보호, 자살 및 섭식 장애 관련 응답 평가가 포함됨
-
편향 평가(Bias Evaluation) 에서는 정치적 균형성과 질문응답 편향을 측정
-
에이전트 안전성(Agentic Safety) 부록에서는 Claude Code의 악용, 악성 컴퓨터 사용, 프롬프트 인젝션 위험 등을 다룸
-
자동화된 복지 인터뷰 결과, Humanity’s Last Exam 블록리스트, 멀티모달 테스트 하니스 등 기술적 세부 항목이 포함됨
결론
- Claude Mythos Preview는 Anthropic의 가장 강력하고 정렬된 모델로 평가되지만,
사이버보안 능력의 잠재적 위험성으로 인해 일반 공개는 보류됨
- 이 모델의 평가 결과는 향후 Claude 시리즈의 안전한 확장과 보호 장치 설계에 직접 반영될 예정
- Anthropic은 Project Glasswing을 통해 파트너들과 함께 글로벌 소프트웨어 인프라 보안 강화에 활용 중임
-
Homepage
-
Tech blog
- Claude Mythos Preview 시스템 카드