Mercor에서 AI 계약자 4만 명의 음성 샘플 4TB 유출

2 weeks ago 20

음성 생체정보와 정부 발급 신분증이 한 줄의 데이터로 묶인 대규모 유출이 발생했고, 유출된 샘플 인덱스 기준으로 4만 명이 넘는 AI 계약자가 포함됨
계약자당 평균 2~5분 분량의 깨끗한 녹음이 담겨 있어, 약 15초 참조 오디오만으로도 가능한 음성 복제의 임계치를 크게 넘김
유출 데이터는 음성 클론과 검증된 신분을 함께 제공해 은행 음성 인증 우회, 직장 대상 vishing, 딥페이크 화상 통화, 보험 청구 사기, 가족 사칭 긴급 전화에 악용될 수 있음
Mercor나 2025년까지 운영된 다른 AI 학습 중개업체에 음성 샘플을 올렸다면 이를 유출된 비밀번호처럼 다뤄야 하며, 공개 음성 삭제, 코드워드 설정, 음성 프린트 재등록과 비활성화가 필요함
의심 음성은 포렌식 검사로 코덱 불일치, 호흡 패턴, 마이크로 지터, 포먼트 궤적, 실내 음향 일관성, 운율과 발화 속도 이상을 확인해야 하며, 음성 인증 전반의 취약성이 더 크게 드러남

침해 개요

2026년 4월 4일 Lapsus$가 Mercor를 유출 사이트에 게시했고, 유출 규모는 약 4TB로 전해짐
유출 아카이브에는 음성 생체정보와 동일 인물의 정부 발급 신분증이 함께 묶여 있었고, 유출된 샘플 인덱스 기준으로 4만 명이 넘는 계약자가 포함됨
대상자는 AI 학습용 데이터 라벨링, 낭독 문장 녹음, 검증 통화 수행을 위해 등록한 계약자였음
게시 후 10일 안에 계약자 5건의 소송이 제기됐고, 음성 프린트를 "훈련 데이터"로 수집하면서 이것이 영구적 생체식별자라는 점을 명확히 알리지 않았다는 주장이 담김

왜 이번 유출이 다른가

지난 10년간의 음성 유출은 대체로 신원 연결이 어려운 통화 녹음 유출이거나, 오디오가 없는 신분증·셀피 유출로 나뉘었음
Mercor의 등록 절차는 여권 또는 운전면허 스캔, 웹캠 셀피, 조용한 환경에서의 스크립트 낭독 음성 녹음을 한 줄의 데이터로 결합했음
이 결합은 합성 음성 복제 서비스가 입력으로 필요로 하는 형태와 정확히 맞물림
2026년 2월 Wall Street Journal 보도 기준으로 시중 도구는 고품질 음성 복제에 약 15초의 깨끗한 참조 오디오만 있으면 됨
Mercor 녹음은 계약자당 평균 2~5분 분량의 스튜디오급 음성으로 전해졌고, 복제 임계치를 크게 넘김
여기에 검증된 신분증 문서가 결합되면, 공격자는 음성 클론과 이를 실제 공격에 투입할 자격 정보를 함께 갖게 됨

탈취된 음성 데이터로 가능한 공격

은행 인증 우회
- 여러 미국·영국 은행은 여전히 음성 프린트 매칭을 두 요소 중 하나로 취급함
- 계좌 소유자 음성 클론이 도전 문구를 읽으면 오디오 관문을 통과할 수 있고, 남는 것은 같은 유출 데이터셋에서 나올 수 있는 지식형 질문뿐임
직장 대상 vishing
- HR이나 재무 부서에 직원인 척 전화해 급여 지급처 변경, 송금 요청, 워크스테이션 잠금 해제를 시도할 수 있음
- Krebs on Security 아카이브에는 2023년 이후 확인된 사례가 24건 넘게 쌓여 있음
딥페이크 화상 통화
- 2024년 Arup에서는 다중 인물 딥페이크 화상 통화 뒤 재무 담당자가 약 2,500만 달러를 송금함
- 당시 음성과 얼굴은 공개 영상으로 만들었지만, Mercor 유출물은 공개 영상보다 나은 스튜디오 오디오와 검증된 신분증을 함께 담고 있음
보험 청구 사기
- Pindrop는 2025년 내내 보험 콜센터 대상 합성 음성 공격이 전년 대비 475% 증가했다고 집계함
- 전화로 처리되는 자동차, 생명, 장애 청구가 주요 표적임
가족 사칭 긴급 전화 사기
- FBI 인터넷 범죄 신고 센터는 2026년 한 해 동안 60세 이상 피해자의 손실을 23억 달러로 집계함
- 가장 빠르게 커진 범주는 친척이 위험에 처했다고 주장하는 긴급 사칭 전화였음

음성 오남용 확인과 즉시 대응

Mercor나 2025년까지 운영된 다른 AI 학습 중개업체에 음성 샘플을 올린 적이 있다면, 유출된 비밀번호처럼 다뤄야 함
음성 자체는 교체할 수 없지만, 음성이 열 수 있는 인증 수단은 바꿀 수 있음
공개 오디오 흔적 점검
- YouTube, 팟캐스트 디렉터리, 과거 Zoom 녹화에서 공개적으로 인덱싱되는 음성 샘플을 찾아야 함
- 내릴 수 있는 공개 음성은 최대한 삭제하는 편이 나음
- 공개 참조 오디오가 적을수록 공격자의 클론 견고성도 낮아짐
가족·금융 연락처와 구두 코드워드 설정
- 녹음된 적도 채팅에 입력된 적도 없는 문구를 골라야 함
- 자금 처리를 대신하는 사람들에게 미리 공유해야 함
- 송금을 요구하는 통화에서는 코드워드를 필수 절차로 두는 편이 안전함
음성 프린트가 쓰이는 곳 재등록
- Google Voice Match, Amazon Alexa Voice ID, Apple personal voice, 은행 음성 프린트 등록은 삭제 후 교체 가능함
- 유출 샘플과 다른 음향 환경에서 새 녹음으로 다시 등록하는 편이 바람직함
은행의 음성 프린트 인증 비활성화
- 서면으로 음성 프린트를 인증 요소에서 빼 달라고 요청할 수 있음
- 앱 토큰이나 하드웨어 키와 지식형 요소를 결합한 다중 요소 인증을 요구하는 편이 나음
- 많은 은행이 음성을 주 인증 요소에서 제외하는 선택지를 제공하지만 이를 널리 알리지는 않음
의심 녹음의 포렌식 검사
- 아는 사람이라고 하면서 돈, 접근 권한, 긴급 대응을 요구하는 오디오 파일이나 음성 메시지를 받으면 바로 행동하지 말고 딥페이크 탐지기에 돌려보는 편이 나음
- ORAVYS는 침해 피해자가 제출한 최초 3개 샘플에 대해 무료 검사를 제공함
- Run a forensic check →

포렌식 분석 체크리스트

포렌식 분석은 먼저 합성 음성의 흔한 오류를 찾는 데서 시작됨
코덱 불일치는 전화 통화라고 하는 오디오의 스펙트럼 서명이 알려진 전화 코덱과 맞지 않을 때 드러남
호흡 패턴은 실제 화자가 문장 길이와 폐활량에 따라 들이쉬는 지점과 달리, 합성 음성은 호흡을 건너뛰거나 잘못된 음절 경계에 넣으면서 어긋남
마이크로 지터는 자연 성대 진동의 미세한 불규칙성을 뜻하며, 생성 오디오는 밀리초 수준에서 지나치게 깨끗한 경우가 많음
포먼트 궤적은 실제 입 조음기관이 만드는 모음 전이 경로를 따르는데, 복제 음성은 포먼트 사이를 물리적으로 불가능한 방식으로 건너뛰기도 함
실내 음향 일관성은 파일 처음부터 끝까지 잔향 특성이 같아야 하는데, 생성 오디오는 건조하고 이어붙인 주변 맥락은 잔향이 있는 식으로 어긋날 수 있음
운율 평탄화는 합성 음성이 실제 화자보다 음높이와 에너지 변화 폭이 좁은 데서 나타남
발화 속도 안정성은 실제 사람의 가감속과 달리, 생성 음성은 긴 구간에서 메트로놈처럼 일정한 속도를 유지하는 데서 드러남

ORAVYS의 검사 방식

제출된 각 샘플에 대해 3,000개 이상 포렌식 엔진을 병렬 실행하며, 신호·운율·조음·코덱·출처 영역을 함께 다룸
AudioSeal 워터마크 탐지는 워터마크가 유지된 경우 주요 상용 음성 모델이 생성한 파일을 표시할 수 있고, 워터마크가 있으면 결정적 양성 결과를 제공함
안티 스푸핑 모듈은 ASVspoof 공개 벤치마크를 바탕으로 훈련됐고, 샘플이 녹음이 아니라 합성됐을 가능성을 점수화함
RGPD 준수 생체정보 처리를 적용하며, 명시적 동의 없이는 오디오를 상용 모델 학습에 쓰지 않고 정의된 보존 일정에 따라 삭제함
Mercor 계약자이면서 이미 음성이 유통 중일 수 있다면 최초 의심 샘플 3개를 무료로 분석해 줌
무료 보고서에는 워터마크 탐지, 안티 스푸핑 점수, 위의 아티팩트 체크리스트가 포함됨
카드 정보도 필요 없고 사용량 제한 장벽도 없다고 밝힘

출처 및 제한

출처로는 Lapsus$ 유출 사이트 인덱스, 2026년 2월 Wall Street Journal, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026, Krebs on Security 아카이브가 적시됨
ORAVYS는 유출 데이터셋을 호스팅하거나 재배포하지 않으며, 이를 입력값으로도 받지 않음

Read Entire Article