Mercor에서 AI 계약자 4만 명의 음성 샘플 4TB 유출
2 weeks ago
20
- 음성 생체정보와 정부 발급 신분증이 한 줄의 데이터로 묶인 대규모 유출이 발생했고, 유출된 샘플 인덱스 기준으로 4만 명이 넘는 AI 계약자가 포함됨
- 계약자당 평균 2~5분 분량의 깨끗한 녹음이 담겨 있어, 약 15초 참조 오디오만으로도 가능한 음성 복제의 임계치를 크게 넘김
- 유출 데이터는 음성 클론과 검증된 신분을 함께 제공해 은행 음성 인증 우회, 직장 대상 vishing, 딥페이크 화상 통화, 보험 청구 사기, 가족 사칭 긴급 전화에 악용될 수 있음
- Mercor나 2025년까지 운영된 다른 AI 학습 중개업체에 음성 샘플을 올렸다면 이를 유출된 비밀번호처럼 다뤄야 하며, 공개 음성 삭제, 코드워드 설정, 음성 프린트 재등록과 비활성화가 필요함
- 의심 음성은 포렌식 검사로 코덱 불일치, 호흡 패턴, 마이크로 지터, 포먼트 궤적, 실내 음향 일관성, 운율과 발화 속도 이상을 확인해야 하며, 음성 인증 전반의 취약성이 더 크게 드러남
침해 개요
- 2026년 4월 4일 Lapsus$가 Mercor를 유출 사이트에 게시했고, 유출 규모는 약 4TB로 전해짐
- 유출 아카이브에는 음성 생체정보와 동일 인물의 정부 발급 신분증이 함께 묶여 있었고, 유출된 샘플 인덱스 기준으로 4만 명이 넘는 계약자가 포함됨
- 대상자는 AI 학습용 데이터 라벨링, 낭독 문장 녹음, 검증 통화 수행을 위해 등록한 계약자였음
- 게시 후 10일 안에 계약자 5건의 소송이 제기됐고, 음성 프린트를 "훈련 데이터"로 수집하면서 이것이 영구적 생체식별자라는 점을 명확히 알리지 않았다는 주장이 담김
왜 이번 유출이 다른가
- 지난 10년간의 음성 유출은 대체로 신원 연결이 어려운 통화 녹음 유출이거나, 오디오가 없는 신분증·셀피 유출로 나뉘었음
- Mercor의 등록 절차는 여권 또는 운전면허 스캔, 웹캠 셀피, 조용한 환경에서의 스크립트 낭독 음성 녹음을 한 줄의 데이터로 결합했음
- 이 결합은 합성 음성 복제 서비스가 입력으로 필요로 하는 형태와 정확히 맞물림
- 2026년 2월 Wall Street Journal 보도 기준으로 시중 도구는 고품질 음성 복제에 약 15초의 깨끗한 참조 오디오만 있으면 됨
- Mercor 녹음은 계약자당 평균 2~5분 분량의 스튜디오급 음성으로 전해졌고, 복제 임계치를 크게 넘김
- 여기에 검증된 신분증 문서가 결합되면, 공격자는 음성 클론과 이를 실제 공격에 투입할 자격 정보를 함께 갖게 됨
탈취된 음성 데이터로 가능한 공격
-
은행 인증 우회
- 여러 미국·영국 은행은 여전히 음성 프린트 매칭을 두 요소 중 하나로 취급함
- 계좌 소유자 음성 클론이 도전 문구를 읽으면 오디오 관문을 통과할 수 있고, 남는 것은 같은 유출 데이터셋에서 나올 수 있는 지식형 질문뿐임
-
직장 대상 vishing
- HR이나 재무 부서에 직원인 척 전화해 급여 지급처 변경, 송금 요청, 워크스테이션 잠금 해제를 시도할 수 있음
- Krebs on Security 아카이브에는 2023년 이후 확인된 사례가 24건 넘게 쌓여 있음
-
딥페이크 화상 통화
- 2024년 Arup에서는 다중 인물 딥페이크 화상 통화 뒤 재무 담당자가 약 2,500만 달러를 송금함
- 당시 음성과 얼굴은 공개 영상으로 만들었지만, Mercor 유출물은 공개 영상보다 나은 스튜디오 오디오와 검증된 신분증을 함께 담고 있음
-
보험 청구 사기
- Pindrop는 2025년 내내 보험 콜센터 대상 합성 음성 공격이 전년 대비 475% 증가했다고 집계함
- 전화로 처리되는 자동차, 생명, 장애 청구가 주요 표적임
-
가족 사칭 긴급 전화 사기
- FBI 인터넷 범죄 신고 센터는 2026년 한 해 동안 60세 이상 피해자의 손실을 23억 달러로 집계함
- 가장 빠르게 커진 범주는 친척이 위험에 처했다고 주장하는 긴급 사칭 전화였음
음성 오남용 확인과 즉시 대응
- Mercor나 2025년까지 운영된 다른 AI 학습 중개업체에 음성 샘플을 올린 적이 있다면, 유출된 비밀번호처럼 다뤄야 함
- 음성 자체는 교체할 수 없지만, 음성이 열 수 있는 인증 수단은 바꿀 수 있음
-
공개 오디오 흔적 점검
- YouTube, 팟캐스트 디렉터리, 과거 Zoom 녹화에서 공개적으로 인덱싱되는 음성 샘플을 찾아야 함
- 내릴 수 있는 공개 음성은 최대한 삭제하는 편이 나음
- 공개 참조 오디오가 적을수록 공격자의 클론 견고성도 낮아짐
-
가족·금융 연락처와 구두 코드워드 설정
- 녹음된 적도 채팅에 입력된 적도 없는 문구를 골라야 함
- 자금 처리를 대신하는 사람들에게 미리 공유해야 함
- 송금을 요구하는 통화에서는 코드워드를 필수 절차로 두는 편이 안전함
-
음성 프린트가 쓰이는 곳 재등록
- Google Voice Match, Amazon Alexa Voice ID, Apple personal voice, 은행 음성 프린트 등록은 삭제 후 교체 가능함
- 유출 샘플과 다른 음향 환경에서 새 녹음으로 다시 등록하는 편이 바람직함
-
은행의 음성 프린트 인증 비활성화
- 서면으로 음성 프린트를 인증 요소에서 빼 달라고 요청할 수 있음
- 앱 토큰이나 하드웨어 키와 지식형 요소를 결합한 다중 요소 인증을 요구하는 편이 나음
- 많은 은행이 음성을 주 인증 요소에서 제외하는 선택지를 제공하지만 이를 널리 알리지는 않음
-
의심 녹음의 포렌식 검사
- 아는 사람이라고 하면서 돈, 접근 권한, 긴급 대응을 요구하는 오디오 파일이나 음성 메시지를 받으면 바로 행동하지 말고 딥페이크 탐지기에 돌려보는 편이 나음
- ORAVYS는 침해 피해자가 제출한 최초 3개 샘플에 대해 무료 검사를 제공함
- Run a forensic check →
포렌식 분석 체크리스트
- 포렌식 분석은 먼저 합성 음성의 흔한 오류를 찾는 데서 시작됨
- 코덱 불일치는 전화 통화라고 하는 오디오의 스펙트럼 서명이 알려진 전화 코덱과 맞지 않을 때 드러남
- 호흡 패턴은 실제 화자가 문장 길이와 폐활량에 따라 들이쉬는 지점과 달리, 합성 음성은 호흡을 건너뛰거나 잘못된 음절 경계에 넣으면서 어긋남
- 마이크로 지터는 자연 성대 진동의 미세한 불규칙성을 뜻하며, 생성 오디오는 밀리초 수준에서 지나치게 깨끗한 경우가 많음
- 포먼트 궤적은 실제 입 조음기관이 만드는 모음 전이 경로를 따르는데, 복제 음성은 포먼트 사이를 물리적으로 불가능한 방식으로 건너뛰기도 함
- 실내 음향 일관성은 파일 처음부터 끝까지 잔향 특성이 같아야 하는데, 생성 오디오는 건조하고 이어붙인 주변 맥락은 잔향이 있는 식으로 어긋날 수 있음
- 운율 평탄화는 합성 음성이 실제 화자보다 음높이와 에너지 변화 폭이 좁은 데서 나타남
- 발화 속도 안정성은 실제 사람의 가감속과 달리, 생성 음성은 긴 구간에서 메트로놈처럼 일정한 속도를 유지하는 데서 드러남
ORAVYS의 검사 방식
- 제출된 각 샘플에 대해 3,000개 이상 포렌식 엔진을 병렬 실행하며, 신호·운율·조음·코덱·출처 영역을 함께 다룸
- AudioSeal 워터마크 탐지는 워터마크가 유지된 경우 주요 상용 음성 모델이 생성한 파일을 표시할 수 있고, 워터마크가 있으면 결정적 양성 결과를 제공함
- 안티 스푸핑 모듈은 ASVspoof 공개 벤치마크를 바탕으로 훈련됐고, 샘플이 녹음이 아니라 합성됐을 가능성을 점수화함
- RGPD 준수 생체정보 처리를 적용하며, 명시적 동의 없이는 오디오를 상용 모델 학습에 쓰지 않고 정의된 보존 일정에 따라 삭제함
- Mercor 계약자이면서 이미 음성이 유통 중일 수 있다면 최초 의심 샘플 3개를 무료로 분석해 줌
- 무료 보고서에는 워터마크 탐지, 안티 스푸핑 점수, 위의 아티팩트 체크리스트가 포함됨
- 카드 정보도 필요 없고 사용량 제한 장벽도 없다고 밝힘
출처 및 제한
- 출처로는 Lapsus$ 유출 사이트 인덱스, 2026년 2월 Wall Street Journal, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026, Krebs on Security 아카이브가 적시됨
- ORAVYS는 유출 데이터셋을 호스팅하거나 재배포하지 않으며, 이를 입력값으로도 받지 않음
-
Homepage
-
Tech blog
- Mercor에서 AI 계약자 4만 명의 음성 샘플 4TB 유출