Voxtral Transcribe 2 모델 공개

4 hours ago 3

  • 초저지연 실시간 음성 인식고정밀 화자 분리 기능을 갖춘 차세대 음성-텍스트 변환 모델
  • 두 가지 모델로 구성되며, Voxtral Mini Transcribe V2는 배치 처리용, Voxtral Realtime은 실시간 응용을 위한 구조
  • Realtime 모델은 200ms 이하 지연으로 음성을 스트리밍 방식으로 처리하며, Apache 2.0 오픈 웨이트로 공개
  • Mini Transcribe V2는 한국어 포함 13개 언어 지원, 단어 단위 타임스탬프, 컨텍스트 바이어싱, 화자 분리 등 엔터프라이즈 기능 제공
  • 두 모델 모두 GDPR·HIPAA 준수 배포를 지원하며, 음성 기반 애플리케이션의 정확도·속도·비용 효율성을 크게 향상

Voxtral Transcribe 2 개요

  • Voxtral Transcribe 2는 최신 음성 인식 품질, 정밀 화자 분리(diarization) , 초저지연 처리를 특징으로 하는 두 개의 모델로 구성
    • Voxtral Mini Transcribe V2: 배치 전사용
    • Voxtral Realtime: 실시간 응용용
  • Realtime 모델은 Apache 2.0 라이선스로 공개되어 엣지 환경에서도 배포 가능
  • Mistral Studio 내 오디오 플레이그라운드를 통해 즉시 전사 테스트 가능

주요 기능 요약

  • Voxtral Mini Transcribe V2: 13개 언어 지원, 화자 분리, 컨텍스트 바이어싱, 단어 단위 타임스탬프 제공
  • Voxtral Realtime: 200ms 이하 지연으로 실시간 전사 가능, 음성 에이전트 및 실시간 응용에 적합
  • 효율성: 업계 최저 단가로 최고 수준의 정확도 제공
  • 오픈 웨이트: Realtime 모델은 Apache 2.0 하에 공개되어 프라이버시 중심 배포 가능

Voxtral Realtime

  • 지연(latency) 이 중요한 응용을 위해 설계된 모델로, 오디오를 청크 단위로 처리하지 않고 스트리밍 아키텍처로 실시간 전사 수행
  • 200ms 이하 지연 설정 가능, 2.4초 지연 시 배치 모델과 동일한 정확도, 480ms 지연 시 1~2% 오차율 유지
  • 13개 언어(영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 일본어, 한국어, 이탈리아어, 네덜란드어) 지원
  • 4B 파라미터 규모로 엣지 디바이스에서도 효율적으로 동작하며, 보안·프라이버시 보장
  • 모델 웨이트는 Hugging Face Hub에 공개

Voxtral Mini Transcribe V2

  • 전사 및 화자 분리 품질이 언어와 도메인 전반에서 크게 향상
  • FLEURS 벤치마크 기준 약 4% 단어 오류율, $0.003/분의 비용으로 최고 수준의 가격 대비 성능 제공
  • GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova보다 정확도가 높고, ElevenLabs Scribe v2보다 3배 빠르며 비용은 1/5 수준

엔터프라이즈 기능

  • 화자 분리(Speaker diarization) : 발화자 구분 및 시작/종료 시점 표시, 회의·인터뷰·다자 통화에 적합
  • 컨텍스트 바이어싱(Context biasing) : 최대 100개 단어·구문 지정 가능, 고유명사·전문용어 인식 향상 (영어 최적화, 타 언어는 실험적)
  • 단어 단위 타임스탬프: 자막 생성, 오디오 검색, 콘텐츠 정렬에 활용
  • 확장된 언어 지원: 13개 언어 지원, 비영어권에서도 경쟁 모델 대비 우수 성능
  • 소음 내성: 공장, 콜센터 등 소음 환경에서도 정확도 유지
  • 장시간 오디오 처리: 최대 3시간 녹음 파일 단일 요청 처리 가능

오디오 플레이그라운드

  • Mistral Studio에서 Voxtral Transcribe 2를 직접 테스트 가능
  • 최대 10개의 오디오 파일 업로드, 화자 분리·타임스탬프 단위·컨텍스트 바이어싱 설정 지원
  • 지원 포맷: .mp3, .wav, .m4a, .flac, .ogg, 파일당 최대 1GB

다양한 활용 사례

  • 회의 인텔리전스: 다국어 회의 전사 및 화자 구분으로 대규모 회의 데이터 분석 가능
  • 음성 에이전트·가상 비서: 200ms 이하 지연으로 자연스러운 대화형 인터페이스 구현
  • 컨택센터 자동화: 실시간 통화 전사로 감정 분석, 응답 제안, CRM 자동 입력 지원
  • 미디어·방송: 실시간 다국어 자막 생성, 고유명사·전문용어 인식 강화
  • 규제 준수·문서화: 화자별 타임스탬프 기반 감사 추적 가능
  • 두 모델 모두 GDPR 및 HIPAA 준수 배포를 지원하며, 온프레미스 또는 프라이빗 클라우드 환경에서 안전하게 운영 가능

이용 및 가격

  • Voxtral Mini Transcribe V2: API 이용 시 $0.003/분, Mistral Studio 또는 Le Chat에서 사용 가능
  • Voxtral Realtime: API 이용 시 $0.006/분, Hugging Face에서 오픈 웨이트 제공
  • Mistral의 오디오·전사 기능 문서를 통해 추가 정보 확인 가능

Read Entire Article