Voxtral Transcribe 2 모델 공개

4 hours ago 3

초저지연 실시간 음성 인식과 고정밀 화자 분리 기능을 갖춘 차세대 음성-텍스트 변환 모델
두 가지 모델로 구성되며, Voxtral Mini Transcribe V2는 배치 처리용, Voxtral Realtime은 실시간 응용을 위한 구조
Realtime 모델은 200ms 이하 지연으로 음성을 스트리밍 방식으로 처리하며, Apache 2.0 오픈 웨이트로 공개
Mini Transcribe V2는 한국어 포함 13개 언어 지원, 단어 단위 타임스탬프, 컨텍스트 바이어싱, 화자 분리 등 엔터프라이즈 기능 제공
두 모델 모두 GDPR·HIPAA 준수 배포를 지원하며, 음성 기반 애플리케이션의 정확도·속도·비용 효율성을 크게 향상

Voxtral Transcribe 2 개요

Voxtral Transcribe 2는 최신 음성 인식 품질, 정밀 화자 분리(diarization) , 초저지연 처리를 특징으로 하는 두 개의 모델로 구성
- Voxtral Mini Transcribe V2: 배치 전사용
- Voxtral Realtime: 실시간 응용용
Realtime 모델은 Apache 2.0 라이선스로 공개되어 엣지 환경에서도 배포 가능
Mistral Studio 내 오디오 플레이그라운드를 통해 즉시 전사 테스트 가능

주요 기능 요약

Voxtral Mini Transcribe V2: 13개 언어 지원, 화자 분리, 컨텍스트 바이어싱, 단어 단위 타임스탬프 제공
Voxtral Realtime: 200ms 이하 지연으로 실시간 전사 가능, 음성 에이전트 및 실시간 응용에 적합
효율성: 업계 최저 단가로 최고 수준의 정확도 제공
오픈 웨이트: Realtime 모델은 Apache 2.0 하에 공개되어 프라이버시 중심 배포 가능

Voxtral Realtime

지연(latency) 이 중요한 응용을 위해 설계된 모델로, 오디오를 청크 단위로 처리하지 않고 스트리밍 아키텍처로 실시간 전사 수행
200ms 이하 지연 설정 가능, 2.4초 지연 시 배치 모델과 동일한 정확도, 480ms 지연 시 1~2% 오차율 유지
13개 언어(영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 일본어, 한국어, 이탈리아어, 네덜란드어) 지원
4B 파라미터 규모로 엣지 디바이스에서도 효율적으로 동작하며, 보안·프라이버시 보장
모델 웨이트는 Hugging Face Hub에 공개

Voxtral Mini Transcribe V2

전사 및 화자 분리 품질이 언어와 도메인 전반에서 크게 향상
FLEURS 벤치마크 기준 약 4% 단어 오류율, $0.003/분의 비용으로 최고 수준의 가격 대비 성능 제공
GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova보다 정확도가 높고, ElevenLabs Scribe v2보다 3배 빠르며 비용은 1/5 수준

엔터프라이즈 기능

화자 분리(Speaker diarization) : 발화자 구분 및 시작/종료 시점 표시, 회의·인터뷰·다자 통화에 적합
컨텍스트 바이어싱(Context biasing) : 최대 100개 단어·구문 지정 가능, 고유명사·전문용어 인식 향상 (영어 최적화, 타 언어는 실험적)
단어 단위 타임스탬프: 자막 생성, 오디오 검색, 콘텐츠 정렬에 활용
확장된 언어 지원: 13개 언어 지원, 비영어권에서도 경쟁 모델 대비 우수 성능
소음 내성: 공장, 콜센터 등 소음 환경에서도 정확도 유지
장시간 오디오 처리: 최대 3시간 녹음 파일 단일 요청 처리 가능

오디오 플레이그라운드

Mistral Studio에서 Voxtral Transcribe 2를 직접 테스트 가능
최대 10개의 오디오 파일 업로드, 화자 분리·타임스탬프 단위·컨텍스트 바이어싱 설정 지원
지원 포맷: .mp3, .wav, .m4a, .flac, .ogg, 파일당 최대 1GB

다양한 활용 사례

회의 인텔리전스: 다국어 회의 전사 및 화자 구분으로 대규모 회의 데이터 분석 가능
음성 에이전트·가상 비서: 200ms 이하 지연으로 자연스러운 대화형 인터페이스 구현
컨택센터 자동화: 실시간 통화 전사로 감정 분석, 응답 제안, CRM 자동 입력 지원
미디어·방송: 실시간 다국어 자막 생성, 고유명사·전문용어 인식 강화
규제 준수·문서화: 화자별 타임스탬프 기반 감사 추적 가능

두 모델 모두 GDPR 및 HIPAA 준수 배포를 지원하며, 온프레미스 또는 프라이빗 클라우드 환경에서 안전하게 운영 가능

이용 및 가격

Voxtral Mini Transcribe V2: API 이용 시 $0.003/분, Mistral Studio 또는 Le Chat에서 사용 가능
Voxtral Realtime: API 이용 시 $0.006/분, Hugging Face에서 오픈 웨이트 제공
Mistral의 오디오·전사 기능 문서를 통해 추가 정보 확인 가능

Read Entire Article