VibeVoice - 오픈소스 프런티어 음성 AI

2 hours ago 2
  • TTS와 ASR를 함께 포함한 음성 AI 모델군으로 구성되며, 장문 음성 생성과 장문 음성 인식을 모두 다룸
  • 핵심 구조는 7.5 Hz 초저프레임 연속 음성 토크나이저next-token diffusion 조합으로, 긴 시퀀스를 처리하면서 오디오 품질과 계산 효율을 함께 노림
  • 텍스트 문맥과 대화 흐름 이해에는 LLM을 쓰고, 고충실도 음향 세부 생성에는 diffusion head를 붙인 구조임
  • VibeVoice-ASR은 최대 60분 오디오를 단일 패스로 처리하며, 화자 정보와 타임스탬프, 발화 내용을 함께 담은 구조화 전사를 생성함
  • ASR 모델은 50개 이상 언어를 지원하고, 사용자 지정 hotword 또는 문맥 정보를 받아 도메인 특화 인식 정확도 개선을 노릴 수 있음
  • ASR 쪽에는 finetuning 코드vLLM 추론 지원이 공개돼 있으며, Hugging Face Transformers 라이브러리에서도 직접 사용할 수 있음
  • VibeVoice-TTS는 최대 90분 길이 음성을 단일 패스로 합성하고, 한 대화 안에서 최대 4명의 화자를 지원함
  • TTS는 표현력 있는 대화형 음성과 화자 일관성을 강조하며, 영어와 중국어 및 기타 언어를 지원함
  • 저장소 공지 기준으로 VibeVoice-TTS 코드는 제거된 상태이며, 공개 뒤 stated intent와 맞지 않는 사용이 확인돼 저장소에서 삭제됐다고 명시함
  • VibeVoice-Realtime-0.5B는 0.5B 규모의 실시간 TTS 모델로, 스트리밍 텍스트 입력과 약 300ms 첫 가청 지연, 약 10분 길이의 장문 음성 생성을 지원함
  • Realtime 모델에는 9개 언어의 다국어 실험 화자11개의 영어 스타일 음성이 추가돼 있으며, 더 많은 화자 유형을 계속 늘릴 예정이라고 적혀 있음
  • 배포 경로는 주로 Hugging Face 가중치, Playground, Colab으로 정리돼 있어 빠른 시험이 가능함
  • 이 저장소는 연구 및 개발 목적 전용으로 안내되며, 추가 테스트와 개발 없이 상용 또는 실제 환경에 쓰는 것은 권장되지 않음
  • 모델은 base model인 Qwen2.5 1.5b의 편향과 오류를 물려받을 수 있고, 딥페이크·사칭·허위정보 유포 위험이 있어 합법적이고 책임 있는 사용과 AI 생성물 공개가 권장됨
Read Entire Article