VibeVoice - 오픈소스 프런티어 음성 AI

2 hours ago 2

TTS와 ASR를 함께 포함한 음성 AI 모델군으로 구성되며, 장문 음성 생성과 장문 음성 인식을 모두 다룸
핵심 구조는 7.5 Hz 초저프레임 연속 음성 토크나이저와 next-token diffusion 조합으로, 긴 시퀀스를 처리하면서 오디오 품질과 계산 효율을 함께 노림
텍스트 문맥과 대화 흐름 이해에는 LLM을 쓰고, 고충실도 음향 세부 생성에는 diffusion head를 붙인 구조임
VibeVoice-ASR은 최대 60분 오디오를 단일 패스로 처리하며, 화자 정보와 타임스탬프, 발화 내용을 함께 담은 구조화 전사를 생성함
ASR 모델은 50개 이상 언어를 지원하고, 사용자 지정 hotword 또는 문맥 정보를 받아 도메인 특화 인식 정확도 개선을 노릴 수 있음
ASR 쪽에는 finetuning 코드와 vLLM 추론 지원이 공개돼 있으며, Hugging Face Transformers 라이브러리에서도 직접 사용할 수 있음
VibeVoice-TTS는 최대 90분 길이 음성을 단일 패스로 합성하고, 한 대화 안에서 최대 4명의 화자를 지원함
TTS는 표현력 있는 대화형 음성과 화자 일관성을 강조하며, 영어와 중국어 및 기타 언어를 지원함
저장소 공지 기준으로 VibeVoice-TTS 코드는 제거된 상태이며, 공개 뒤 stated intent와 맞지 않는 사용이 확인돼 저장소에서 삭제됐다고 명시함
VibeVoice-Realtime-0.5B는 0.5B 규모의 실시간 TTS 모델로, 스트리밍 텍스트 입력과 약 300ms 첫 가청 지연, 약 10분 길이의 장문 음성 생성을 지원함
Realtime 모델에는 9개 언어의 다국어 실험 화자와 11개의 영어 스타일 음성이 추가돼 있으며, 더 많은 화자 유형을 계속 늘릴 예정이라고 적혀 있음
배포 경로는 주로 Hugging Face 가중치, Playground, Colab으로 정리돼 있어 빠른 시험이 가능함
이 저장소는 연구 및 개발 목적 전용으로 안내되며, 추가 테스트와 개발 없이 상용 또는 실제 환경에 쓰는 것은 권장되지 않음
모델은 base model인 Qwen2.5 1.5b의 편향과 오류를 물려받을 수 있고, 딥페이크·사칭·허위정보 유포 위험이 있어 합법적이고 책임 있는 사용과 AI 생성물 공개가 권장됨

Read Entire Article

VibeVoice - 오픈소스 프런티어 음성 AI

Related

GitHub 원격 코드 실행 취약점: CVE-2026-3854 분석

ChatGPT가 광고를 제공하는 방식

Show GN: HomeButler – 홈서버를 챙겨주는 작은 집사 CLI

GitHub 장애 - Incomplete pull request results in repositories ...

Claude한테 짜게 시키고 Codex한테 까게 시키기 — 두 에이전트를 한 레포에서 분담시키는 실무 패턴

GitHub 가용성에 대한 업데이트

채권자 이의 제출공고

YC의 Requests for Startups - 2026년 여름

Tips

Trending

Popular

Awesome Design.MD - 유명 웹사이트 디자인 시스템을 내 사이트에 적용하기

CX Lessons from ANZ Voices | SAP Spotlight on ANZ Tech

How Südzucker Group Fuels Digitalization with SAP Signavio &...

Claude Code 소스 유출로 탄생한 OpenClaude — GPT-4o, Gemini, Ollama 등...

전처 살해 후 시신 유기 시도한 60대 구속…法 "도망 염려" [종합]

Mac mini에서 Ollama과 Gemma 4 26B 모델 설정 요약 (2026년 4월 기준)

How SAP S/4HANA Has Improved Financial Close

4 Common ERP Myths, Dispelled | Vision33

Vision33 Receives SAP Partner Awards North America 2026 for ...

Value of External PLM Integration with SAP for Product Data ...