TrendingFeatured

VibeVoice

microsoftMIT2026.02.09

STT23.0K Stars2.5K Forks6.7천 조회

VibeVoice는 Microsoft에서 개발한 오픈소스 프론티어 보이스 AI 플랫폼입니다. ASR(7B), TTS(1.5B), Realtime(0.5B) 3개 모델을 통합하며, 60분 장시간 음성을 단일 패스로 처리하여 화자 식별(Who), 타임스탬프(When), 전사 내용(What)을 동시에 생성합니다. 50개 이상 언어를 지원하며, 사용자 맞춤형 핫워드와 컨텍스트 기능을 제공합니다. VibeVoice-TTS는 90분 음성 합성과 4명 화자를 지원하고, VibeVoice-Realtime은 300ms 지연의 실시간 스트리밍을 제공합니다.

주요 특징

VibeVoice-ASR(7B): 60분 장시간 음성 단일 패스 처리
화자 식별 + 타임스탬프 + 전사 동시 생성
50개+ 언어 다국어 지원
사용자 맞춤형 핫워드/컨텍스트 지원
VibeVoice-TTS(1.5B): 90분 음성 합성/4명 화자
VibeVoice-Realtime(0.5B): 300ms 지연 실시간 스트리밍
ASR + TTS + Realtime 통합 플랫폼

Open Source

VibeVoice

주요 특징

태그

관련 프로젝트

whisper.cpp

WhisperX

faster-whisper

Handy