Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

VibeVoice는 Microsoft에서 개발한 오픈소스 프론티어 보이스 AI 플랫폼입니다. ASR(7B), TTS(1.5B), Realtime(0.5B) 3개 모델을 통합하며, 60분 장시간 음성을 단일 패스로 처리하여 화자 식별(Who), 타임스탬프(When), 전사 내용(What)을 동시에 생성합니다. 50개 이상 언어를 지원하며, 사용자 맞춤형 핫워드와 컨텍스트 기능을 제공합니다. VibeVoice-TTS는 90분 음성 합성과 4명 화자를 지원하고, VibeVoice-Realtime은 300ms 지연의 실시간 스트리밍을 제공합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱