Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

VibeVoice는 Microsoft에서 개발한 오픈소스 프론티어 보이스 AI 플랫폼입니다. ASR(7B), TTS(1.5B), Realtime(0.5B) 3개 모델을 통합하며, 60분 장시간 음성을 단일 패스로 처리하여 화자 식별(Who), 타임스탬프(When), 전사 내용(What)을 동시에 생성합니다. 50개 이상 언어를 지원하며, 사용자 맞춤형 핫워드와 컨텍스트 기능을 제공합니다. VibeVoice-TTS는 90분 음성 합성과 4명 화자를 지원하고, VibeVoice-Realtime은 300ms 지연의 실시간 스트리밍을 제공합니다.

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합

modelscope
31개 언어 지원 산업용 종합 음성 인식(ASR) 툴킷