Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
ICASSP 2026 논문 기반의 음성 인식 연구 프로젝트입니다. Whisper 음성 인코더와 LLaDA 확산 기반 언어 모델을 결합하여, 직접 디코딩과 세미-자동회귀 디코딩을 지원합니다. LibriSpeech 테스트에서 2.25%/4.94% WER 성능을 달성하며, 토론/정정 기능으로 생성된 트랜스크립트를 자동 개선할 수 있습니다. 속도와 정확도의 균형을 조정 가능한 설정으로 다양한 응용에 대응합니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합