Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
ICASSP 2026 논문 기반의 음성 인식 연구 프로젝트입니다. Whisper 음성 인코더와 LLaDA 확산 기반 언어 모델을 결합하여, 직접 디코딩과 세미-자동회귀 디코딩을 지원합니다. LibriSpeech 테스트에서 2.25%/4.94% WER 성능을 달성하며, 토론/정정 기능으로 생성된 트랜스크립트를 자동 개선할 수 있습니다. 속도와 정확도의 균형을 조정 가능한 설정으로 다양한 응용에 대응합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리