Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
알리바바 TongYi 랩에서 개발한 엔드-투-엔드 음성인식 모델입니다. 수천만 시간의 실제 음성 데이터로 학습되었으며 31개 언어를 지원하고 저지연 실시간 전사를 가능하게 합니다. 중국 방언 7개 그룹과 26개 지역 억양에 특화되었으며, 원거리 및 고소음 환경(회의실, 차량 등)에서 93% 정확도를 달성합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리