Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Distil-Whisper는 OpenAI Whisper 모델을 지식 증류(knowledge distillation) 기법으로 경량화한 음성 인식(STT) 모델입니다. 원본 대비 추론 속도가 약 6배 빠르고 크기는 50% 작으면서도, 단어 오류율(WER)을 1% 이내 차이로 유지하는 것이 핵심 강점입니다. 디코더 레이어를 대폭 축소하면서도 인코더는 그대로 유지해 정확도 손실을 최소화했으며, 긴 오디오의 청크 단위 처리에서 환각(hallucination)이 더 적게 발생하도록 학습되었습니다. Hugging Face Transformers와 완전히 호환되어 손쉽게 통합할 수 있고, 영어 전용 모델부터 다국어 버전까지 다양한 체크포인트를 제공해 실시간 자막, 음성 비서, 대규모 전사 작업 등에 적합합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리