Trending

Distil-Whisper

huggingfaceMIT2026.06.15

STT4.1K Stars353 Forks4.9천 조회

Distil-Whisper는 OpenAI Whisper 모델을 지식 증류(knowledge distillation) 기법으로 경량화한 음성 인식(STT) 모델입니다. 원본 대비 추론 속도가 약 6배 빠르고 크기는 50% 작으면서도, 단어 오류율(WER)을 1% 이내 차이로 유지하는 것이 핵심 강점입니다. 디코더 레이어를 대폭 축소하면서도 인코더는 그대로 유지해 정확도 손실을 최소화했으며, 긴 오디오의 청크 단위 처리에서 환각(hallucination)이 더 적게 발생하도록 학습되었습니다. Hugging Face Transformers와 완전히 호환되어 손쉽게 통합할 수 있고, 영어 전용 모델부터 다국어 버전까지 다양한 체크포인트를 제공해 실시간 자막, 음성 비서, 대규모 전사 작업 등에 적합합니다.

주요 특징

지식 증류로 Whisper 대비 약 6배 빠른 추론
모델 크기 50% 축소, WER 1% 이내 정확도 유지
긴 오디오 청크 처리 시 환각 감소
Hugging Face Transformers 완전 호환
영어 전용·다국어 등 다양한 체크포인트 제공

Open Source

Distil-Whisper

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper