Trending

WhisperX

m-bainBSD-2-Clause2026.04.16

STT21.3K Stars2.2K Forks7.2천 조회

WhisperX는 OpenAI Whisper를 기반으로 단어 수준 타임스탬프와 화자 분리(Speaker Diarization) 기능을 추가한 고성능 음성 인식 라이브러리입니다. 배치 추론 최적화를 통해 Whisper large-v2 대비 70배 빠른 실시간 변환 속도를 제공하며, wav2vec2 기반 강제 정렬로 단어별 정확한 타임스탬프를 생성합니다. pyannote-audio 통합을 통한 화자 식별 기능으로 회의록, 인터뷰 녹취 등 다중 화자 환경에서 특히 유용합니다. 음성 활동 감지(VAD) 전처리로 환각(Hallucination)을 줄이고 배치 효율성을 높였으며, 8GB 미만 VRAM으로도 large-v2 모델 구동이 가능합니다.

주요 특징

배치 추론으로 Whisper large-v2 대비 70배 빠른 실시간 변환
wav2vec2 강제 정렬 기반 단어 수준 정확한 타임스탬프 생성
pyannote-audio 통합을 통한 다중 화자 분리(Speaker Diarization)
VAD 전처리로 환각 감소 및 배치 효율 극대화
8GB 미만 VRAM으로 large-v2 모델 구동 가능한 메모리 효율

Open Source

WhisperX

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

faster-whisper

Buzz