Trending

Whisper Diarization

MahmoudAshraf97BSD-2-Clause2026.05.27

STT5.5K Stars502 Forks5.2천 조회

Whisper Diarization은 OpenAI Whisper 기반 음성 인식 결과에 화자 분리(Speaker Diarization) 기능을 결합한 오픈소스 도구입니다. WhisperX의 Forced Alignment, NeMo의 MSDD(다중 화자 분리), Demucs 보컬 분리, 그리고 Silero VAD를 하나의 파이프라인으로 통합하여 회의록, 인터뷰, 팟캐스트 등 다중 화자 오디오를 정확하게 문장 단위로 분할하고 누가 언제 말했는지 자동으로 라벨링합니다. 99개 언어를 지원하며 로컬 GPU/CPU에서 실행 가능합니다.

주요 특징

OpenAI Whisper 기반 다국어 음성 인식 (99개 언어)
NeMo MSDD 모델을 활용한 자동 화자 분리
Demucs로 배경 음악/노이즈 분리 후 음성만 추출
Silero VAD로 무음 구간 자동 검출 및 제거
Forced Alignment 기반 단어 단위 타임스탬프 생성

Open Source

Whisper Diarization

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper