Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
WhisperX는 OpenAI Whisper를 기반으로 단어 수준 타임스탬프와 화자 분리(Speaker Diarization) 기능을 추가한 고성능 음성 인식 라이브러리입니다. 배치 추론 최적화를 통해 Whisper large-v2 대비 70배 빠른 실시간 변환 속도를 제공하며, wav2vec2 기반 강제 정렬로 단어별 정확한 타임스탬프를 생성합니다. pyannote-audio 통합을 통한 화자 식별 기능으로 회의록, 인터뷰 녹취 등 다중 화자 환경에서 특히 유용합니다. 음성 활동 감지(VAD) 전처리로 환각(Hallucination)을 줄이고 배치 효율성을 높였으며, 8GB 미만 VRAM으로도 large-v2 모델 구동이 가능합니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합