Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Whisper Diarization은 OpenAI Whisper 기반 음성 인식 결과에 화자 분리(Speaker Diarization) 기능을 결합한 오픈소스 도구입니다. WhisperX의 Forced Alignment, NeMo의 MSDD(다중 화자 분리), Demucs 보컬 분리, 그리고 Silero VAD를 하나의 파이프라인으로 통합하여 회의록, 인터뷰, 팟캐스트 등 다중 화자 오디오를 정확하게 문장 단위로 분할하고 누가 언제 말했는지 자동으로 라벨링합니다. 99개 언어를 지원하며 로컬 GPU/CPU에서 실행 가능합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리