Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
pyannote.audio는 화자 분리(Speaker Diarization), 음성 활동 감지(VAD), 화자 변환 구간 감지, 중복 음성 감지 등 화자 중심 음성 분석을 위한 PyTorch 기반 신경망 라이브러리입니다. Hugging Face Hub를 통해 사전 학습된 최신 파이프라인을 손쉽게 불러와 활용할 수 있으며, 화자 임베딩과 클러스터링 알고리즘을 결합해 다수의 화자를 정확히 구분합니다. STT 파이프라인에서 '누가 언제 말했는가'를 분리하는 핵심 구성 요소로, insanely-fast-whisper, WhisperX 등 주요 음성 전사 도구와 통합되어 자막 생성, 회의록 작성, 콜센터 분석 등 다양한 실무 응용에 활용됩니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리