Trending

pyannote.audio

pyannoteMIT2026.06.29

STT10.2K Stars1.1K Forks82 조회

pyannote.audio는 화자 분리(Speaker Diarization), 음성 활동 감지(VAD), 화자 변환 구간 감지, 중복 음성 감지 등 화자 중심 음성 분석을 위한 PyTorch 기반 신경망 라이브러리입니다. Hugging Face Hub를 통해 사전 학습된 최신 파이프라인을 손쉽게 불러와 활용할 수 있으며, 화자 임베딩과 클러스터링 알고리즘을 결합해 다수의 화자를 정확히 구분합니다. STT 파이프라인에서 '누가 언제 말했는가'를 분리하는 핵심 구성 요소로, insanely-fast-whisper, WhisperX 등 주요 음성 전사 도구와 통합되어 자막 생성, 회의록 작성, 콜센터 분석 등 다양한 실무 응용에 활용됩니다.

주요 특징

화자 분리(Speaker Diarization): 누가 언제 말했는지 자동 구분
음성 활동 감지(VAD) 및 화자 변환 구간 자동 탐지
중복 음성(Overlapped Speech) 감지 기능 내장
Hugging Face Hub 사전 학습 파이프라인 원클릭 로드
WhisperX, insanely-fast-whisper 등 주요 ASR 도구와 통합 지원

Open Source

pyannote.audio

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper