Trending

Silero VAD

snakers4MIT License2026.03.23

STT8.5K Stars743 Forks7.6천 조회

Silero VAD는 음성 활동 감지(Voice Activity Detection)를 위한 엔터프라이즈급 사전학습 모델입니다. 6,000개 이상의 언어로 학습되어 다양한 도메인, 배경 소음, 음질의 오디오에서 뛰어난 성능을 보입니다. 매우 가볍고 빠르며(CPU에서 30ms당 1ms 미만 처리), PyTorch와 ONNX 기반으로 이식성이 높습니다. IoT, 엣지, 모바일 장치에서 실시간 음성 탐지가 필요한 음성 인터페이스, 콜센터 자동화, 데이터 정제 등에 활용됩니다.

주요 특징

뛰어난 정확도와 성능 (6,000개 언어 학습)
매우 빠른 처리 (CPU에서 <1ms per 30ms chunk)
경량 모델 (JIT 기준 2MB)
8kHz, 16kHz 유연한 샘플링 레이트 지원
PyTorch/ONNX 기반 높은 이식성

Open Source

Silero VAD

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper