Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Silero VAD는 음성 활동 감지(Voice Activity Detection)를 위한 엔터프라이즈급 사전학습 모델입니다. 6,000개 이상의 언어로 학습되어 다양한 도메인, 배경 소음, 음질의 오디오에서 뛰어난 성능을 보입니다. 매우 가볍고 빠르며(CPU에서 30ms당 1ms 미만 처리), PyTorch와 ONNX 기반으로 이식성이 높습니다. IoT, 엣지, 모바일 장치에서 실시간 음성 탐지가 필요한 음성 인터페이스, 콜센터 자동화, 데이터 정제 등에 활용됩니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합