Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

고성능 저지연 실시간 음성-텍스트 변환 라이브러리입니다. Faster-Whisper 백엔드를 기반으로 고급 음성 활동 감지(VAD), 웨이크 워드 활성화, 즉시 전사 기능을 제공합니다. Python으로 작성되어 OpenAI Whisper 모델의 실시간 활용을 가능하게 하며, 다양한 음성 인식 시나리오에 적합한 모듈식 설계를 갖추고 있습니다. 실시간 스트리밍 전사, 다국어 지원, 커스텀 웨이크 워드 설정 등 실무 환경에서 바로 적용할 수 있는 기능들이 포함되어 있습니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합