Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Hugging Face의 모듈식 음성 에이전트 프레임워크로, VAD(음성 활동 감지), STT(음성인식), LLM(언어 모델), TTS(음성 합성)를 연쇄 파이프라인으로 구성합니다. Whisper, MLX Audio, Parakeet TDT 등의 STT 엔진, HuggingFace/mlx-lm/OpenAI LLM, MeloTTS/ChatTTS/Kokoro TTS를 지원하며 Silero VAD v5를 활용합니다. 서버/클라이언트 TCP 스트리밍, WebSocket, 로컬 실행 등 다양한 배포 모드를 제공하고 영어, 프랑스어, 스페인어, 중국어, 일본어, 한국어를 지원합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리