Trending

Speech-to-Speech

huggingfaceApache 2.02026.03.30

STT4.6K Stars531 Forks7.0천 조회

Hugging Face의 모듈식 음성 에이전트 프레임워크로, VAD(음성 활동 감지), STT(음성인식), LLM(언어 모델), TTS(음성 합성)를 연쇄 파이프라인으로 구성합니다. Whisper, MLX Audio, Parakeet TDT 등의 STT 엔진, HuggingFace/mlx-lm/OpenAI LLM, MeloTTS/ChatTTS/Kokoro TTS를 지원하며 Silero VAD v5를 활용합니다. 서버/클라이언트 TCP 스트리밍, WebSocket, 로컬 실행 등 다양한 배포 모드를 제공하고 영어, 프랑스어, 스페인어, 중국어, 일본어, 한국어를 지원합니다.

주요 특징

모듈식 파이프라인 - VAD, STT, LLM, TTS 조합 가능
다양한 STT 엔진 - Whisper, MLX Audio, Parakeet TDT
LLM 지원 - HuggingFace, mlx-lm, OpenAI API
다국어 지원 - 6개 언어 자동 감지 및 처리
배포 유연성 - TCP/WebSocket/로컬 실행 모드

Open Source

Speech-to-Speech

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper