Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

Speaches는 OpenAI API와 완벽 호환되는 오픈소스 음성 처리 서버입니다. faster-whisper 기반의 음성-텍스트 변환(STT), piper와 Kokoro를 활용한 텍스트-음성 변환(TTS), 그리고 실시간 음성 상호작용을 위한 Realtime API를 제공합니다. 동적 모델 로딩으로 요청 시 자동으로 모델을 불러오고, 비활성 시 언로드하여 메모리를 효율적으로 관리합니다. SSE 기반 스트리밍을 지원하여 전사 완료를 기다릴 필요 없이 실시간으로 결과를 받을 수 있으며, GPU와 CPU 모두 지원합니다. OpenAI SDK와 호환되므로 기존 OpenAI API 기반 프로젝트에서 드롭인 대체가 가능합니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합