Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Apple Silicon 기반 온디바이스 음성 처리 도구입니다. Qwen3-ASR, Qwen3-TTS, CosyVoice3, PersonaPlex 등 최신 음성 AI 모델을 Swift로 구현하며, 클라우드 API 없이 100% 로컬 실행을 지원합니다. macOS, iOS에서 음성 인식, 음성 합성, 화자 분석, 음성 개선 등을 수행할 수 있으며, 52개 언어 지원과 280ms 이하의 저지연 TTS를 제공합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리