Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

MLX Audio는 Apple MLX 프레임워크 기반의 TTS/STT/STS 통합 라이브러리입니다. Apple Silicon에서 최적화된 성능으로 음성 합성(TTS 8개 모델), 음성 인식(STT 6개 모델), 음성 변환(STS)을 지원합니다. Kokoro, Qwen3-TTS, Whisper, Parakeet 등 주요 모델을 포함하며, 3-bit~8-bit 양자화로 메모리 효율을 극대화합니다. OpenAI 호환 REST API와 3D 시각화 웹 인터페이스, Swift 패키지로 iOS/macOS 네이티브 통합이 가능합니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함