Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
MOSI.AI와 OpenMOSS 팀이 공개한 차세대 오픈소스 음성 및 사운드 생성 모델 패밀리입니다. MOSS-TTS(8B 플래그십), MOSS-TTSD(다화자 대화 합성), MOSS-VoiceGenerator(텍스트 프롬프트 기반 음색 디자인), MOSS-TTS-Realtime(저지연 실시간 음성 에이전트), MOSS-SoundEffect(효과음 생성)까지 다섯 개 모델로 구성되어 있어 장시간 안정 합성, 멀티스피커 대화, 캐릭터 보이스 디자인, 환경음 효과, 실시간 스트리밍을 모두 한 워크플로우로 처리할 수 있습니다. 한국어를 포함한 20개 언어와 제로샷 음성 클로닝을 지원하며, MossTTSDelay와 MossTTSLocal 두 가지 RVQ 기반 아키텍처를 제공해 프로덕션 안정성과 경량화를 모두 노립니다. llama.cpp 백엔드와 ONNX 토크나이저로 PyTorch 없이도 GGUF 양자화 추론이 가능하고 SGLang 가속화로 약 3배 빠른 처리량을 달성합니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함