Trending

MOSS-TTS Family

OpenMOSSApache-2.02026.05.11

Audio1.8K Stars173 Forks5.0천 조회

MOSI.AI와 OpenMOSS 팀이 공개한 차세대 오픈소스 음성 및 사운드 생성 모델 패밀리입니다. MOSS-TTS(8B 플래그십), MOSS-TTSD(다화자 대화 합성), MOSS-VoiceGenerator(텍스트 프롬프트 기반 음색 디자인), MOSS-TTS-Realtime(저지연 실시간 음성 에이전트), MOSS-SoundEffect(효과음 생성)까지 다섯 개 모델로 구성되어 있어 장시간 안정 합성, 멀티스피커 대화, 캐릭터 보이스 디자인, 환경음 효과, 실시간 스트리밍을 모두 한 워크플로우로 처리할 수 있습니다. 한국어를 포함한 20개 언어와 제로샷 음성 클로닝을 지원하며, MossTTSDelay와 MossTTSLocal 두 가지 RVQ 기반 아키텍처를 제공해 프로덕션 안정성과 경량화를 모두 노립니다. llama.cpp 백엔드와 ONNX 토크나이저로 PyTorch 없이도 GGUF 양자화 추론이 가능하고 SGLang 가속화로 약 3배 빠른 처리량을 달성합니다.

주요 특징

MOSS-TTS·TTSD·VoiceGenerator·Realtime·SoundEffect 5개 모델 패밀리 통합 제공
한국어 포함 20개 언어 지원과 제로샷 음성 클로닝
TTFB 180ms 수준의 실시간 스트리밍 음성 에이전트(MOSS-TTS-Realtime)
llama.cpp + ONNX Runtime 기반 PyTorch-free 경량 추론과 GGUF 양자화 지원
SGLang 백엔드로 MossTTSDelay 아키텍처 약 3배 가속화

Open Source

MOSS-TTS Family

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)