Trending

CosyVoice

FunAudioLLMApache-2.02026.04.15

TTS20.6K Stars2.4K Forks7.0천 조회

알리바바 FunAudioLLM 팀이 개발한 대규모 다국어 음성 생성 모델입니다. LLM 기반 아키텍처로 추론, 학습, 배포까지 풀스택 기능을 제공합니다. 최신 CosyVoice 3.0은 제로샷 다국어 음성 합성에서 최고 수준의 콘텐츠 일관성과 화자 유사도를 달성합니다. 중국어, 영어, 일본어, 한국어 등 9개 주요 언어와 18개 이상의 중국어 방언을 지원하며, 병음/CMU 음소를 통한 발음 제어가 가능합니다. 양방향 스트리밍으로 약 150ms의 초저지연을 달성하고, 감정·속도·볼륨 등 음성 지시 기반 제어를 지원합니다. vLLM, TensorRT-LLM 배포와 Docker 컨테이너화도 가능합니다.

주요 특징

9개 주요 언어 + 18개 중국어 방언 지원 다국어 합성
제로샷 크로스링구얼 음성 클로닝
양방향 스트리밍 약 150ms 초저지연
감정·속도·볼륨 음성 지시 기반 제어
vLLM/TensorRT-LLM/Docker 풀스택 배포 지원

Open Source

CosyVoice

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice