Trending

Spark-TTS

SparkAudioApache-2.02026.03.10

TTS10.9K Stars1.2K Forks8.4천 조회

Spark-TTS는 SparkAudio에서 개발한 LLM 기반의 효율적인 텍스트-음성 변환 시스템입니다. Qwen2.5 대규모 언어 모델을 기반으로 구축되어, Flow Matching 같은 별도의 음향 생성 모델 없이 LLM이 직접 오디오를 재구성하는 혁신적인 아키텍처를 채택했습니다. 단일 스트림 분리 음성 토큰(Single-Stream Decoupled Speech Tokens) 방식을 사용하여 의미 정보와 음향 정보를 효과적으로 분리합니다. 제로샷 음성 복제, 교차 언어 코드 스위칭, 성별/피치/속도 제어 등 다양한 기능을 지원하며, 중국어와 영어 이중 언어를 지원합니다. Nvidia Triton 추론 서빙을 통한 프로덕션 배포도 가능하여 실용적인 TTS 솔루션으로 주목받고 있습니다.

주요 특징

Qwen2.5 LLM 기반 단일 스트림 음성 토큰 아키텍처
제로샷 음성 복제 및 교차 언어 코드 스위칭 지원
성별, 피치, 발화 속도 등 세밀한 음성 제어
Flow Matching 없이 LLM 직접 오디오 재구성
Nvidia Triton/TensorRT-LLM 프로덕션 배포 지원

Open Source

Spark-TTS

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice