Trending

StyleTTS 2

yl4579MIT2026.03.17

TTS6.2K Stars665 Forks7.7천 조회

StyleTTS 2는 스타일 확산(Style Diffusion)과 대규모 음성 언어 모델을 활용한 적대적 훈련을 통해 인간 수준의 음성 합성을 달성한 TTS 모델입니다. 스타일을 잠재 변수로 모델링하여 참조 음성 없이도 다양하고 자연스러운 음성을 생성할 수 있는 것이 핵심 혁신입니다. WavLM 기반 사전 훈련된 음성 언어 모델을 판별자로 활용하고, 미분 가능한 지속 시간 모델링으로 종단간 훈련이 가능합니다. 제로샷 화자 적응 기능을 지원하며, LJSpeech와 LibriTTS 데이터셋으로 사전 훈련된 모델이 HuggingFace에 공개되어 있습니다. MIT 라이선스로 상용화 친화적입니다.

주요 특징

스타일 확산 모델링으로 참조 음성 없이 다양한 음성 생성
WavLM 기반 음성 언어 모델 판별자 활용
미분 가능한 지속 시간 모델링으로 종단간 훈련
제로샷 화자 적응 기능 지원
HuggingFace에 사전 훈련 모델 및 Colab 데모 공개

Open Source

StyleTTS 2

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice