Trending

MegaTTS3

bytedanceApache-2.02026.06.28

TTS6.1K Stars471 Forks61 조회

MegaTTS3는 바이트댄스가 공개한 경량 고품질 제로샷 음성 합성(TTS) 모델입니다. 비교적 가벼운 파라미터 구조로도 자연스럽고 또렷한 음성을 생성하며, 짧은 참조 음성만으로 화자의 음색을 복제하는 제로샷 보이스 클로닝을 지원합니다. 디퓨전 기반 합성과 함께 외국어 억양의 세기를 사용자가 직접 조절하는 액센트 강도 제어 기능을 제공하고, 중국어·영어 혼합 발화와 발음 편집도 가능합니다. 추론 속도가 빠르고 모델이 가벼워 연구·개인 프로젝트는 물론 음성 더빙, 보이스 어시스턴트 등 실서비스에도 적합한 음성 합성 솔루션입니다.

주요 특징

짧은 참조 음성만으로 제로샷 보이스 클로닝
외국어 억양의 세기를 조절하는 액센트 강도 제어
디퓨전 기반의 자연스러운 고품질 음성 합성
중국어·영어 혼합 발화 및 발음 편집 지원
경량 구조로 빠른 추론 속도 제공

Open Source

MegaTTS3

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice