Trending

VoiceStar

jasonppyMIT2026.04.09

Audio313 Stars28 Forks6.7천 조회

VoiceStar는 제로샷 TTS 모델 중 최초로 출력 음성의 길이를 정밀하게 제어하고, 학습 데이터보다 긴 음성까지 생성할 수 있는 혁신적인 오토리그레시브 음성 합성 시스템입니다. 핵심 기술인 PM-RoPE(Progress-Monitoring Rotary Position Embedding)를 통해 텍스트와 음성 토큰의 정렬을 최적화하며, CPM(Continuation-Prompt Mixed) 학습 방식으로 학습-추론 간 불일치를 해소합니다. 840M 파라미터 규모의 사전학습 모델 2종(30초, 40초)을 제공하며, 30초 학습 데이터로 최대 50초까지 음성을 외삽 생성할 수 있습니다. Gradio 웹 인터페이스와 CLI를 모두 지원하여 접근성이 뛰어납니다.

주요 특징

출력 음성 길이 정밀 제어 (Duration Control)
학습 데이터 이상 길이 외삽 생성 (Extrapolation)
PM-RoPE 기반 텍스트-음성 정렬 최적화
840M 파라미터 사전학습 모델 2종 제공
Gradio 웹 인터페이스 및 CLI 지원

Open Source

VoiceStar

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)