Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
VoiceStar는 제로샷 TTS 모델 중 최초로 출력 음성의 길이를 정밀하게 제어하고, 학습 데이터보다 긴 음성까지 생성할 수 있는 혁신적인 오토리그레시브 음성 합성 시스템입니다. 핵심 기술인 PM-RoPE(Progress-Monitoring Rotary Position Embedding)를 통해 텍스트와 음성 토큰의 정렬을 최적화하며, CPM(Continuation-Prompt Mixed) 학습 방식으로 학습-추론 간 불일치를 해소합니다. 840M 파라미터 규모의 사전학습 모델 2종(30초, 40초)을 제공하며, 30초 학습 데이터로 최대 50초까지 음성을 외삽 생성할 수 있습니다. Gradio 웹 인터페이스와 CLI를 모두 지원하여 접근성이 뛰어납니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함