Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
StyleTTS 2는 스타일 확산(Style Diffusion)과 대규모 음성 언어 모델을 활용한 적대적 훈련을 통해 인간 수준의 음성 합성을 달성한 TTS 모델입니다. 스타일을 잠재 변수로 모델링하여 참조 음성 없이도 다양하고 자연스러운 음성을 생성할 수 있는 것이 핵심 혁신입니다. WavLM 기반 사전 훈련된 음성 언어 모델을 판별자로 활용하고, 미분 가능한 지속 시간 모델링으로 종단간 훈련이 가능합니다. 제로샷 화자 적응 기능을 지원하며, LJSpeech와 LibriTTS 데이터셋으로 사전 훈련된 모델이 HuggingFace에 공개되어 있습니다. MIT 라이선스로 상용화 친화적입니다.
CorentinJ
5초 음성으로 즉시 목소리 복제 가능한 실시간 TTS 시스템
RVC-Boss
1분 음성으로 고품질 TTS 모델 훈련 가능한 음성 변환 웹UI
2noise
대화형 AI를 위한 자연스러운 음성 생성, 중영 이중언어 지원
myshell-ai
제로샷 크로스링귀얼 목소리 복제 기술로 정확한 톤 컬러 재현