Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
SWivid가 개발한 Flow Matching 기반 텍스트-음성 변환 시스템입니다. Diffusion Transformer와 ConvNeXt V2 아키텍처를 결합하여 빠른 학습과 추론 속도를 달성합니다. 10만 시간 이상의 공개 다국어 데이터셋으로 학습되어 뛰어난 자연스러움과 표현력의 제로샷 음성 합성을 제공합니다. 중국어와 영어를 기본 지원하며 커스텀 추론으로 추가 언어 확장이 가능합니다. 멀티 스타일·멀티 스피커 생성, Sway Sampling을 통한 추론 단계 최적화, 청크 추론 등을 지원합니다. NVIDIA, AMD(ROCm), Intel(XPU), Apple Silicon 등 다양한 GPU 환경에서 동작하며 Docker, Gradio, CLI, Triton/TensorRT-LLM 배포를 지원합니다.
CorentinJ
5초 음성으로 즉시 목소리 복제 가능한 실시간 TTS 시스템
RVC-Boss
1분 음성으로 고품질 TTS 모델 훈련 가능한 음성 변환 웹UI
2noise
대화형 AI를 위한 자연스러운 음성 생성, 중영 이중언어 지원
myshell-ai
제로샷 크로스링귀얼 목소리 복제 기술로 정확한 톤 컬러 재현