Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
MetaVoice-1B은 10만 시간의 음성 데이터로 학습된 1.2B 파라미터 규모의 파운데이션 음성 합성 모델입니다. 영어 기반 감정 표현과 자연스러운 운율, 톤 조절에 특화되어 있으며 30초 분량의 레퍼런스 오디오만으로 미국식·영국식 영어 화자의 음성을 제로샷으로 복제할 수 있습니다. 파인튜닝을 통해 크로스링구얼 보이스 클로닝과 임의 길이 텍스트 합성도 지원하며, KV 캐싱과 배치 처리 최적화로 추론 속도를 끌어올렸습니다. Apache 2.0 라이선스로 공개되어 상업적 활용이 가능하며 웹 UI, 추론 서버, Hugging Face 데모 등 다양한 배포 옵션을 제공합니다.
CorentinJ
5초 음성으로 즉시 목소리 복제 가능한 실시간 TTS 시스템
RVC-Boss
1분 음성으로 고품질 TTS 모델 훈련 가능한 음성 변환 웹UI
2noise
대화형 AI를 위한 자연스러운 음성 생성, 중영 이중언어 지원
myshell-ai
제로샷 크로스링귀얼 목소리 복제 기술로 정확한 톤 컬러 재현