Trending

MetaVoice-1B

metavoiceioApache-2.02026.05.26

TTS4.2K Stars693 Forks5.3천 조회

MetaVoice-1B은 10만 시간의 음성 데이터로 학습된 1.2B 파라미터 규모의 파운데이션 음성 합성 모델입니다. 영어 기반 감정 표현과 자연스러운 운율, 톤 조절에 특화되어 있으며 30초 분량의 레퍼런스 오디오만으로 미국식·영국식 영어 화자의 음성을 제로샷으로 복제할 수 있습니다. 파인튜닝을 통해 크로스링구얼 보이스 클로닝과 임의 길이 텍스트 합성도 지원하며, KV 캐싱과 배치 처리 최적화로 추론 속도를 끌어올렸습니다. Apache 2.0 라이선스로 공개되어 상업적 활용이 가능하며 웹 UI, 추론 서버, Hugging Face 데모 등 다양한 배포 옵션을 제공합니다.

주요 특징

1.2B 파라미터 파운데이션 음성 합성 모델
30초 레퍼런스 오디오로 제로샷 보이스 클로닝
감정 표현과 자연스러운 운율·톤 조절
임의 길이 텍스트 합성 및 KV 캐싱 최적화
Apache 2.0 라이선스 상업적 활용 가능

Open Source

MetaVoice-1B

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice