Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
제로샷 음성 편집과 텍스트-음성 변환을 동시에 지원하는 신경 코덱 언어 모델입니다. 토큰 인필링 아키텍처를 기반으로 오디오북, 인터넷 동영상, 팟캐스트 등 실제 환경의 다양한 음원에서 몇 초의 레퍼런스 오디오만으로 음성 복제와 편집이 가능합니다. 330M과 830M 두 가지 모델 사이즈를 제공하며, 56M 파라미터 인코더와 4개 코드북(각 2048 코드)으로 16kHz 오디오를 처리합니다. 기존 음성의 일부 구간을 자연스럽게 수정하는 음성 편집 기능이 독보적이며, Gradio 웹 인터페이스와 Docker 배포, Google Colab 통합을 지원합니다.
CorentinJ
5초 음성으로 즉시 목소리 복제 가능한 실시간 TTS 시스템
RVC-Boss
1분 음성으로 고품질 TTS 모델 훈련 가능한 음성 변환 웹UI
2noise
대화형 AI를 위한 자연스러운 음성 생성, 중영 이중언어 지원
myshell-ai
제로샷 크로스링귀얼 목소리 복제 기술로 정확한 톤 컬러 재현