Trending

VoiceCraft

jasonppyCC-BY-NC-SA-4.02026.04.15

TTS8.5K Stars796 Forks7.4천 조회

제로샷 음성 편집과 텍스트-음성 변환을 동시에 지원하는 신경 코덱 언어 모델입니다. 토큰 인필링 아키텍처를 기반으로 오디오북, 인터넷 동영상, 팟캐스트 등 실제 환경의 다양한 음원에서 몇 초의 레퍼런스 오디오만으로 음성 복제와 편집이 가능합니다. 330M과 830M 두 가지 모델 사이즈를 제공하며, 56M 파라미터 인코더와 4개 코드북(각 2048 코드)으로 16kHz 오디오를 처리합니다. 기존 음성의 일부 구간을 자연스럽게 수정하는 음성 편집 기능이 독보적이며, Gradio 웹 인터페이스와 Docker 배포, Google Colab 통합을 지원합니다.

주요 특징

제로샷 음성 편집 - 기존 음성 구간 자연스러운 수정
토큰 인필링 기반 제로샷 TTS
330M/830M 두 가지 모델 사이즈 제공
오디오북·동영상·팟캐스트 등 실제 환경 음원 지원
Gradio 웹 인터페이스 및 Docker/Colab 배포

Open Source

VoiceCraft

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice