Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Hume AI가 공개한 최초의 오픈소스 텍스트-투-스피치(TTS) 모델로, Text-Audio Dual Alignment(TADA) 아키텍처를 기반으로 한 음성-언어 통합 모델입니다. 텍스트와 오디오를 1:1 토큰 정렬로 동기화 생성하여 자동회귀(autoregressive) 한 스텝당 하나의 텍스트 토큰을 처리하며, 모델이 해당 토큰의 길이와 운율을 동적으로 결정합니다. 이 구조 덕분에 토큰 단위 환각(hallucination)을 사실상 0으로 줄이고, 0.09의 실시간 팩터(RTF)로 기존 LLM 기반 TTS 대비 5배 이상 빠른 추론 속도를 제공합니다. 최대 700초에 달하는 장문 오디오 생성을 지원하며 9개 이상의 언어로 자연스러운 음성을 합성합니다. bf16 추론, torch.compile 최적화, 프롬프트 캐싱을 통해 온디바이스 배포에도 최적화되어 있어 보이스 에이전트와 실시간 음성 응용에 활용도가 높습니다.
CorentinJ
5초 음성으로 즉시 목소리 복제 가능한 실시간 TTS 시스템
RVC-Boss
1분 음성으로 고품질 TTS 모델 훈련 가능한 음성 변환 웹UI
2noise
대화형 AI를 위한 자연스러운 음성 생성, 중영 이중언어 지원
myshell-ai
제로샷 크로스링귀얼 목소리 복제 기술로 정확한 톤 컬러 재현