Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

Nari Labs가 개발한 실시간 스트리밍 대화 TTS 모델입니다. 전체 텍스트를 입력하지 않아도 첫 몇 단어만으로 오디오 생성을 시작할 수 있어, 음성 비서나 실시간 대화 시스템에 최적화되어 있습니다. 1.6B 파라미터 기반의 Dia 후속 모델로, 스트리밍 아키텍처를 도입하여 지연 시간을 대폭 줄였습니다. Apache 2.0 라이선스로 상업적 사용이 가능하며, Gradio 데모 앱을 통해 즉시 테스트할 수 있습니다. 초현실적인 대화 오디오를 단일 패스로 생성하는 Dia의 핵심 역량을 유지하면서 실시간 스트리밍을 추가한 점이 핵심 차별점입니다.
CorentinJ
5초 음성으로 즉시 목소리 복제 가능한 실시간 TTS 시스템
RVC-Boss
1분 음성으로 고품질 TTS 모델 훈련 가능한 음성 변환 웹UI
2noise
대화형 AI를 위한 자연스러운 음성 생성, 중영 이중언어 지원
myshell-ai
제로샷 크로스링귀얼 목소리 복제 기술로 정확한 톤 컬러 재현