Trending

Dia2

nari-labsApache-2.02026.02.26

TTS1.1K Stars89 Forks8.7천 조회

Nari Labs가 개발한 실시간 스트리밍 대화 TTS 모델입니다. 전체 텍스트를 입력하지 않아도 첫 몇 단어만으로 오디오 생성을 시작할 수 있어, 음성 비서나 실시간 대화 시스템에 최적화되어 있습니다. 1.6B 파라미터 기반의 Dia 후속 모델로, 스트리밍 아키텍처를 도입하여 지연 시간을 대폭 줄였습니다. Apache 2.0 라이선스로 상업적 사용이 가능하며, Gradio 데모 앱을 통해 즉시 테스트할 수 있습니다. 초현실적인 대화 오디오를 단일 패스로 생성하는 Dia의 핵심 역량을 유지하면서 실시간 스트리밍을 추가한 점이 핵심 차별점입니다.

주요 특징

스트리밍 TTS - 전체 텍스트 없이 실시간 오디오 생성 시작
1.6B 파라미터 - 초현실적 대화 음성 생성
저지연 아키텍처 - 음성 비서 및 실시간 대화에 최적화
Apache 2.0 라이선스 - 상업적 사용 가능
Gradio 데모 - 즉시 테스트 가능한 웹 인터페이스
Dia 후속 모델 - 기존 Dia의 음질 유지하면서 스트리밍 추가

Open Source

Dia2

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice