Trending

Dia

nari-labsApache-2.02026.02.11

TTS19.1K Stars1.7K Forks7.0천 조회

Dia는 Nari Labs에서 개발한 1.6B 파라미터의 텍스트-음성 변환(TTS) 모델로, 한 번의 패스로 초현실적인 대화를 생성할 수 있습니다. 다중 화자 대화 생성, 웃음/기침 등 비언어적 소리 합성, 음성 복제 기능을 지원합니다. RTX 4090에서 2.1배 실시간 속도를 달성하며 약 4.4GB VRAM만 필요합니다.

주요 특징

[S1]/[S2] 태그로 다중 화자 대화 생성
웃음, 기침, 한숨 등 비언어적 소리 합성
제로샷 음성 복제 기능
Hugging Face Transformers 통합 지원
RTX 4090 기준 2.1x 실시간 속도 (4.4GB VRAM)

Open Source

Dia

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice