Trending

Dia

nari-labsApache-2.02026.02.21

Audio19.1K Stars1.7K Forks8.3천 조회

Dia는 Nari Labs에서 개발한 1.6B 파라미터 텍스트-음성 변환(TTS) 모델로, 단일 패스로 초현실적인 대화형 오디오를 생성합니다. 기존 TTS 모델과 차별화되는 핵심 기능은 [S1], [S2] 스피커 태그를 활용한 멀티스피커 대화 생성과, 웃음/기침/한숨 등 비언어적 소리의 자연스러운 합성입니다. 오디오 컨디셔닝을 통해 감정과 톤을 제어할 수 있으며, 음성 클로닝도 지원합니다. RTX 4090에서 컴파일 시 실시간 대비 2.1배 속도로 동작하며, Hugging Face Transformers와 통합됩니다. Apache 2.0 라이선스로 상업적 활용도 자유롭습니다.

주요 특징

멀티스피커 대화 생성 ([S1], [S2] 태그)
비언어적 소리 합성 (웃음, 기침, 한숨 등)
오디오 컨디셔닝 감정/톤 제어
제로샷 음성 클로닝
RTX 4090 기준 2.1배 실시간 속도

Open Source

Dia

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)