Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

Dia는 Nari Labs에서 개발한 1.6B 파라미터 텍스트-음성 변환(TTS) 모델로, 단일 패스로 초현실적인 대화형 오디오를 생성합니다. 기존 TTS 모델과 차별화되는 핵심 기능은 [S1], [S2] 스피커 태그를 활용한 멀티스피커 대화 생성과, 웃음/기침/한숨 등 비언어적 소리의 자연스러운 합성입니다. 오디오 컨디셔닝을 통해 감정과 톤을 제어할 수 있으며, 음성 클로닝도 지원합니다. RTX 4090에서 컴파일 시 실시간 대비 2.1배 속도로 동작하며, Hugging Face Transformers와 통합됩니다. Apache 2.0 라이선스로 상업적 활용도 자유롭습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오
AIGC-Audio
다중 음성/음악/오디오 생성 및 이해를 위한 종합 AI 시스템