Trending

AudioLDM 2

haoheliuCC-BY-NC-SA-4.02026.04.09

Audio2.6K Stars209 Forks6.9천 조회

잠재 디퓨전 모델(Latent Diffusion Model) 기반의 텍스트-오디오 생성 시스템으로, 음향 효과, 음악, 음성을 하나의 통합 모델로 생성할 수 있습니다. 7가지 사전학습 체크포인트를 제공하며, 48kHz 고음질 생성, 음악 전문 모델, GigaSpeech/LJSpeech 기반 TTS 모델 등 다양한 용도에 최적화되어 있습니다. T5 크로스 어텐션과 DDIM 샘플링을 활용한 아키텍처로 높은 생성 품질을 달성하며, HuggingFace Diffusers 라이브러리와 통합되어 네이티브 대비 3배 빠른 추론이 가능합니다. Gradio 웹 인터페이스와 CLI를 지원하고, CPU, CUDA, MPS 등 다양한 하드웨어에서 동작합니다. IEEE/ACM Transactions on Audio, Speech, and Language Processing에 게재된 학술 연구 기반 프로젝트입니다.

주요 특징

텍스트-오디오/음악/음성 통합 생성
7가지 사전학습 체크포인트 (48kHz 고음질 포함)
HuggingFace Diffusers 통합 (3배 빠른 추론)
CUDA, MPS, CPU 다양한 하드웨어 지원
Gradio 웹 인터페이스 및 CLI 배치 처리

Open Source

AudioLDM 2

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)