Trending

AudioX

ZeyueTCC-BY-NC2026.05.06

Audio1.5K Stars139 Forks4.8천 조회

AudioX는 ICLR 2026에서 발표된 멀티모달 통합 오디오 생성 프레임워크로, 텍스트·영상·이미지·오디오 등 다양한 입력 조건으로부터 고품질 오디오와 음악을 생성합니다. 핵심 모듈인 Multimodal Adaptive Fusion(MAF)을 통해 이종 모달리티를 효과적으로 통합하며, 7백만 건 이상의 curated 데이터셋 IF-caps로 학습되었습니다. 텍스트→오디오, 텍스트→음악, 영상→오디오, 영상→음악 등 4가지 생성 태스크를 단일 모델에서 지원하고, Gradio 데모와 Python API를 제공해 손쉽게 실험할 수 있습니다.

주요 특징

텍스트, 영상, 이미지, 오디오 멀티모달 입력 지원
Multimodal Adaptive Fusion(MAF) 모듈로 크로스모달 정렬 강화
텍스트→오디오, 텍스트→음악, 영상→오디오, 영상→음악 4가지 태스크 지원
7백만 샘플 규모의 IF-caps 데이터셋으로 학습
Gradio 데모 및 Python API 제공

Open Source

AudioX

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI