Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
AudioX는 ICLR 2026에서 발표된 멀티모달 통합 오디오 생성 프레임워크로, 텍스트·영상·이미지·오디오 등 다양한 입력 조건으로부터 고품질 오디오와 음악을 생성합니다. 핵심 모듈인 Multimodal Adaptive Fusion(MAF)을 통해 이종 모달리티를 효과적으로 통합하며, 7백만 건 이상의 curated 데이터셋 IF-caps로 학습되었습니다. 텍스트→오디오, 텍스트→음악, 영상→오디오, 영상→음악 등 4가지 생성 태스크를 단일 모델에서 지원하고, Gradio 데모와 Python API를 제공해 손쉽게 실험할 수 있습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함