Trending

Audio-Omni

ZeyueTCC-BY-NC2026.05.06

Audio243 Stars19 Forks4.9천 조회

Audio-Omni는 SIGGRAPH 2026에 채택된 오디오 통합 대형 모델로, 사운드·음악·음성 도메인에서 이해(Understanding)·생성(Generation)·편집(Editing)을 하나의 프레임워크로 통합한 최초의 엔드투엔드 시스템입니다. Qwen2.5-Omni 기반 멀티모달 LLM과 훈련 가능한 Diffusion Transformer를 결합해, 텍스트→오디오·음악·TTS, 영상→오디오, 음성 변환, 사운드 추가/제거/추출, 스타일 전환 등 폭넓은 오디오 태스크를 수행합니다. 세계 지식을 갖춘 LLM이 오디오 생성을 직접 제어한다는 점이 기존 모델과의 차별점입니다.

주요 특징

오디오 이해·생성·편집을 단일 프레임워크로 통합
Qwen2.5-Omni 기반 멀티모달 LLM과 Diffusion Transformer 결합
텍스트→오디오/음악/TTS, 영상→오디오, 음성 변환 지원
사운드 추가, 제거, 추출, 스타일 전환 편집 기능
SIGGRAPH 2026 채택, arXiv 논문 공개

Open Source

Audio-Omni

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI