Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Audio-Omni는 SIGGRAPH 2026에 채택된 오디오 통합 대형 모델로, 사운드·음악·음성 도메인에서 이해(Understanding)·생성(Generation)·편집(Editing)을 하나의 프레임워크로 통합한 최초의 엔드투엔드 시스템입니다. Qwen2.5-Omni 기반 멀티모달 LLM과 훈련 가능한 Diffusion Transformer를 결합해, 텍스트→오디오·음악·TTS, 영상→오디오, 음성 변환, 사운드 추가/제거/추출, 스타일 전환 등 폭넓은 오디오 태스크를 수행합니다. 세계 지식을 갖춘 LLM이 오디오 생성을 직접 제어한다는 점이 기존 모델과의 차별점입니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함