Trending

AudioSep

Audio-AGIMIT2026.03.29

Audio1.9K Stars146 Forks7.3천 조회

AudioSep은 자연어 쿼리를 사용해 오디오에서 원하는 소리를 분리하는 파운데이션 모델입니다. 'Separate Anything You Describe' 논문의 공식 구현체로, 텍스트로 설명한 소리를 혼합 오디오에서 정확하게 추출합니다. 음악에서 특정 악기만 분리하거나, 환경 소음에서 특정 소리만 추출하는 등 다양한 오디오 분리 작업을 하나의 모델로 처리할 수 있습니다. 제로샷 일반화 능력이 뛰어나 학습하지 않은 새로운 유형의 소리도 분리 가능하며, 오디오 이벤트 분리, 악기 분리, 음성 향상 등 폭넓은 활용이 가능합니다.

주요 특징

자연어 쿼리 기반 오디오 분리
제로샷 일반화 능력으로 미학습 소리 분리 가능
오디오 이벤트, 악기, 음성 등 다양한 분리 작업 지원
텍스트-오디오 정렬 학습으로 높은 분리 정확도
PyTorch 기반 간편한 추론 파이프라인

Open Source

AudioSep

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)