Trending

ACE-Step 1.5

ace-stepMIT2026.03.09

Audio7.5K Stars830 Forks8.3천 조회

ACE-Step 1.5는 소비자급 하드웨어에서 상업용 수준의 음악을 생성할 수 있는 오픈소스 음악 생성 파운데이션 모델이다. LM(언어 모델)이 사용자 쿼리를 곡 전체 설계도로 변환하고, DiT(디퓨전 트랜스포머)가 이를 기반으로 오디오를 생성하는 하이브리드 아키텍처를 채택했다. A100 GPU에서 2초 이내, RTX 3090에서 10초 이내로 풀 곡 생성이 가능하며, 4GB 미만의 VRAM으로도 구동된다. 10초부터 10분까지 유연한 길이 설정, 최대 8곡 동시 배치 생성, 50개 이상 언어의 가사 지원, LoRA 기반 개인 스타일 학습 등 다양한 기능을 제공한다. 레퍼런스 오디오 입력, 커버곡 생성, 선택적 리페인트, 보컬-배경음악 변환, 트랙 분리 등 고급 편집 기능도 갖추고 있어 로컬 환경에서의 AI 음악 생성 표준으로 자리잡고 있다.

주요 특징

A100에서 2초 이내 풀 곡 생성, RTX 3090에서 10초 이내 생성
10초~10분 유연한 길이 설정 및 최대 8곡 동시 배치 생성
50개 이상 언어 가사 지원 및 LoRA 기반 개인 스타일 학습
레퍼런스 오디오 입력, 커버곡 생성, 트랙 분리 기능
4GB 미만 VRAM으로 구동 가능한 경량 추론

Open Source

ACE-Step 1.5

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)