Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
ACE-Step 1.5는 소비자급 하드웨어에서 상업용 수준의 음악을 생성할 수 있는 오픈소스 음악 생성 파운데이션 모델이다. LM(언어 모델)이 사용자 쿼리를 곡 전체 설계도로 변환하고, DiT(디퓨전 트랜스포머)가 이를 기반으로 오디오를 생성하는 하이브리드 아키텍처를 채택했다. A100 GPU에서 2초 이내, RTX 3090에서 10초 이내로 풀 곡 생성이 가능하며, 4GB 미만의 VRAM으로도 구동된다. 10초부터 10분까지 유연한 길이 설정, 최대 8곡 동시 배치 생성, 50개 이상 언어의 가사 지원, LoRA 기반 개인 스타일 학습 등 다양한 기능을 제공한다. 레퍼런스 오디오 입력, 커버곡 생성, 선택적 리페인트, 보컬-배경음악 변환, 트랙 분리 등 고급 편집 기능도 갖추고 있어 로컬 환경에서의 AI 음악 생성 표준으로 자리잡고 있다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오