Trending

Stable Audio Tools

Stability-AIMIT2026.04.09

Audio3.7K Stars440 Forks6.8천 조회

Stability AI가 개발한 오디오 생성 모델 학습 및 추론 프레임워크입니다. 오토인코더, 무조건부/조건부 디퓨전 모델, 언어 모델 등 6가지 모델 아키텍처를 지원하며, PyTorch Lightning 기반의 멀티 GPU/멀티 노드 분산 학습을 제공합니다. Stable Audio Open 모델은 텍스트 프롬프트로 최대 47초 길이의 44.1kHz 스테레오 오디오를 생성할 수 있으며, 오토인코더 압축, T5 텍스트 임베딩, 트랜스포머 기반 디퓨전(DiT) 3단 구조로 설계되었습니다. DeepSpeed ZeRO Stage 2, Flash Attention 등 최신 최적화 기법을 활용하고, JSON 기반 유연한 설정 시스템으로 커스텀 오디오 생성 모델 개발이 가능합니다.

주요 특징

6가지 모델 아키텍처 지원 (오토인코더, 디퓨전, LM 등)
PyTorch Lightning 멀티 GPU/멀티 노드 분산 학습
최대 47초 스테레오 오디오 텍스트 기반 생성
DeepSpeed ZeRO 및 Flash Attention 최적화
JSON 기반 유연한 모델/데이터셋 설정 시스템

Open Source

Stable Audio Tools

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)