Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Stability AI가 개발한 오디오 생성 모델 학습 및 추론 프레임워크입니다. 오토인코더, 무조건부/조건부 디퓨전 모델, 언어 모델 등 6가지 모델 아키텍처를 지원하며, PyTorch Lightning 기반의 멀티 GPU/멀티 노드 분산 학습을 제공합니다. Stable Audio Open 모델은 텍스트 프롬프트로 최대 47초 길이의 44.1kHz 스테레오 오디오를 생성할 수 있으며, 오토인코더 압축, T5 텍스트 임베딩, 트랜스포머 기반 디퓨전(DiT) 3단 구조로 설계되었습니다. DeepSpeed ZeRO Stage 2, Flash Attention 등 최신 최적화 기법을 활용하고, JSON 기반 유연한 설정 시스템으로 커스텀 오디오 생성 모델 개발이 가능합니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함