Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Riffusion은 Stable Diffusion 기반의 이미지 생성 모델을 활용해 실시간으로 음악을 생성하는 오픈소스 프로젝트입니다. 텍스트 프롬프트를 스펙트로그램 이미지로 변환한 뒤 오디오로 디코딩하는 독창적인 접근으로 화제를 모았으며, 이후 hobby 저장소 형태로 코어 라이브러리와 실시간 추론 코드가 공개되어 연구자와 개발자들이 자신의 환경에서 직접 실행하고 확장할 수 있습니다. 텍스트→음악 생성, 무한 잼 세션, 스타일 보간 등 다양한 창작 응용이 가능합니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함