Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
잠재 디퓨전 모델(Latent Diffusion Model) 기반의 텍스트-오디오 생성 시스템으로, 음향 효과, 음악, 음성을 하나의 통합 모델로 생성할 수 있습니다. 7가지 사전학습 체크포인트를 제공하며, 48kHz 고음질 생성, 음악 전문 모델, GigaSpeech/LJSpeech 기반 TTS 모델 등 다양한 용도에 최적화되어 있습니다. T5 크로스 어텐션과 DDIM 샘플링을 활용한 아키텍처로 높은 생성 품질을 달성하며, HuggingFace Diffusers 라이브러리와 통합되어 네이티브 대비 3배 빠른 추론이 가능합니다. Gradio 웹 인터페이스와 CLI를 지원하고, CPU, CUDA, MPS 등 다양한 하드웨어에서 동작합니다. IEEE/ACM Transactions on Audio, Speech, and Language Processing에 게재된 학술 연구 기반 프로젝트입니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함