Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Descript Audio Codec(DAC)는 Descript에서 개발한 최첨단 신경망 기반 오디오 코덱으로, 44.1kHz 오디오를 단 8kbps의 낮은 비트레이트로 약 90배 압축하면서도 원본에 가까운 고음질을 유지합니다. 음성, 환경음, 음악 등 모든 오디오 도메인에 대해 도메인 특화 학습 없이 작동하며, 16kHz, 24kHz, 44.1kHz 샘플링 레이트를 네이티브로 지원합니다. AudioLM, MusicGen, VALL-E 등 최신 오디오 언어 모델의 토크나이저로 활용 가능한 드롭인 대체재로, 개선된 RVQGAN(Residual Vector Quantization GAN) 아키텍처를 기반으로 고충실도 재구성을 제공합니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함