Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
EnCodec은 Meta(Facebook Research)에서 개발한 최첨단 딥러닝 기반 신경망 오디오 코덱으로, 'High Fidelity Neural Audio Compression' 논문의 공식 구현체입니다. 24kHz 모노 오디오와 48kHz 스테레오 오디오를 모두 지원하며, 24kHz 모델은 1.5/3/6/12/24kbps, 48kHz 모델은 3/6/12/24kbps 비트레이트로 압축할 수 있습니다. 멀티스케일 복소수 스펙트로그램 판별기(MS-STFT Discriminator)와 RVQ(Residual Vector Quantization) 기반 인코딩으로 기존 코덱 대비 우수한 음질을 제공하며, 사전학습된 언어 모델을 통해 추가로 최대 40%의 표현 압축이 가능합니다. Hugging Face Transformers 라이브러리에서도 사용할 수 있습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함