Trending

EnCodec

facebookresearchMIT2026.06.05

Audio4.0K Stars357 Forks5.2천 조회

EnCodec은 Meta(Facebook Research)에서 개발한 최첨단 딥러닝 기반 신경망 오디오 코덱으로, 'High Fidelity Neural Audio Compression' 논문의 공식 구현체입니다. 24kHz 모노 오디오와 48kHz 스테레오 오디오를 모두 지원하며, 24kHz 모델은 1.5/3/6/12/24kbps, 48kHz 모델은 3/6/12/24kbps 비트레이트로 압축할 수 있습니다. 멀티스케일 복소수 스펙트로그램 판별기(MS-STFT Discriminator)와 RVQ(Residual Vector Quantization) 기반 인코딩으로 기존 코덱 대비 우수한 음질을 제공하며, 사전학습된 언어 모델을 통해 추가로 최대 40%의 표현 압축이 가능합니다. Hugging Face Transformers 라이브러리에서도 사용할 수 있습니다.

주요 특징

24kHz 모노 / 48kHz 스테레오 듀얼 모델 지원
1.5~24kbps 가변 비트레이트 압축
RVQ 기반 양자화로 고음질 유지
MS-STFT 멀티스케일 복소 스펙트로그램 판별기
Hugging Face Transformers 네이티브 통합

Open Source

EnCodec

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)