Trending

LLM Compressor

vllm-projectApache-2.02026.06.19

추론3.4K Stars545 Forks69 조회

LLM Compressor는 vLLM 프로젝트가 공개한 LLM 압축·양자화 라이브러리로, 추론 배포 최적화에 초점을 둡니다. 가중치, 활성값, KV 캐시, 어텐션을 대상으로 하는 포괄적인 양자화 알고리즘과 변환 기법을 제공하며, 결과 모델을 vLLM과 호환되는 compressed-tensors 포맷으로 저장합니다. Hugging Face 모델 및 저장소와 매끄럽게 연동되고, DDP와 디스크 오프로딩을 지원해 매우 큰 모델도 압축할 수 있습니다. GPTQ, AWQ, FP8 등 다양한 기법을 통해 모델 크기를 줄이고 vLLM에서의 추론 처리량과 메모리 효율을 높이려는 사용자에게 적합합니다. Apache-2.0 라이선스로 공개되어 있습니다.

주요 특징

가중치·활성값·KV 캐시·어텐션을 아우르는 포괄적 양자화 알고리즘
vLLM 호환 compressed-tensors 포맷으로 모델 저장
Hugging Face 모델 및 저장소와의 매끄러운 연동
DDP 및 디스크 오프로딩으로 초대형 모델 압축 지원
GPTQ·AWQ·FP8 등 다양한 양자화 기법 제공

Open Source

LLM Compressor

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile