Trending

GPTQModel

ModelCloudApache-2.02026.06.19

추론1.2K Stars188 Forks100 조회

GPTQModel은 ModelCloud가 공개한 LLM 양자화(압축) 툴킷으로, 추론 시 모델 크기와 메모리 사용량을 줄이는 데 초점을 둡니다. NVIDIA CUDA, AMD ROCm, Huawei Ascend NPU, Intel XPU는 물론 Intel·AMD·Apple CPU까지 폭넓은 하드웨어 가속을 지원합니다. GPTQ를 비롯해 AWQ, FP8, GGUF, EXL3, ParoQuant 등 다양한 양자화 기법을 제공하며, Hugging Face Transformers와 vLLM, SGLang에서 양자화된 모델을 그대로 활용할 수 있도록 통합되어 있습니다. 최신 LLM 아키텍처와 MoE 모델까지 빠르게 지원을 추가해, 양자화된 모델을 다양한 백엔드에서 효율적으로 서빙하려는 사용자에게 적합합니다. Apache-2.0 라이선스로 공개되어 있습니다.

주요 특징

GPTQ·AWQ·FP8·GGUF·EXL3·ParoQuant 등 다양한 양자화 기법 지원
NVIDIA·AMD·Intel·Huawei NPU 및 CPU까지 폭넓은 하드웨어 가속
Hugging Face Transformers·vLLM·SGLang과의 통합 추론
최신 LLM 및 MoE 모델 아키텍처에 대한 빠른 지원 추가
양자화 모델의 추론 효율과 메모리 절감에 특화

Open Source

GPTQModel

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile