Trending

NVIDIA Model Optimizer

NVIDIAApache-2.02026.03.08

추론2.1K Stars286 Forks6.3천 조회

NVIDIA가 개발한 통합 모델 최적화 라이브러리로, 양자화(Quantization), 프루닝(Pruning), 지식 증류(Distillation), 투기적 디코딩(Speculative Decoding), 희소성(Sparsity) 등 최신 모델 압축 기법을 하나의 프레임워크에서 제공합니다. TensorRT-LLM, vLLM, SGLang 등 주요 추론 프레임워크와 원활하게 통합되어, LLM 배포 시 2~4배의 모델 압축과 추론 속도 향상을 달성할 수 있습니다. Hugging Face, PyTorch, ONNX 모델을 지원하며, DeepSeek-R1-FP4, Llama 계열 등 사전 양자화된 모델도 Hugging Face에서 바로 사용할 수 있습니다.

주요 특징

PTQ(Post-Training Quantization)로 2~4배 모델 압축
QAT(Quantization-Aware Training)로 정확도 보존 양자화
프루닝(Pruning)으로 불필요한 가중치 제거
지식 증류(Distillation)로 소형 모델 배포
투기적 디코딩(Speculative Decoding)으로 추론 가속
희소성(Sparsity) 최적화로 비제로 파라미터만 저장
TensorRT-LLM, vLLM, SGLang 통합 지원
NVFP4 저정밀도 추론 지원

Open Source

NVIDIA Model Optimizer

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile