Trending

NVIDIA Model Optimizer

NVIDIAApache-2.02026.05.31

추론2.8K Stars414 Forks4.9천 조회

NVIDIA Model Optimizer는 LLM과 비전 모델의 추론 속도를 극대화하기 위한 SOTA 모델 최적화 기법을 한곳에 모은 통합 라이브러리입니다. 사후 학습 양자화(PTQ), 양자화 인지 학습(QAT), 지식 증류, 구조적 프루닝, NAS, 스페큘러티브 디코딩 등 최신 압축 기법을 모듈 형태로 제공하며, 최적화된 모델은 TensorRT-LLM, TensorRT, vLLM 등 다양한 배포 프레임워크로 곧바로 내보낼 수 있습니다. FP8/INT4 AWQ, SmoothQuant, GPTQ 등 업계 표준 방법을 일관된 API로 호출할 수 있어 LLM 서빙 비용을 크게 낮추는 도구로 주목받고 있습니다.

주요 특징

PTQ/QAT 양자화 (FP8, INT4 AWQ, SmoothQuant, GPTQ)
구조적 프루닝 및 지식 증류 파이프라인
스페큘러티브 디코딩 및 NAS 지원
TensorRT-LLM, TensorRT, vLLM으로 원클릭 익스포트
LLM·비전·확산 모델 모두 커버하는 통합 API

Open Source

NVIDIA Model Optimizer

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile