Trending

TensorRT-LLM

NVIDIAApache-2.02026.04.22

추론13.4K Stars2.3K Forks4.9천 조회

TensorRT-LLM은 NVIDIA가 공식 개발하는 LLM 추론 최적화 라이브러리로, NVIDIA GPU에서 대규모 언어 모델을 최고 수준의 효율로 서빙하기 위한 Python API와 C++/파이썬 런타임을 제공합니다. FP8·INT4 양자화, Paged KV Cache, 인플라이트 배칭, 텐서·파이프라인·전문가 병렬화, 그리고 Blackwell 아키텍처 전용 커널까지 지원하여 동일 하드웨어에서 수배 이상의 처리량을 끌어냅니다. Llama, Mixtral, DeepSeek, Qwen 등 주요 모델과 MoE·멀티모달 구조를 폭넓게 커버하며, Triton Inference Server와의 긴밀한 통합으로 엔터프라이즈급 LLM 서비스 구축이 간편합니다.

주요 특징

NVIDIA GPU 전용 FP8·INT4 양자화 최적화 커널
Paged KV Cache와 인플라이트 배칭
텐서·파이프라인·전문가 병렬 분산 추론
Blackwell 아키텍처 전용 최적화 지원
Triton Inference Server와의 엔터프라이즈 통합

Open Source

TensorRT-LLM

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile