Trending

TensorRT Edge-LLM

NVIDIAApache-2.02026.07.04

추론457 Stars84 Forks64 조회

NVIDIA가 공개한 엣지 디바이스 전용 경량 C++ LLM/VLM 추론 런타임으로, Jetson·DRIVE·DGX Spark 등 자원이 제한된 하드웨어에서 대규모 언어 모델과 비전-언어 모델을 효율적으로 배포하도록 설계되었습니다. HuggingFace 체크포인트를 ONNX로 변환한 뒤 디바이스에서 TensorRT 엔진을 빌드하는 파이프라인을 제공하며, 양자화를 통한 메모리 절감과 EAGLE 스펙큘레이티브 디코딩 가속을 지원합니다. vLLM 스타일의 실험적 파이썬 API와 OpenAI 호환 서버 인터페이스도 포함해 자율주행 차량 내 AI 어시스턴트, 로보틱스, 산업용 IoT 등 온디바이스 추론 시나리오를 겨냥합니다.

주요 특징

Jetson·DRIVE·DGX Spark 등 엣지 하드웨어 최적화
HuggingFace→ONNX→TensorRT 엔진 변환 파이프라인
양자화를 통한 모델 압축과 메모리 절감
EAGLE 스펙큘레이티브 디코딩 가속 지원
vLLM 스타일 API와 OpenAI 호환 서버 제공

Open Source

TensorRT Edge-LLM

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile