TrendingFeatured

vLLM

vllm-projectApache-2.02026.02.17

LLM70.4K Stars13.5K Forks7.5천 조회

PagedAttention 기술을 활용한 고처리량, 메모리 효율적 LLM 추론 및 서빙 엔진입니다. NVIDIA, AMD, Intel, TPU 등 멀티플랫폼을 지원하며, GPTQ/AWQ/INT4/INT8/FP8 양자화를 통해 다양한 하드웨어에서 최적화된 성능을 제공합니다. OpenAI 호환 API를 제공하여 기존 애플리케이션과 쉽게 통합할 수 있으며, speculative decoding과 연속 배칭으로 처리 속도를 극대화합니다.

주요 특징

PagedAttention 기반 메모리 효율 극대화
NVIDIA/AMD/Intel/TPU 멀티플랫폼 지원
GPTQ/AWQ/FP8 등 다양한 양자화 포맷
OpenAI 호환 REST API 서버
Speculative decoding 및 연속 배칭 처리

Open Source

vLLM

주요 특징

태그

관련 프로젝트

Hugging Face Transformers

Gemini CLI

LLMs from Scratch

Awesome MCP Servers