TrendingFeatured

SGLang

sgl-projectApache-2.02026.02.06

추론23.3K Stars4.3K Forks7.0천 조회

SGLang은 대규모 언어 모델과 멀티모달 모델을 위한 고성능 서빙 프레임워크입니다. 단일 GPU부터 대규모 분산 클러스터까지 광범위한 설정에서 저지연 및 고처리량 추론을 제공합니다. RadixAttention, 제로-오버헤드 CPU 스케줄러, 양자화, 다중 LoRA 배칭 등 최신 최적화 기술을 지원하며, NVIDIA, AMD, Intel, Google TPU, Ascend NPU 등 다양한 하드웨어를 지원합니다. Llama, Qwen, DeepSeek, GPT, Gemma 등 주요 모델과 호환됩니다.

주요 특징

RadixAttention으로 KV 캐시 효율적 재사용
제로-오버헤드 CPU 스케줄러
다양한 양자화 기법 지원 (INT4, FP8 등)
다중 LoRA 배칭
NVIDIA/AMD/Intel/TPU/NPU 하드웨어 지원
SGLang Diffusion으로 이미지/비디오 생성 가속
분산 클러스터 지원

Open Source

SGLang

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile