Trending

DistServe

LLMServeApache License 2.02026.03.21

추론785 Stars85 Forks7.5천 조회

DistServe는 LLM 추론 성능을 획기적으로 향상시키는 disaggregated serving 시스템입니다. Prefill과 Decoding 단계를 별도 GPU에서 독립적으로 스케일링하여 4.48배의 처리량 개선과 10.2배 더 타이트한 SLO를 달성합니다. 현재 vLLM, SGLang, NVIDIA Dynamo 등 대규모 LLM 서빙 프레임워크가 모두 이 설계를 채택하는 업계 표준이 되었습니다.

주요 특징

Prefill-Decode Disaggregation
독립적 GPU 스케일링
Goodput 최적화
SLO 보장
멀티 모델 서빙

Open Source

DistServe

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile