Trending

LMCache

TensormeshApache-2.02026.03.04

추론7.3K Stars957 Forks6.6천 조회

Tensormesh가 개발한 LLM 추론 성능 최적화 엔진입니다. LLM의 KV(Key-Value) 캐시를 GPU, CPU, 디스크, 클라우드 등 분산 데이터센터 리소스에 저장하고 재사용하여 TTFT(Time-To-First-Token)를 크게 줄이고 처리량을 높입니다. vLLM v1과의 통합으로 고성능 CPU 오프로딩, 분리형 프리필(disaggregated prefill), P2P 캐시 공유를 지원하며, SGLang과도 호환됩니다. 멀티라운드 QA와 RAG 시나리오에서 3~10배의 지연 시간 절감 및 GPU 사이클 감소를 달성합니다. GMI Cloud, Google Cloud, CoreWeave 등 주요 추론 제공업체가 채택하고 있으며, Redis, Weka, PliOps 등 스토리지 플랫폼과도 통합됩니다. Apache-2.0 라이선스로 공개되어 있습니다.

주요 특징

GPU/CPU/디스크/클라우드 분산 KV 캐시 저장 및 재사용
vLLM v1 통합 - CPU 오프로딩, 분리형 프리필, P2P 공유
SGLang KV 캐시 오프로딩 호환
멀티라운드 QA/RAG에서 3~10배 지연 절감
NVIDIA Dynamo, KServe 등 생태계 통합
pip install lmcache 한 줄 설치

Open Source

LMCache

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile