Trending

Mooncake

kvcache-aiApache-2.02026.05.17

추론5.3K Stars753 Forks5.3천 조회

Mooncake은 Moonshot AI의 Kimi LLM 서비스를 운영하기 위해 개발된 KVCache 중심의 분리형(disaggregated) 추론 서빙 인프라입니다. Prefill 단계와 Decode 단계를 별도의 클러스터로 분리하고, 노드 전반에 흩어진 CPU/DRAM/SSD 자원을 풀링하여 KVCache 전용 분산 저장소로 활용하는 것이 핵심 아이디어입니다. RDMA와 NVMe-oF, EFA 등 고성능 전송 프로토콜을 지원하는 Transfer Engine, 분산 체크포인트 공유를 위한 P2P Store, 그리고 vLLM·SGLang·TensorRT-LLM·LMDeploy 같은 주요 엔진과의 통합을 제공합니다. 대규모 동시 요청 환경에서 TCP 기반 시스템 대비 평균 첫 토큰 응답 시간을 크게 단축하는 것으로 보고되어, 대형 LLM 서비스 운영자에게 의미 있는 선택지로 떠오르고 있습니다.

주요 특징

Prefill/Decode 분리형 아키텍처로 GPU 자원 활용 극대화
RDMA, NVMe-oF, EFA를 지원하는 고성능 Transfer Engine
DRAM/VRAM/SSD를 풀링하는 분산 KVCache 저장소
vLLM, SGLang, TensorRT-LLM, LMDeploy와 통합
NVIDIA, AMD, Ascend 등 멀티 벤더 하드웨어 지원

Open Source

Mooncake

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile