Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Mooncake은 Moonshot AI의 Kimi LLM 서비스를 운영하기 위해 개발된 KVCache 중심의 분리형(disaggregated) 추론 서빙 인프라입니다. Prefill 단계와 Decode 단계를 별도의 클러스터로 분리하고, 노드 전반에 흩어진 CPU/DRAM/SSD 자원을 풀링하여 KVCache 전용 분산 저장소로 활용하는 것이 핵심 아이디어입니다. RDMA와 NVMe-oF, EFA 등 고성능 전송 프로토콜을 지원하는 Transfer Engine, 분산 체크포인트 공유를 위한 P2P Store, 그리고 vLLM·SGLang·TensorRT-LLM·LMDeploy 같은 주요 엔진과의 통합을 제공합니다. 대규모 동시 요청 환경에서 TCP 기반 시스템 대비 평균 첫 토큰 응답 시간을 크게 단축하는 것으로 보고되어, 대형 LLM 서비스 운영자에게 의미 있는 선택지로 떠오르고 있습니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구