Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

Tensormesh가 개발한 LLM 추론 성능 최적화 엔진입니다. LLM의 KV(Key-Value) 캐시를 GPU, CPU, 디스크, 클라우드 등 분산 데이터센터 리소스에 저장하고 재사용하여 TTFT(Time-To-First-Token)를 크게 줄이고 처리량을 높입니다. vLLM v1과의 통합으로 고성능 CPU 오프로딩, 분리형 프리필(disaggregated prefill), P2P 캐시 공유를 지원하며, SGLang과도 호환됩니다. 멀티라운드 QA와 RAG 시나리오에서 3~10배의 지연 시간 절감 및 GPU 사이클 감소를 달성합니다. GMI Cloud, Google Cloud, CoreWeave 등 주요 추론 제공업체가 채택하고 있으며, Redis, Weka, PliOps 등 스토리지 플랫폼과도 통합됩니다. Apache-2.0 라이선스로 공개되어 있습니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구