Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

NVIDIA ai-dynamo 팀이 개발한 데이터센터 규모 분산 추론 서빙 프레임워크입니다. 대규모 생성형 AI 및 추론 모델을 효율적으로 서빙하기 위해 설계되었으며, 단일 GPU 용량을 초과하는 모델에 대해 텐서 병렬 처리를 오케스트레이션합니다. 분리형 Prefill/Decode, 동적 GPU 스케줄링, LLM 인지 요청 라우팅, NIXL 기반 데이터 전송 가속, KV 캐시 오프로딩 등 핵심 기능을 제공합니다. SGLang, TensorRT-LLM, vLLM 등 주요 추론 백엔드를 지원합니다. Moonshot AI의 Kimi K2에서 10배 추론 속도 향상을 달성했으며, Kubernetes 네이티브 배포와 AWS EKS, Google GKE 가이드를 제공합니다. Rust와 Python으로 작성되었으며 Apache-2.0 라이선스로 공개되어 있습니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구