Trending

NVIDIA Dynamo

ai-dynamoApache-2.02026.02.27

추론6.1K Stars879 Forks6.3천 조회

NVIDIA ai-dynamo 팀이 개발한 데이터센터 규모 분산 추론 서빙 프레임워크입니다. 대규모 생성형 AI 및 추론 모델을 효율적으로 서빙하기 위해 설계되었으며, 단일 GPU 용량을 초과하는 모델에 대해 텐서 병렬 처리를 오케스트레이션합니다. 분리형 Prefill/Decode, 동적 GPU 스케줄링, LLM 인지 요청 라우팅, NIXL 기반 데이터 전송 가속, KV 캐시 오프로딩 등 핵심 기능을 제공합니다. SGLang, TensorRT-LLM, vLLM 등 주요 추론 백엔드를 지원합니다. Moonshot AI의 Kimi K2에서 10배 추론 속도 향상을 달성했으며, Kubernetes 네이티브 배포와 AWS EKS, Google GKE 가이드를 제공합니다. Rust와 Python으로 작성되었으며 Apache-2.0 라이선스로 공개되어 있습니다.

주요 특징

분리형 Prefill/Decode로 GPU 처리량 극대화
동적 GPU 스케줄링으로 실시간 수요 대응
LLM 인지 요청 라우팅으로 KV 캐시 재계산 제거
SGLang, TensorRT-LLM, vLLM 백엔드 지원
Kubernetes 네이티브 배포 및 AWS/GKE 가이드 제공

Open Source

NVIDIA Dynamo

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile