Trending

xLLM

jd-opensourceApache-2.02026.02.20

추론1.1K Stars140 Forks8.1천 조회

JD.com 오픈소스팀이 개발한 다양한 AI 가속기 최적화 LLM 추론 엔진입니다. 서비스-엔진 분리 아키텍처로 엔터프라이즈급 대규모 언어 모델 배포를 지원합니다. 풀 그래프 파이프라인 실행, 동적 형태 최적화, 글로벌 KV 캐시 관리, 추측 디코딩, MoE 동적 로드 밸런싱 등의 고급 최적화 기법을 구현합니다. NPU, MLU590, BI150 등 다양한 AI 가속기를 지원하며, JD.com의 고객서비스, 리스크 관리, 공급망, 추천 시스템에 실제 배포되어 운영 중입니다.

주요 특징

풀 그래프 파이프라인 비동기 스케줄링
동적 형태 그래프 최적화 및 멀티그래프 캐싱
글로벌 KV 캐시 계층 관리 (오프로딩/프리페칭)
추측 디코딩 + MoE 동적 로드 밸런싱
다중 AI 가속기 지원 (NPU, MLU590, BI150)

Open Source

xLLM

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile