Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
DistServe는 LLM 추론 성능을 획기적으로 향상시키는 disaggregated serving 시스템입니다. Prefill과 Decoding 단계를 별도 GPU에서 독립적으로 스케일링하여 4.48배의 처리량 개선과 10.2배 더 타이트한 SLO를 달성합니다. 현재 vLLM, SGLang, NVIDIA Dynamo 등 대규모 LLM 서빙 프레임워크가 모두 이 설계를 채택하는 업계 표준이 되었습니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구