Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
SGLang은 대규모 언어 모델과 멀티모달 모델을 위한 고성능 서빙 프레임워크입니다. 단일 GPU부터 대규모 분산 클러스터까지 광범위한 설정에서 저지연 및 고처리량 추론을 제공합니다. RadixAttention, 제로-오버헤드 CPU 스케줄러, 양자화, 다중 LoRA 배칭 등 최신 최적화 기술을 지원하며, NVIDIA, AMD, Intel, Google TPU, Ascend NPU 등 다양한 하드웨어를 지원합니다. Llama, Qwen, DeepSeek, GPT, Gemma 등 주요 모델과 호환됩니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구