Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
여러 대의 가정용 기기를 하나의 클러스터로 연결해 LLM 추론을 가속하는 분산 추론 프로젝트입니다. 텐서 병렬화 방식으로 모델을 노드 간 수평 분할하며, 루트 노드가 가중치를 로드해 각 워커 노드에 텐서 조각을 분배하고 이더넷을 통해 동기화합니다. 노드 수는 2의 거듭제곱(1·2·4·8) 구성을 요구하고 최대 노드 수는 모델의 KV 헤드 수로 제한됩니다. Llama 3.1~3.3, Qwen 3, DeepSeek R1 Distill 등을 Q40 양자화로 지원하며, Linux·macOS·Windows와 ARM·x86_64 AVX2 프로세서에서 동작합니다. CLI 추론과 채팅, REST API 모드를 제공합니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구