Trending

Distributed Llama

b4rtazMIT2026.07.04

추론3.0K Stars238 Forks40 조회

여러 대의 가정용 기기를 하나의 클러스터로 연결해 LLM 추론을 가속하는 분산 추론 프로젝트입니다. 텐서 병렬화 방식으로 모델을 노드 간 수평 분할하며, 루트 노드가 가중치를 로드해 각 워커 노드에 텐서 조각을 분배하고 이더넷을 통해 동기화합니다. 노드 수는 2의 거듭제곱(1·2·4·8) 구성을 요구하고 최대 노드 수는 모델의 KV 헤드 수로 제한됩니다. Llama 3.1~3.3, Qwen 3, DeepSeek R1 Distill 등을 Q40 양자화로 지원하며, Linux·macOS·Windows와 ARM·x86_64 AVX2 프로세서에서 동작합니다. CLI 추론과 채팅, REST API 모드를 제공합니다.

주요 특징

텐서 병렬화로 여러 기기에 모델 수평 분할
루트 노드가 가중치 로드 후 워커에 텐서 분배
2의 거듭제곱 노드 토폴로지와 이더넷 동기화
Llama 3.x·Qwen 3·DeepSeek R1 Distill Q40 지원
CLI 추론·채팅과 REST API 모드 제공

Open Source

Distributed Llama

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile