Trending

PowerInfer

Tiiny-AIMIT2026.03.15

추론8.8K Stars501 Forks5.8천 조회

PowerInfer는 소비자 수준의 GPU에서 대규모 언어모델을 고속으로 실행하는 GPU-CPU 하이브리드 추론 엔진이다. 뉴런 활성화의 멱법칙 분포를 활용하여, 자주 활성화되는 '핫' 뉴런은 GPU에, 입력별로 변하는 '콜드' 뉴런은 CPU에서 처리하는 독창적인 아키텍처를 채택했다. RTX 4090에서 llama.cpp 대비 최대 11배 빠른 추론 성능을 달성하며, A100 GPU의 82% 성능을 소비자 하드웨어에서 구현한다. Llama 2, Falcon-40B 등 ReLU 기반 모델을 지원하고 INT4 양자화, 배치 생성, 서빙 기능을 포함한다.

주요 특징

GPU-CPU 하이브리드 추론으로 메모리 효율 극대화
llama.cpp 대비 최대 11배 추론 성능 향상
INT4 양자화 지원으로 메모리 사용량 절감
Llama 2, Falcon-40B 등 ReLU 기반 모델 지원
Linux, Windows, macOS 크로스 플랫폼 호환

Open Source

PowerInfer

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile