Trending

fastllm

ztxz16Apache-2.02026.05.17

추론4.6K Stars459 Forks4.8천 조회

fastllm은 PyTorch에 의존하지 않고 C++로 직접 구현된 백엔드 독립적인 고성능 LLM 추론 라이브러리입니다. 가장 큰 특징은 MoE 모델에 대한 CPU+GPU 하이브리드 추론 지원으로, 단일 GPU만 있는 환경에서도 DeepSeek 671B 같은 초대형 모델을 INT4/FP8로 구동할 수 있다는 점입니다. 듀얼 소켓 9004/9005 서버 기준 FP8에서 약 20 tokens/sec, INT4 양자화 버전에서는 30 tokens/sec의 추론 속도를 달성한다고 보고됩니다. NVIDIA뿐 아니라 AMD ROCm, 화웨이 Ascend 등 다양한 가속기를 지원하고, 동적 양자화와 다양한 정밀도 조합(FP8, FP16, BF16, INT4, INT8)을 제공합니다. OpenAI 호환 API 서버와 스트리밍, 동적 배칭, WebUI까지 갖춰 실서비스 투입에도 적합합니다.

주요 특징

MoE 모델의 CPU+GPU 하이브리드 추론 (DeepSeek 671B 단일 GPU 가능)
PyTorch 의존성 없는 자체 C++ 커스텀 연산자 구현
NVIDIA, AMD ROCm, 화웨이 Ascend 등 멀티 백엔드 지원
동적 양자화 및 FP8/FP16/BF16/INT4/INT8 정밀도 조합
OpenAI 호환 API 서버와 동적 배칭, WebUI 내장

Open Source

fastllm

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile