Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
fastllm은 PyTorch에 의존하지 않고 C++로 직접 구현된 백엔드 독립적인 고성능 LLM 추론 라이브러리입니다. 가장 큰 특징은 MoE 모델에 대한 CPU+GPU 하이브리드 추론 지원으로, 단일 GPU만 있는 환경에서도 DeepSeek 671B 같은 초대형 모델을 INT4/FP8로 구동할 수 있다는 점입니다. 듀얼 소켓 9004/9005 서버 기준 FP8에서 약 20 tokens/sec, INT4 양자화 버전에서는 30 tokens/sec의 추론 속도를 달성한다고 보고됩니다. NVIDIA뿐 아니라 AMD ROCm, 화웨이 Ascend 등 다양한 가속기를 지원하고, 동적 양자화와 다양한 정밀도 조합(FP8, FP16, BF16, INT4, INT8)을 제공합니다. OpenAI 호환 API 서버와 스트리밍, 동적 배칭, WebUI까지 갖춰 실서비스 투입에도 적합합니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구