Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
GPTQModel은 ModelCloud가 공개한 LLM 양자화(압축) 툴킷으로, 추론 시 모델 크기와 메모리 사용량을 줄이는 데 초점을 둡니다. NVIDIA CUDA, AMD ROCm, Huawei Ascend NPU, Intel XPU는 물론 Intel·AMD·Apple CPU까지 폭넓은 하드웨어 가속을 지원합니다. GPTQ를 비롯해 AWQ, FP8, GGUF, EXL3, ParoQuant 등 다양한 양자화 기법을 제공하며, Hugging Face Transformers와 vLLM, SGLang에서 양자화된 모델을 그대로 활용할 수 있도록 통합되어 있습니다. 최신 LLM 아키텍처와 MoE 모델까지 빠르게 지원을 추가해, 양자화된 모델을 다양한 백엔드에서 효율적으로 서빙하려는 사용자에게 적합합니다. Apache-2.0 라이선스로 공개되어 있습니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구