TrendingFeatured

llama.cpp

ggml-orgMIT2026.02.05

추론94.4K Stars14.8K Forks6.8천 조회

llama.cpp는 C/C++로 작성된 고성능 LLM 추론 엔진입니다. Georgi Gerganov가 개발한 이 프로젝트는 GGML 텐서 라이브러리를 기반으로 하며, 다양한 LLM 모델을 로컬에서 효율적으로 실행할 수 있게 해줍니다. 특히 양자화(Quantization) 기술을 통해 모델 크기를 크게 줄이면서도 품질을 유지하여 일반 소비자급 하드웨어에서도 대규모 언어 모델을 실행할 수 있습니다. CPU, GPU(CUDA, Metal, Vulkan) 등 다양한 하드웨어 백엔드를 지원하며, 메모리 효율성이 뛰어납니다.

주요 특징

다양한 GGUF 양자화 형식 지원 (Q4, Q5, Q8 등)
CPU/GPU 하이브리드 추론
Metal, CUDA, Vulkan 백엔드 지원
낮은 메모리 사용량
서버 모드 및 API 제공
다양한 모델 아키텍처 지원 (LLaMA, Mistral, Qwen 등)
KV 캐시 양자화
배치 추론 지원

Open Source

llama.cpp

주요 특징

태그

관련 프로젝트

Ollama

exo

llamafile

SGLang