Trending

ik_llama.cpp

ikawrakowMIT2026.06.12

LLM2.7K Stars348 Forks5.0천 조회

llama.cpp를 포크해 SOTA 양자화 기법과 추론 성능을 대폭 강화한 LLM 추론 엔진입니다. CPU 및 GPU·CPU 하이브리드 환경에서 더 빠른 추론을 제공하며, MLA(Multi-Head Latent Attention)와 FlashMLA, 융합 MoE 연산, 행 인터리브 양자화 패킹을 통해 DeepSeek-V3 계열 모델의 성능을 끌어올립니다. IQ1_KT~IQ4_KT 트렐리스 양자화, IQK 계열, MXFP4, K/V 캐시 하다마드 변환 등 첨단 양자화 타입을 지원하고, Qwen3·GLM-4·Gemma 등 30종 이상의 모델과 다중 GPU 그래프 병렬 분할, 텐서 배치 제어, 함수 호출, 비전 멀티모달, 웹 UI 채팅까지 폭넓게 지원합니다.

주요 특징

CPU 및 GPU·CPU 하이브리드 추론 성능 향상
MLA, FlashMLA, 융합 MoE 연산으로 DeepSeek-V3 계열 성능 강화
IQ1_KT~IQ4_KT 트렐리스, IQK, MXFP4 등 첨단 양자화 타입 지원
Qwen3, DeepSeek-V3, GLM-4, Gemma 등 30종 이상 모델 호환
다중 GPU 그래프 병렬 분할 및 텐서 배치 제어
함수 호출, 비전 멀티모달, 웹 UI 채팅 지원

Open Source

ik_llama.cpp

주요 특징

태그

관련 프로젝트

Hugging Face Transformers

Gemini CLI

LLMs from Scratch

Awesome MCP Servers