Trending

KTransformers

kvcache-aiApache License 2.02026.04.01

추론16.9K Stars1.3K Forks4.9천 조회

KTransformers는 CPU-GPU 이종 컴퓨팅을 활용한 고성능 LLM 추론 및 파인튜닝 프레임워크입니다. Intel AMX/AVX512 최적화 커널을 통해 INT4/INT8 양자화 추론을 가속화하며, MoE(Mixture-of-Experts) 모델의 전문가 계층을 GPU(핫 전문가)와 CPU(콜드 전문가)에 분산 배치하여 메모리 효율을 극대화합니다. DeepSeek-R1 671B 모델에서 멀티-GPU 환경 기준 초당 227+ 토큰 처리량을 달성하며, SGLang 서빙 프레임워크와 통합하여 프로덕션 배포를 지원합니다. LoRA 기반 파라미터 효율적 파인튜닝을 통해 70GB GPU 메모리 + 1.3TB RAM으로 671B 모델 파인튜닝이 가능합니다.

주요 특징

Intel AMX/AVX512 최적화 커널로 INT4/INT8 양자화 추론 가속화
MoE 전문가 계층 GPU-CPU 이종 분산 배치로 메모리 효율 극대화
DeepSeek-R1 671B에서 멀티-GPU 기준 초당 227+ 토큰 처리량 달성
LoRA 기반 파인튜닝: 70GB GPU + 1.3TB RAM으로 671B 모델 학습 가능
SGLang 서빙 프레임워크 통합으로 프로덕션 배포 지원

Open Source

KTransformers

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile