Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
KTransformers는 CPU-GPU 이종 컴퓨팅을 활용한 고성능 LLM 추론 및 파인튜닝 프레임워크입니다. Intel AMX/AVX512 최적화 커널을 통해 INT4/INT8 양자화 추론을 가속화하며, MoE(Mixture-of-Experts) 모델의 전문가 계층을 GPU(핫 전문가)와 CPU(콜드 전문가)에 분산 배치하여 메모리 효율을 극대화합니다. DeepSeek-R1 671B 모델에서 멀티-GPU 환경 기준 초당 227+ 토큰 처리량을 달성하며, SGLang 서빙 프레임워크와 통합하여 프로덕션 배포를 지원합니다. LoRA 기반 파라미터 효율적 파인튜닝을 통해 70GB GPU 메모리 + 1.3TB RAM으로 671B 모델 파인튜닝이 가능합니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구