Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
llama.cpp를 포크해 SOTA 양자화 기법과 추론 성능을 대폭 강화한 LLM 추론 엔진입니다. CPU 및 GPU·CPU 하이브리드 환경에서 더 빠른 추론을 제공하며, MLA(Multi-Head Latent Attention)와 FlashMLA, 융합 MoE 연산, 행 인터리브 양자화 패킹을 통해 DeepSeek-V3 계열 모델의 성능을 끌어올립니다. IQ1_KT~IQ4_KT 트렐리스 양자화, IQK 계열, MXFP4, K/V 캐시 하다마드 변환 등 첨단 양자화 타입을 지원하고, Qwen3·GLM-4·Gemma 등 30종 이상의 모델과 다중 GPU 그래프 병렬 분할, 텐서 배치 제어, 함수 호출, 비전 멀티모달, 웹 UI 채팅까지 폭넓게 지원합니다.
huggingface
SOTA 기계학습 모델을 위한 오픈소스 모델 정의 프레임워크
google-gemini
터미널에서 Gemini AI를 사용하는 Google 공식 CLI 에이전트
rasbt
PyTorch로 ChatGPT 스타일 LLM을 처음부터 구현하는 교육용 자료
punkpeye
LLM 도구 연동 표준 MCP 서버 큐레이션 모음