Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

LLM 서빙을 위한 GPU 커널 라이브러리입니다. Attention, GEMM, MoE 연산에 대해 통합 API를 제공하며, 다양한 GPU 아키텍처에서 최고 수준의 성능을 달성합니다. Paged/Ragged KV-Cache로 메모리를 효율적으로 관리하고, FP8/FP4 양자화로 연산을 최적화합니다. FlashAttention-2/3, cuDNN, CUTLASS, TensorRT-LLM 등 다중 백엔드를 지원하며, SGLang, vLLM, TGI 등 주요 추론 프레임워크에 통합되어 사용됩니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구