Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
NVIDIA가 개발한 통합 모델 최적화 라이브러리로, 양자화(Quantization), 프루닝(Pruning), 지식 증류(Distillation), 투기적 디코딩(Speculative Decoding), 희소성(Sparsity) 등 최신 모델 압축 기법을 하나의 프레임워크에서 제공합니다. TensorRT-LLM, vLLM, SGLang 등 주요 추론 프레임워크와 원활하게 통합되어, LLM 배포 시 2~4배의 모델 압축과 추론 속도 향상을 달성할 수 있습니다. Hugging Face, PyTorch, ONNX 모델을 지원하며, DeepSeek-R1-FP4, Llama 계열 등 사전 양자화된 모델도 Hugging Face에서 바로 사용할 수 있습니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구