Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
TensorRT-LLM은 NVIDIA가 공식 개발하는 LLM 추론 최적화 라이브러리로, NVIDIA GPU에서 대규모 언어 모델을 최고 수준의 효율로 서빙하기 위한 Python API와 C++/파이썬 런타임을 제공합니다. FP8·INT4 양자화, Paged KV Cache, 인플라이트 배칭, 텐서·파이프라인·전문가 병렬화, 그리고 Blackwell 아키텍처 전용 커널까지 지원하여 동일 하드웨어에서 수배 이상의 처리량을 끌어냅니다. Llama, Mixtral, DeepSeek, Qwen 등 주요 모델과 MoE·멀티모달 구조를 폭넓게 커버하며, Triton Inference Server와의 긴밀한 통합으로 엔터프라이즈급 LLM 서비스 구축이 간편합니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구