Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
NVIDIA Model Optimizer는 LLM과 비전 모델의 추론 속도를 극대화하기 위한 SOTA 모델 최적화 기법을 한곳에 모은 통합 라이브러리입니다. 사후 학습 양자화(PTQ), 양자화 인지 학습(QAT), 지식 증류, 구조적 프루닝, NAS, 스페큘러티브 디코딩 등 최신 압축 기법을 모듈 형태로 제공하며, 최적화된 모델은 TensorRT-LLM, TensorRT, vLLM 등 다양한 배포 프레임워크로 곧바로 내보낼 수 있습니다. FP8/INT4 AWQ, SmoothQuant, GPTQ 등 업계 표준 방법을 일관된 API로 호출할 수 있어 LLM 서빙 비용을 크게 낮추는 도구로 주목받고 있습니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구