Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
ExLlamaV3는 일반 소비자용 GPU에서 로컬 LLM을 효율적으로 실행하기 위한 고성능 양자화·추론 라이브러리입니다. QTIP 기반의 새로운 EXL3 양자화 포맷을 도입하여 2~8비트 가중치 및 캐시 양자화를 지원합니다. 텐서 병렬 및 전문가 병렬 추론으로 멀티-GPU 소비자 하드웨어 환경에 최적화되어 있으며, 투기적 디코딩과 연속 동적 배치를 통해 처리량을 극대화합니다. Llama, Mistral, Qwen3, DeepSeek, Gemma3 등 30개 이상의 주요 아키텍처와 멀티모달 모델을 지원하며, TabbyAPI를 통해 OpenAI 호환 서버로 배포할 수 있습니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구