Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
InferX는 GPU 기반 AI 모델 추론을 위한 Lambda형 서버리스 추론 플랫폼입니다. 2초 이내의 초고속 콜드 스타트와 90% 이상의 GPU 활용률을 달성합니다. GPU 슬라이싱 기술을 통해 단일 GPU의 일부만 할당하여 병렬 워크로드를 실행할 수 있으며, 단일 노드에서 수백 개의 모델을 서빙할 수 있습니다. OpenAI 호환 REST API를 지원하고 온디맨드 추론 워크로드에 대한 자동 스케일링 기능을 제공합니다. Rust로 구현되어 높은 성능과 안정성을 보장합니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구