Trending

InferX

inferx-netApache-2.02026.03.12

추론178 Stars20 Forks6.1천 조회

InferX는 GPU 기반 AI 모델 추론을 위한 Lambda형 서버리스 추론 플랫폼입니다. 2초 이내의 초고속 콜드 스타트와 90% 이상의 GPU 활용률을 달성합니다. GPU 슬라이싱 기술을 통해 단일 GPU의 일부만 할당하여 병렬 워크로드를 실행할 수 있으며, 단일 노드에서 수백 개의 모델을 서빙할 수 있습니다. OpenAI 호환 REST API를 지원하고 온디맨드 추론 워크로드에 대한 자동 스케일링 기능을 제공합니다. Rust로 구현되어 높은 성능과 안정성을 보장합니다.

주요 특징

2초 이내 GPU 콜드 스타트
GPU 슬라이싱 기술
단일 노드 수백 개 모델 서빙
Lambda형 자동 스케일링
OpenAI 호환 REST API

Open Source

InferX

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile