Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Hugging Face에서 제공하는 고속 텍스트 임베딩 추론 솔루션입니다. Flash Attention, Candle, cuBLASLt 최적화를 통해 텍스트 임베딩, 시퀀스 분류, 재순위 지정 모델을 고속으로 실행합니다. 동적 배칭, OpenTelemetry 분산 추적, Prometheus 메트릭을 지원하며 CPU, NVIDIA GPU, macOS Metal 등 다양한 환경에서 배포 가능합니다. 모델 그래프 컴파일 단계 없이 직접 로드되므로 즉시 프로덕션 배포가 가능합니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구