Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
FireQ는 LLM 추론을 가속화하기 위한 공동 설계된 양자화 프레임워크 및 INT4-FP8 행렬 곱셈 커널입니다. 선형 계층의 가중치와 키-값을 INT4로, 활성화 및 쿼리를 FP8로 양자화하여 처리량을 크게 향상시킵니다. 프리필 페이즈의 처음 토큰까지의 시간을 줄이기 위해 FlashAttention-3 커널 기반의 3단계 파이프라인을 구현합니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구