Trending

FlashInfer

flashinfer-aiApache-2.02026.02.07

추론4.9K Stars380 Forks5.1천 조회

LLM 서빙을 위한 GPU 커널 라이브러리입니다. Attention, GEMM, MoE 연산에 대해 통합 API를 제공하며, 다양한 GPU 아키텍처에서 최고 수준의 성능을 달성합니다. Paged/Ragged KV-Cache로 메모리를 효율적으로 관리하고, FP8/FP4 양자화로 연산을 최적화합니다. FlashAttention-2/3, cuDNN, CUTLASS, TensorRT-LLM 등 다중 백엔드를 지원하며, SGLang, vLLM, TGI 등 주요 추론 프레임워크에 통합되어 사용됩니다.

주요 특징

Paged/Ragged KV-Cache 지원으로 효율적 메모리 관리
FP8/FP4 양자화로 Attention, GEMM, MoE 연산 최적화
FlashAttention-2/3, cuDNN, CUTLASS, TensorRT-LLM 다중 백엔드
Turing(SM 7.5)부터 Blackwell(SM 12.1)까지 광범위한 GPU 지원
SGLang, vLLM, TGI 등 주요 추론 프레임워크에 통합

Open Source

FlashInfer

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile