Trending

FireQ

llm-fireqApache-2.02026.03.27

추론1.2K Stars89 Forks5.4천 조회

FireQ는 LLM 추론을 가속화하기 위한 공동 설계된 양자화 프레임워크 및 INT4-FP8 행렬 곱셈 커널입니다. 선형 계층의 가중치와 키-값을 INT4로, 활성화 및 쿼리를 FP8로 양자화하여 처리량을 크게 향상시킵니다. 프리필 페이즈의 처음 토큰까지의 시간을 줄이기 위해 FlashAttention-3 커널 기반의 3단계 파이프라인을 구현합니다.

주요 특징

INT4-FP8 커널
양자화 프레임워크
파이프라인 최적화
TTFT 감소
이상치 평활화

Open Source

FireQ

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile