TrendingFeatured

FlashAttention

Dao-AILab (Princeton / Stanford)BSD 3-Clause2026.03.08

추론22.6K Stars2.5K Forks6.3천 조회

FlashAttention은 Princeton과 Stanford 대학의 Tri Dao가 개발한 LLM 추론/학습 최적화 핵심 기술입니다. IO-Aware 타일링 알고리즘으로 GPU HBM과 SRAM 간 메모리 접근을 최소화하여 표준 어텐션 대비 3배 이상 속도 향상과 10-20배 메모리 절감을 달성합니다. 2026년 3월 출시된 FlashAttention-4는 NVIDIA Blackwell B200 GPU에 최적화되어 1,605 TFLOPS를 달성하며, CuTe-DSL로 컴파일 시간을 20-30배 단축했습니다. PyTorch FlexAttention, vLLM 등 주요 프레임워크에 통합되어 차세대 AI 인프라의 핵심으로 자리잡았습니다.

주요 특징

IO-Aware 타일링 알고리즘으로 GPU 메모리 접근 최소화
커널 퓨전으로 행렬 곱셈+소프트맥스 단일 GPU 커널 통합
MQA, GQA, 슬라이딩 윈도우 등 다양한 어텐션 메커니즘 지원
FP16/BF16/FP8 다중 정밀도 지원 (FP8로 1.2 PFLOPS 달성)
FlashAttention-4: Blackwell B200 GPU 최적화 (1,605 TFLOPS)

Open Source

FlashAttention

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile