Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

FlashAttention은 Princeton과 Stanford 대학의 Tri Dao가 개발한 LLM 추론/학습 최적화 핵심 기술입니다. IO-Aware 타일링 알고리즘으로 GPU HBM과 SRAM 간 메모리 접근을 최소화하여 표준 어텐션 대비 3배 이상 속도 향상과 10-20배 메모리 절감을 달성합니다. 2026년 3월 출시된 FlashAttention-4는 NVIDIA Blackwell B200 GPU에 최적화되어 1,605 TFLOPS를 달성하며, CuTe-DSL로 컴파일 시간을 20-30배 단축했습니다. PyTorch FlexAttention, vLLM 등 주요 프레임워크에 통합되어 차세대 AI 인프라의 핵심으로 자리잡았습니다.

ollama
로컬 LLM을 쉽게 실행하는 도구

ggml-org
C/C++로 작성된 로컬 LLM 추론 엔진

exo-explore
일상 기기를 AI 클러스터로 연결하는 분산 추론 플랫폼
mozilla-ai
단일 파일 하나로 LLM을 설치 없이 즉시 실행하는 배포 도구