Trending

Flash-MoE

danveloperMIT2026.03.28

LLM2.1K Stars209 Forks5.3천 조회

Flash-MoE는 순수 C/Metal로 구현된 초경량 MoE(Mixture-of-Experts) 추론 엔진으로, MacBook Pro 48GB RAM에서 Qwen3.5-397B-A17B(3970억 파라미터) 모델을 4.4 토큰/초로 실행할 수 있습니다. SSD 스트리밍 기반 전문가 로딩, FMA 최적화 4비트 역양자화 커널, Apple Metal 컴퓨트 셰이더를 활용하여 Python이나 ML 프레임워크 없이도 프로덕션급 추론을 제공합니다. 도구 호출(function calling)도 지원하며, HN에서 393포인트를 기록하며 큰 화제를 모았습니다.

주요 특징

SSD 스트리밍 기반 전문가 온디맨드 로딩으로 209GB 모델 실행
FMA 최적화 4비트 역양자화 커널로 12% 성능 향상
Apple Metal 컴퓨트 셰이더 수작업 튜닝
Python/ML 프레임워크 의존성 제로 - 순수 C/Objective-C 구현
프로덕션급 JSON 도구 호출(function calling) 지원

Open Source

Flash-MoE

주요 특징

태그

관련 프로젝트

Hugging Face Transformers

Gemini CLI

LLMs from Scratch

Awesome MCP Servers