Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Flash-MoE는 순수 C/Metal로 구현된 초경량 MoE(Mixture-of-Experts) 추론 엔진으로, MacBook Pro 48GB RAM에서 Qwen3.5-397B-A17B(3970억 파라미터) 모델을 4.4 토큰/초로 실행할 수 있습니다. SSD 스트리밍 기반 전문가 로딩, FMA 최적화 4비트 역양자화 커널, Apple Metal 컴퓨트 셰이더를 활용하여 Python이나 ML 프레임워크 없이도 프로덕션급 추론을 제공합니다. 도구 호출(function calling)도 지원하며, HN에서 393포인트를 기록하며 큰 화제를 모았습니다.
huggingface
SOTA 기계학습 모델을 위한 오픈소스 모델 정의 프레임워크
rasbt
PyTorch로 ChatGPT 스타일 LLM을 처음부터 구현하는 교육용 자료

vllm-project
고성능 LLM 추론 및 서빙 엔진
hiyouga
100개 이상 LLM/VLM 통합 파인튜닝 프레임워크