Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Flash-MoE는 순수 C/Metal로 구현된 초경량 MoE(Mixture-of-Experts) 추론 엔진으로, MacBook Pro 48GB RAM에서 Qwen3.5-397B-A17B(3970억 파라미터) 모델을 4.4 토큰/초로 실행할 수 있습니다. SSD 스트리밍 기반 전문가 로딩, FMA 최적화 4비트 역양자화 커널, Apple Metal 컴퓨트 셰이더를 활용하여 Python이나 ML 프레임워크 없이도 프로덕션급 추론을 제공합니다. 도구 호출(function calling)도 지원하며, HN에서 393포인트를 기록하며 큰 화제를 모았습니다.
huggingface
SOTA 기계학습 모델을 위한 오픈소스 모델 정의 프레임워크
google-gemini
터미널에서 Gemini AI를 사용하는 Google 공식 CLI 에이전트
rasbt
PyTorch로 ChatGPT 스타일 LLM을 처음부터 구현하는 교육용 자료
punkpeye
LLM 도구 연동 표준 MCP 서버 큐레이션 모음