Trending

MLX-VLM

BlaizzyMIT2026.04.19

멀티모달4.4K Stars481 Forks7.0천 조회

MLX-VLM은 Apple Silicon용 MLX 프레임워크를 기반으로 비전-언어 모델(VLM)과 오디오/비디오를 지원하는 옴니 모델을 Mac에서 직접 추론하고 파인튜닝할 수 있게 해주는 패키지입니다. 다중 이미지 채팅, 오디오/비디오 처리, 비전 피처 캐싱을 통한 성능 최적화를 지원하며, TurboQuant KV 캐시 압축으로 메모리 효율을 높였습니다. LoRA와 QLoRA 기반 파인튜닝이 가능하고, 연속 배치(continuous batching) 기능이 포함된 FastAPI 서버와 Gradio 기반 채팅 UI를 제공합니다. CLI와 파이썬 스크립트 인터페이스를 모두 지원해 로컬 환경에서 Qwen-VL, LLaVA, Phi-Vision 등 다양한 VLM을 손쉽게 실행할 수 있는 Mac 사용자 전용 솔루션입니다.

주요 특징

Apple Silicon 네이티브 VLM 추론 및 파인튜닝
다중 이미지/오디오/비디오 옴니 모델 지원
TurboQuant KV 캐시 압축으로 메모리 효율화
LoRA/QLoRA 파인튜닝 및 비전 피처 캐싱
FastAPI 연속 배치 서버 + Gradio 채팅 UI 내장

Open Source

MLX-VLM

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM