Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
MLX-VLM은 Apple Silicon용 MLX 프레임워크를 기반으로 비전-언어 모델(VLM)과 오디오/비디오를 지원하는 옴니 모델을 Mac에서 직접 추론하고 파인튜닝할 수 있게 해주는 패키지입니다. 다중 이미지 채팅, 오디오/비디오 처리, 비전 피처 캐싱을 통한 성능 최적화를 지원하며, TurboQuant KV 캐시 압축으로 메모리 효율을 높였습니다. LoRA와 QLoRA 기반 파인튜닝이 가능하고, 연속 배치(continuous batching) 기능이 포함된 FastAPI 서버와 Gradio 기반 채팅 UI를 제공합니다. CLI와 파이썬 스크립트 인터페이스를 모두 지원해 로컬 환경에서 Qwen-VL, LLaVA, Phi-Vision 등 다양한 VLM을 손쉽게 실행할 수 있는 Mac 사용자 전용 솔루션입니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크