Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
VILA는 NVIDIA와 MIT 연구진이 개발한 비전 언어 모델(VLM) 패밀리로, 엣지 디바이스부터 데이터센터·클라우드까지 다양한 환경에서 멀티모달 AI 작업을 수행하도록 설계되었습니다. 인터리브된 이미지-텍스트 데이터로 사전학습해 멀티 이미지 추론과 인컨텍스트 학습 능력을 강화했으며, AWQ 4비트 양자화(TinyChat)를 통해 Jetson Orin 같은 엣지 하드웨어에서도 동작합니다. 영상 이해, 다중 이미지 비교, 시각적 추론 등 폭넓은 작업을 지원하며 효율적인 추론과 배포 도구를 함께 제공합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크