Trending

VILA

NVlabsApache-2.02026.06.16

멀티모달3.8K Stars323 Forks5.0천 조회

VILA는 NVIDIA와 MIT 연구진이 개발한 비전 언어 모델(VLM) 패밀리로, 엣지 디바이스부터 데이터센터·클라우드까지 다양한 환경에서 멀티모달 AI 작업을 수행하도록 설계되었습니다. 인터리브된 이미지-텍스트 데이터로 사전학습해 멀티 이미지 추론과 인컨텍스트 학습 능력을 강화했으며, AWQ 4비트 양자화(TinyChat)를 통해 Jetson Orin 같은 엣지 하드웨어에서도 동작합니다. 영상 이해, 다중 이미지 비교, 시각적 추론 등 폭넓은 작업을 지원하며 효율적인 추론과 배포 도구를 함께 제공합니다.

주요 특징

인터리브된 이미지-텍스트 사전학습으로 멀티 이미지 추론 지원
AWQ 4비트 양자화(TinyChat)로 엣지 디바이스 온디바이스 추론
영상 이해 및 다중 이미지 비교 등 폭넓은 멀티모달 작업 처리
인컨텍스트 학습 능력 강화
엣지·데이터센터·클라우드 전반의 배포 도구 제공

Open Source

VILA

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM