Trending

OpenVision

UCSC-VLAAApache-2.02026.04.04

멀티모달472 Stars23 Forks6.8천 조회

UCSC-VLAA에서 개발한 완전 오픈소스 비전 인코더 프레임워크로, 멀티모달 학습을 위한 비용 효율적인 비전-언어 모델 훈련을 지원합니다. OpenVision(ICCV 2025), OpenVision 2(CVPR 2026), OpenVision 3의 세 가지 주요 릴리즈를 포함하며, 대비학습(CLIP 스타일)과 생성학습(캡셔닝)을 결합한 이중 훈련 목표를 채택합니다. Tiny부터 Huge(5M~632M 파라미터)까지 다양한 Vision Transformer 구성을 지원하고, OpenVision 2는 기존 대비 훈련 시간 1.5~2배, 메모리 사용량 약 1.8배 절감을 달성했습니다. TPU 최적화 분산 훈련과 광범위한 사전학습 모델 허브를 제공합니다.

주요 특징

대비학습과 생성학습 결합 이중 훈련 목표
Google Cloud TPU 최적화 분산 훈련
5M~632M 파라미터 다양한 ViT 아키텍처 지원
훈련 시간 1.5~2배 및 메모리 1.8배 절감 (OpenVision 2)
JAX/PyTorch 가중치 포함 사전학습 모델 허브

Open Source

OpenVision

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve