Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
UCSC-VLAA에서 개발한 완전 오픈소스 비전 인코더 프레임워크로, 멀티모달 학습을 위한 비용 효율적인 비전-언어 모델 훈련을 지원합니다. OpenVision(ICCV 2025), OpenVision 2(CVPR 2026), OpenVision 3의 세 가지 주요 릴리즈를 포함하며, 대비학습(CLIP 스타일)과 생성학습(캡셔닝)을 결합한 이중 훈련 목표를 채택합니다. Tiny부터 Huge(5M~632M 파라미터)까지 다양한 Vision Transformer 구성을 지원하고, OpenVision 2는 기존 대비 훈련 시간 1.5~2배, 메모리 사용량 약 1.8배 절감을 달성했습니다. TPU 최적화 분산 훈련과 광범위한 사전학습 모델 허브를 제공합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크