Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
NVIDIA 연구진(NVlabs)이 공개한 프런티어 비전-언어 모델 패밀리입니다. 여러 비전 인코더를 결합하는 mixture-of-vision-encoders 설계와 데이터 중심(data-centric) 학습 전략을 통해 고해상도 이미지, 문서, 차트 이해 성능을 끌어올린 것이 특징입니다. 사전학습 가중치와 학습 코드를 함께 제공하며, LLaVA 계열의 기존 멀티모달 파이프라인과 호환되는 구조라 연구·응용 양쪽에서 활용하기 쉽습니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크