Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Cambrian-1은 뉴욕대(NYU) 연구진이 공개한 비전 중심(vision-centric) 설계의 멀티모달 대형 언어 모델(MLLM) 패밀리입니다. 기존 멀티모달 모델이 언어 모델 위에 비전 인코더를 단순 결합하던 방식과 달리, CLIP·DINOv2 등 다양한 비전 표현을 체계적으로 비교 분석하고 Spatial Vision Aggregator(SVA)로 시각 특징을 효율적으로 통합합니다. 시각 중심 벤치마크(CV-Bench), 정제된 인스트럭션 튜닝 데이터, 비전 인코더 평가 프로토콜을 함께 제공해 멀티모달 연구의 재현성과 투명성을 높였습니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크