Trending

Cambrian-1

cambrian-mllmApache-2.02026.06.16

멀티모달2.0K Stars138 Forks4.8천 조회

Cambrian-1은 뉴욕대(NYU) 연구진이 공개한 비전 중심(vision-centric) 설계의 멀티모달 대형 언어 모델(MLLM) 패밀리입니다. 기존 멀티모달 모델이 언어 모델 위에 비전 인코더를 단순 결합하던 방식과 달리, CLIP·DINOv2 등 다양한 비전 표현을 체계적으로 비교 분석하고 Spatial Vision Aggregator(SVA)로 시각 특징을 효율적으로 통합합니다. 시각 중심 벤치마크(CV-Bench), 정제된 인스트럭션 튜닝 데이터, 비전 인코더 평가 프로토콜을 함께 제공해 멀티모달 연구의 재현성과 투명성을 높였습니다.

주요 특징

CLIP·DINOv2 등 다양한 비전 인코더의 표현력 체계적 비교 분석
Spatial Vision Aggregator(SVA)로 시각 특징을 효율적으로 LLM에 통합
시각 중심 평가 벤치마크 CV-Bench 제공
정제된 멀티모달 인스트럭션 튜닝 데이터셋 공개
8B·13B·34B 등 다양한 규모의 모델 가중치 제공

Open Source

Cambrian-1

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM