Trending

Eagle

NVlabsApache-2.02026.06.30

멀티모달2.9K Stars267 Forks90 조회

NVIDIA 연구진(NVlabs)이 공개한 프런티어 비전-언어 모델 패밀리입니다. 여러 비전 인코더를 결합하는 mixture-of-vision-encoders 설계와 데이터 중심(data-centric) 학습 전략을 통해 고해상도 이미지, 문서, 차트 이해 성능을 끌어올린 것이 특징입니다. 사전학습 가중치와 학습 코드를 함께 제공하며, LLaVA 계열의 기존 멀티모달 파이프라인과 호환되는 구조라 연구·응용 양쪽에서 활용하기 쉽습니다.

주요 특징

여러 비전 인코더를 결합하는 mixture-of-vision-encoders 설계
고해상도 이미지와 문서·차트 이해에 강점
데이터 중심(data-centric) 학습 전략으로 성능 최적화
사전학습 가중치와 학습 코드를 함께 공개
LLaVA 등 기존 멀티모달 파이프라인과 호환되는 구조

Open Source

Eagle

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve