Trending

LLaVA-NeXT

LLaVA-VLApache-2.02026.04.12

멀티모달4.6K Stars456 Forks7.2천 조회

LLaVA-NeXT는 이미지, 비디오, 3D 콘텐츠를 이해하는 차세대 멀티모달 비전-언어 모델입니다. 4배 더 많은 픽셀 처리 능력으로 고해상도 이미지를 분석하며, Zero-shot Modality Transfer를 통해 비디오 작업을 수행합니다. 95만 개의 Q&A 쌍을 포함한 178K 규모 합성 데이터셋을 활용하여 학습되며, 0.5B부터 72B까지 다양한 모델 규모를 제공합니다. RLHF와 DPO 훈련을 지원하여 환각을 감소시키고 성능을 향상시킵니다.

주요 특징

고해상도 이미지 처리: 4배 더 많은 픽셀 분석 능력
멀티모달 데이터 통합: 이미지-텍스트 인터리빙 형식 지원
비디오 이해: Zero-shot Modality Transfer 기술 활용
다양한 모델 규모: 0.5B부터 72B 파라미터까지 선택
성능 최적화: RLHF 및 DPO 훈련으로 환각 감소

Open Source

LLaVA-NeXT

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM