Trending

VideoLLaMA3

DAMO-NLP-SGApache-2.02026.06.16

멀티모달1.2K Stars88 Forks4.9천 조회

VideoLLaMA3는 알리바바 DAMO 아카데미가 공개한 이미지·영상 이해 특화 멀티모달 파운데이션 모델입니다. 비전 중심 학습 패러다임을 채택해 고품질 이미지-텍스트 데이터로 시각 표현을 먼저 정교하게 다진 뒤 영상 이해 능력으로 확장하며, 다양한 해상도의 프레임을 동적으로 처리하는 Any-resolution Vision Tokenization과 비전 토큰 압축 기법으로 긴 영상도 효율적으로 다룹니다. 영상 질의응답, 시간적 추론, 캡셔닝 등 폭넓은 벤치마크에서 강력한 성능을 보이며 2B·7B 규모 가중치를 제공합니다.

주요 특징

이미지와 영상을 통합 처리하는 멀티모달 파운데이션 모델
비전 중심 학습으로 시각 표현을 우선 정교화하는 학습 파이프라인
다양한 해상도 프레임을 다루는 Any-resolution Vision Tokenization
비전 토큰 압축으로 긴 영상도 효율적으로 처리
2B·7B 규모의 사전학습 가중치 및 추론 코드 공개

Open Source

VideoLLaMA3

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM