Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
VideoLLaMA3는 알리바바 DAMO 아카데미가 공개한 이미지·영상 이해 특화 멀티모달 파운데이션 모델입니다. 비전 중심 학습 패러다임을 채택해 고품질 이미지-텍스트 데이터로 시각 표현을 먼저 정교하게 다진 뒤 영상 이해 능력으로 확장하며, 다양한 해상도의 프레임을 동적으로 처리하는 Any-resolution Vision Tokenization과 비전 토큰 압축 기법으로 긴 영상도 효율적으로 다룹니다. 영상 질의응답, 시간적 추론, 캡셔닝 등 폭넓은 벤치마크에서 강력한 성능을 보이며 2B·7B 규모 가중치를 제공합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크