Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
LLaVA-NeXT는 이미지, 비디오, 3D 콘텐츠를 이해하는 차세대 멀티모달 비전-언어 모델입니다. 4배 더 많은 픽셀 처리 능력으로 고해상도 이미지를 분석하며, Zero-shot Modality Transfer를 통해 비디오 작업을 수행합니다. 95만 개의 Q&A 쌍을 포함한 178K 규모 합성 데이터셋을 활용하여 학습되며, 0.5B부터 72B까지 다양한 모델 규모를 제공합니다. RLHF와 DPO 훈련을 지원하여 환각을 감소시키고 성능을 향상시킵니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크