Trending

LLaVA

haotian-liuApache License 2.02026.03.11

멀티모달24.5K Stars2.7K Forks6.3천 조회

LLaVA(Large Language and Vision Assistant)는 시각적 지시 조정을 기반으로 한 멀티모달 AI 모델로, GPT-4V 수준의 기능을 목표로 개발되었습니다. 이미지와 텍스트를 동시에 이해하고 처리할 수 있으며, 다양한 비전-언어 작업(이미지 설명, 시각적 질문 답변, 객체 인식 등)을 수행합니다. NeurIPS'23 구두 발표 논문 기반의 최첨단 오픈소스 멀티모달 모델입니다.

주요 특징

멀티모달 비전-언어 이해
시각적 지시 조정 학습
이미지 설명 및 캡셔닝
시각적 질문 답변(VQA)
객체 인식 및 로컬라이제이션

Open Source

LLaVA

주요 특징

태그

관련 프로젝트

MiniCPM-o

UniLM

Jina Serve

AIRI