Trending

CogVLM2

zai-orgApache-2.02026.03.26

멀티모달5.2K Stars420 Forks7.6천 조회

Z.ai에서 개발한 GPT-4V 수준의 오픈소스 멀티모달 모델입니다. Llama3-8B를 기반으로 구축되어 텍스트와 이미지를 동시에 이해하고 처리할 수 있습니다. TextVQA, DocVQA 등 다수의 벤치마크에서 기존 모델 대비 크게 향상된 성능을 보여주며, CogVLM2-Video 변형은 여러 비디오 질의응답 작업에서 최고 수준의 성능을 달성합니다. 중국어와 영어를 모두 지원하며 상업적 활용도 가능합니다.

주요 특징

GPT-4V 수준 멀티모달 이해
TextVQA/DocVQA 벤치마크 최고 성능
비디오 질의응답 지원 (CogVLM2-Video)
중국어/영어 이중 언어 지원
Llama3-8B 기반 아키텍처

Open Source

CogVLM2

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve