Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Z.ai에서 개발한 GPT-4V 수준의 오픈소스 멀티모달 모델입니다. Llama3-8B를 기반으로 구축되어 텍스트와 이미지를 동시에 이해하고 처리할 수 있습니다. TextVQA, DocVQA 등 다수의 벤치마크에서 기존 모델 대비 크게 향상된 성능을 보여주며, CogVLM2-Video 변형은 여러 비디오 질의응답 작업에서 최고 수준의 성능을 달성합니다. 중국어와 영어를 모두 지원하며 상업적 활용도 가능합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크