Trending

DeepSeek-VL2

deepseek-aiMIT2026.04.16

멀티모달5.3K Stars1.8K Forks7.1천 조회

DeepSeek-VL2는 DeepSeek AI가 개발한 차세대 비전-언어 모델 시리즈로, MoE(Mixture-of-Experts) 아키텍처를 활용하여 적은 활성 파라미터로도 경쟁력 있는 성능을 달성합니다. Tiny(1.0B), Small(2.8B), 기본(4.5B) 세 가지 활성 파라미터 규모를 제공하며, 시각적 질의응답, OCR, 문서/테이블/차트 분석, 비주얼 그라운딩 등 다양한 멀티모달 이해 작업을 수행합니다. 특히 인크리멘탈 프리필링 기술로 40GB GPU에서도 추론이 가능하여 메모리 효율성이 뛰어나며, 다중 이미지 처리와 인터리브드 이미지-텍스트 대화를 지원합니다. MIT 라이선스로 상용화 친화적인 점도 큰 장점입니다.

주요 특징

MoE 아키텍처로 1.0B~4.5B 활성 파라미터 모델 제공
비주얼 그라운딩으로 이미지 내 객체 위치 특정
인크리멘탈 프리필링으로 40GB GPU 추론 지원
다중 이미지 및 인터리브드 이미지-텍스트 대화 처리
문서/테이블/차트 분석 및 OCR 기능

Open Source

DeepSeek-VL2

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM