Trending

InternVL-U

OpenGVLabMIT2026.05.28

멀티모달286 Stars15 Forks4.9천 조회

OpenGVLab의 InternVL-U는 4B 파라미터 규모의 통합 멀티모달 모델(Unified Multimodal Model)로, 멀티모달 이해·추론·이미지 생성·이미지 편집을 하나의 프레임워크에 담은 차세대 오픈소스 모델입니다. 별도의 생성 모델과 이해 모델을 따로 운용할 필요 없이, 단일 모델이 시각 입력 분석부터 새로운 이미지 합성·편집까지 일관되게 처리합니다. InternVL3.5 라인업과 함께 OpenGVLab이 추진 중인 "GPT-4o 수준의 오픈 멀티모달" 방향성을 보여주는 대표 프로젝트로, 4B의 가벼운 크기 덕분에 단일 GPU 환경에서도 실험하기 쉽다는 점이 특징입니다.

주요 특징

4B 파라미터의 통합 멀티모달 모델(UMM) — 이해와 생성을 단일 모델로 처리
멀티모달 이해, 시각 추론, 이미지 생성, 이미지 편집을 하나의 프레임워크에 통합
InternVL 패밀리의 비전 인코더와 정렬 기법을 활용한 강력한 시각 표현 학습
MIT 라이선스로 상업적 활용 가능한 개방적 라이선스
단일 GPU에서도 추론·파인튜닝이 가능한 경량 아키텍처

Open Source

InternVL-U

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM