Trending

Ovis-U1

AIDC-AIApache-2.02026.04.16

멀티모달450 Stars14 Forks7.2천 조회

Ovis-U1은 AIDC-AI가 개발한 30억 파라미터 규모의 통합 멀티모달 모델로, 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집을 하나의 프레임워크에서 원활하게 수행합니다. 디퓨전 기반 비주얼 디코더(MMDiT)와 양방향 토큰 리파이너를 탑재하여 고충실도 이미지 합성과 향상된 텍스트-비전 상호작용을 구현했습니다. 단일 태스크 모델과 달리 이해/생성/편집 데이터를 동시에 학습하여 실제 멀티모달 시나리오에서의 일반화 성능이 뛰어납니다. OpenCompass 69.6점, DPG-Bench 83.72점, GenEval 0.89점 등 벤치마크에서 OmniGen2를 포함한 기존 모델들을 능가하는 성과를 보여줍니다.

주요 특징

멀티모달 이해, 텍스트-이미지 생성, 이미지 편집 통합
MMDiT 디퓨전 기반 비주얼 디코더 탑재
양방향 토큰 리파이너로 텍스트-비전 상호작용 강화
이해/생성/편집 동시 학습으로 일반화 성능 향상
OpenCompass 69.6, DPG-Bench 83.72, GenEval 0.89 달성

Open Source

Ovis-U1

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM