Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Ovis-U1은 AIDC-AI가 개발한 30억 파라미터 규모의 통합 멀티모달 모델로, 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집을 하나의 프레임워크에서 원활하게 수행합니다. 디퓨전 기반 비주얼 디코더(MMDiT)와 양방향 토큰 리파이너를 탑재하여 고충실도 이미지 합성과 향상된 텍스트-비전 상호작용을 구현했습니다. 단일 태스크 모델과 달리 이해/생성/편집 데이터를 동시에 학습하여 실제 멀티모달 시나리오에서의 일반화 성능이 뛰어납니다. OpenCompass 69.6점, DPG-Bench 83.72점, GenEval 0.89점 등 벤치마크에서 OmniGen2를 포함한 기존 모델들을 능가하는 성과를 보여줍니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크