Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Emu3.5는 BAAI(베이징 인공지능 연구원)에서 개발한 네이티브 멀티모달 월드 모델입니다. 10조 개 이상의 비전-언어 인터리브 토큰으로 사전학습되었으며, 통합된 다음 토큰 예측 목표를 통해 이미지와 텍스트를 자연스럽게 이해하고 생성합니다. 인터리브 이미지-텍스트 생성, 텍스트-이미지(T2I) 변환, 복잡한 텍스트 리치 이미지 생성 등 다양한 멀티모달 작업을 지원합니다. 특히 Discrete Diffusion Adaptation(DiDA) 기술을 통해 이미지당 추론 속도를 약 20배 가속하면서도 성능 저하 없이 효율적인 추론을 실현합니다. 대규모 강화학습으로 후학습하여 멀티모달 추론 및 생성 품질을 크게 향상시켰으며, Gemini 2.5 Flash와 비교 가능한 이미지 생성 성능을 달성했습니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크