Trending

Emu3.5

baaivisionApache-2.02026.03.31

멀티모달1.5K Stars61 Forks7.2천 조회

Emu3.5는 BAAI(베이징 인공지능 연구원)에서 개발한 네이티브 멀티모달 월드 모델입니다. 10조 개 이상의 비전-언어 인터리브 토큰으로 사전학습되었으며, 통합된 다음 토큰 예측 목표를 통해 이미지와 텍스트를 자연스럽게 이해하고 생성합니다. 인터리브 이미지-텍스트 생성, 텍스트-이미지(T2I) 변환, 복잡한 텍스트 리치 이미지 생성 등 다양한 멀티모달 작업을 지원합니다. 특히 Discrete Diffusion Adaptation(DiDA) 기술을 통해 이미지당 추론 속도를 약 20배 가속하면서도 성능 저하 없이 효율적인 추론을 실현합니다. 대규모 강화학습으로 후학습하여 멀티모달 추론 및 생성 품질을 크게 향상시켰으며, Gemini 2.5 Flash와 비교 가능한 이미지 생성 성능을 달성했습니다.

주요 특징

인터리브 비전-언어 입출력으로 이미지와 텍스트 동시 생성
DiDA 기술로 이미지 추론 속도 20배 가속
대규모 강화학습 기반 멀티모달 추론 향상
텍스트-이미지, 이미지-텍스트 양방향 변환 지원
시공간 일관성 있는 월드 탐색 및 조작 능력

Open Source

Emu3.5

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve