Trending

MMaDA

Gen-VerseMIT2026.03.06

멀티모달1.6K Stars84 Forks8.4천 조회

MMaDA(Multimodal Large Diffusion Architecture)는 Princeton AI의 Gen-Verse 팀이 개발한 오픈소스 멀티모달 확산 언어 모델입니다. 텍스트 추론, 멀티모달 이해, 텍스트-이미지 생성을 단일 통합 프레임워크로 처리하며, 기존 자기회귀 모델과 다른 블록 확산 방식을 채택했습니다. 혼합 Chain-of-Thought(MixCoT) 파인튜닝과 확산 모델 전용 강화학습 알고리즘 UniGRPO를 통해 다중 모달리티에서 뛰어난 추론 능력을 발휘합니다. MIT 라이선스로 공개된 8B 파라미터 모델로, 텍스트와 이미지를 동시에 이해하고 생성하는 통합 멀티모달 AI의 새로운 패러다임을 제시합니다.

주요 특징

블록 확산 방식으로 텍스트 추론과 이미지 생성 통합 처리
혼합 Chain-of-Thought(MixCoT) 파인튜닝으로 다중 모달 추론 강화
확산 모델 전용 UniGRPO 강화학습 알고리즘 내장
8B 파라미터 MMaDA-8B-MixCoT 모델 공개 제공
MMaDA-Parallel로 사고 기반 이미지 편집 및 생성 지원
모달리티 무관 설계로 새로운 입출력 형식 확장 용이

Open Source

MMaDA

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve