Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

MMaDA(Multimodal Large Diffusion Architecture)는 Princeton AI의 Gen-Verse 팀이 개발한 오픈소스 멀티모달 확산 언어 모델입니다. 텍스트 추론, 멀티모달 이해, 텍스트-이미지 생성을 단일 통합 프레임워크로 처리하며, 기존 자기회귀 모델과 다른 블록 확산 방식을 채택했습니다. 혼합 Chain-of-Thought(MixCoT) 파인튜닝과 확산 모델 전용 강화학습 알고리즘 UniGRPO를 통해 다중 모달리티에서 뛰어난 추론 능력을 발휘합니다. MIT 라이선스로 공개된 8B 파라미터 모델로, 텍스트와 이미지를 동시에 이해하고 생성하는 통합 멀티모달 AI의 새로운 패러다임을 제시합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크