Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
KangLiao929에서 개발한 카메라 중심 통합 멀티모달 모델로, 임의의 시점과 방향에서 장면을 이해하고 생성하는 공간 지능(Spatial Intelligence)을 구현합니다. ICLR 2026에 채택된 이 모델은 Base(통합 이해/생성), Thinking(강화 추론), Instruct(교차 시점 최적화) 세 가지 변형으로 제공됩니다. 449GB 규모의 Puffin-4M 데이터셋(400만 개 비전-언어-카메라 트리플렛)을 포함하며, 텍스트 프롬프트로 정밀한 카메라 파라미터(롤, 피치, 화각)를 지정한 이미지 생성, 장면 탐색, 공간 상상력 등 혁신적 기능을 제공합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크