Trending

Puffin

KangLiao929NTU S-Lab License 1.02026.04.04

멀티모달397 Stars12 Forks7.3천 조회

KangLiao929에서 개발한 카메라 중심 통합 멀티모달 모델로, 임의의 시점과 방향에서 장면을 이해하고 생성하는 공간 지능(Spatial Intelligence)을 구현합니다. ICLR 2026에 채택된 이 모델은 Base(통합 이해/생성), Thinking(강화 추론), Instruct(교차 시점 최적화) 세 가지 변형으로 제공됩니다. 449GB 규모의 Puffin-4M 데이터셋(400만 개 비전-언어-카메라 트리플렛)을 포함하며, 텍스트 프롬프트로 정밀한 카메라 파라미터(롤, 피치, 화각)를 지정한 이미지 생성, 장면 탐색, 공간 상상력 등 혁신적 기능을 제공합니다.

주요 특징

카메라 제어 가능 이미지 생성 (롤, 피치, 화각 지정)
이미지에서 카메라 파라미터 및 장면 설명 추출
초기 시점에서 새로운 뷰포인트 생성 (월드 탐색)
다른 공간 위치에서의 장면 예측 (공간 상상력)
이미지 미적 품질 향상을 위한 카메라 조정 가이드

Open Source

Puffin

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve