Trending

G2VLM

InternRoboticsApache-2.02026.03.09

Vision282 Stars9 Forks8.2천 조회

G2VLM(Geometry Grounded Vision Language Model)은 CVPR 2026에 채택된 연구 프로젝트로, 3D 재구성과 공간 추론을 통합한 비전-언어 모델입니다. 기존 VLM이 2D 이미지 이해에 집중했다면, G2VLM은 기하학적 인식 전문가와 의미 인식 전문가를 결합하여 이미지로부터 직접 3D 기하 구조를 예측하고 인터리브 추론을 수행합니다. Bagel 프레임워크 위에 구축되었으며, Pi3 아키텍처 기반의 기하학적 전문가 모듈을 통해 깊이 추정, 표면 법선 예측 등의 3D 재구성 작업과 공간적 질의응답을 하나의 모델에서 처리합니다. 2B 파라미터의 경량 모델(G2VLM-2B-MoT)로도 뛰어난 공간 이해 성능을 보여줍니다.

주요 특징

3D 기하 구조 예측과 인터리브 추론을 하나의 모델에서 통합 처리
기하학적 전문가와 의미 전문가를 결합한 공유 멀티모달 셀프어텐션 구조
깊이 추정, 표면 법선 예측 등 다양한 3D 재구성 작업 지원
공간적 질의응답 및 장면 이해를 위한 공간 추론 능력
2B 파라미터 경량 모델(G2VLM-2B-MoT)로 효율적인 추론 가능
Bagel 프레임워크 및 Pi3 아키텍처 기반의 확장 가능한 설계

Open Source

G2VLM

주요 특징

태그

관련 프로젝트

ComfyUI

Deep-Live-Cam

MinerU

Ultralytics YOLO26