Trending

VGGT

facebookresearchApache-2.02026.03.30

Vision12.1K Stars1.3K Forks7.4천 조회

VGGT(Visual Geometry Grounded Transformer)는 Meta AI Research가 개발한 3D 장면 이해 모델로 CVPR 2025 최우수 논문상을 수상한 비전 AI 혁신작입니다. 단일 또는 다수의 이미지 뷰에서 카메라 파라미터, 포인트 맵, 깊이 맵, 3D 포인트 트랙 등 장면의 핵심 3D 속성을 수 초 내에 직접 추론합니다. 카메라 파라미터 추정, 다시점 깊이 추정, 밀집 포인트 클라우드 재구성, 포인트 트래킹 등 다양한 3D 태스크에서 최첨단 결과를 달성하며, 피드포워드 방식으로 별도 최적화 없이 빠른 3D 재구성이 가능합니다.

주요 특징

단일 이미지에서 완전한 3D 장면 속성 피드포워드 추론
카메라 내외부 파라미터 자동 추정
다시점 깊이 맵 및 밀집 포인트 클라우드 생성
3D 포인트 트래킹 및 모션 분석 지원
별도 최적화 없이 수 초 내 빠른 3D 재구성

Open Source

VGGT

주요 특징

태그

관련 프로젝트

ComfyUI

Deep-Live-Cam

MinerU

Ultralytics YOLO26