Trending

VLM3

facebookresearchOther2026.06.08

멀티모달229 Stars9 Forks4.8천 조회

VLM3는 Meta FAIR가 공개한 'Vision Language Models Are Native 3D Learners' 논문의 공식 구현체로, 표준 비전-언어 모델 아키텍처가 3D 공간 이해를 어떻게 학습할 수 있는지를 입증합니다. 초점 거리 통일, 텍스트 기반 픽셀 참조, 데이터 혼합과 스케일링이라는 세 가지 요소만으로 깊이 추정 정확도를 0.84에서 0.9로 끌어올렸으며, 픽셀 대응·카메라 포즈 추정·객체 단위 3D 이해 등 다양한 3D 태스크에서 전문 비전 모델 수준의 성능을 달성합니다. 별도의 복잡한 손실 함수나 모델 아키텍처 변경 없이도 텍스트 기반 학습만으로 3D 표현을 획득할 수 있음을 보여주는 중요한 연구 결과입니다.

주요 특징

표준 VLM 아키텍처로 3D 공간 이해를 학습하는 네이티브 3D 학습자
깊이 추정 정확도 0.84 → 0.9로 대폭 향상
픽셀 대응·카메라 포즈 추정·객체 단위 3D 이해 등 다양한 태스크 지원
초점 거리 통일·텍스트 기반 픽셀 참조·데이터 스케일링의 단순한 방법론
복잡한 손실 함수 없이 텍스트 기반 학습만으로 3D 표현 획득

Open Source

VLM3

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM