Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
VLM3는 Meta FAIR가 공개한 'Vision Language Models Are Native 3D Learners' 논문의 공식 구현체로, 표준 비전-언어 모델 아키텍처가 3D 공간 이해를 어떻게 학습할 수 있는지를 입증합니다. 초점 거리 통일, 텍스트 기반 픽셀 참조, 데이터 혼합과 스케일링이라는 세 가지 요소만으로 깊이 추정 정확도를 0.84에서 0.9로 끌어올렸으며, 픽셀 대응·카메라 포즈 추정·객체 단위 3D 이해 등 다양한 3D 태스크에서 전문 비전 모델 수준의 성능을 달성합니다. 별도의 복잡한 손실 함수나 모델 아키텍처 변경 없이도 텍스트 기반 학습만으로 3D 표현을 획득할 수 있음을 보여주는 중요한 연구 결과입니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크