Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
G2VLM(Geometry Grounded Vision Language Model)은 CVPR 2026에 채택된 연구 프로젝트로, 3D 재구성과 공간 추론을 통합한 비전-언어 모델입니다. 기존 VLM이 2D 이미지 이해에 집중했다면, G2VLM은 기하학적 인식 전문가와 의미 인식 전문가를 결합하여 이미지로부터 직접 3D 기하 구조를 예측하고 인터리브 추론을 수행합니다. Bagel 프레임워크 위에 구축되었으며, Pi3 아키텍처 기반의 기하학적 전문가 모듈을 통해 깊이 추정, 표면 법선 예측 등의 3D 재구성 작업과 공간적 질의응답을 하나의 모델에서 처리합니다. 2B 파라미터의 경량 모델(G2VLM-2B-MoT)로도 뛰어난 공간 이해 성능을 보여줍니다.

Comfy-Org
노드 기반 디퓨전 모델 GUI
hacksider
단 한 장의 이미지로 실시간 얼굴 교체 및 딥페이크 구현 - 84K 스타 인기 프로젝트

opendatalab
PDF를 AI 워크플로우용 마크다운/JSON으로 변환하는 비전-언어 기반 문서 파싱 엔진

ultralytics
엣지 최적화 실시간 객체 감지 YOLO 프레임워크