Trending

MIDI-3D

VAST-AI-ResearchApache-2.02026.04.08

3D902 Stars70 Forks4.8천 조회

MIDI-3D(Multi-Instance Diffusion)는 VAST AI Research에서 개발한 CVPR 2025 논문의 공식 구현체로, 단일 2D 이미지에서 다중 객체가 포함된 완전한 3D 씬을 생성합니다. 기존 3D 생성 방식이 객체를 하나씩 순차적으로 생성하거나 검색/재구성에 의존한 반면, MIDI는 사전 학습된 image-to-3D 모델을 다중 인스턴스 디퓨전 모델로 확장하여 여러 객체를 동시에 생성하면서 정확한 공간 배치를 유지합니다. Grounded SAM 기반 자동 세그멘테이션과 MV-Adapter 텍스처 생성을 통합하였으며, 합성 데이터로만 학습했음에도 실사 이미지와 스타일라이즈드 이미지 모두에서 높은 일반화 성능을 보여줍니다.

주요 특징

단일 이미지에서 다중 객체 3D 씬 동시 생성
Grounded SAM 기반 자동 인스턴스 세그멘테이션
MV-Adapter 통합으로 텍스처가 포함된 3D 씬 생성
합성 데이터 학습만으로 실사/스타일 이미지 모두 일반화
정확한 공간 배치를 유지하는 병렬 다중 인스턴스 디퓨전

Open Source

MIDI-3D

주요 특징

태그

관련 프로젝트

Gaussian Splatting

Hunyuan3D-2

TRELLIS

TripoSR