Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
MIDI-3D(Multi-Instance Diffusion)는 VAST AI Research에서 개발한 CVPR 2025 논문의 공식 구현체로, 단일 2D 이미지에서 다중 객체가 포함된 완전한 3D 씬을 생성합니다. 기존 3D 생성 방식이 객체를 하나씩 순차적으로 생성하거나 검색/재구성에 의존한 반면, MIDI는 사전 학습된 image-to-3D 모델을 다중 인스턴스 디퓨전 모델로 확장하여 여러 객체를 동시에 생성하면서 정확한 공간 배치를 유지합니다. Grounded SAM 기반 자동 세그멘테이션과 MV-Adapter 텍스처 생성을 통합하였으며, 합성 데이터로만 학습했음에도 실사 이미지와 스타일라이즈드 이미지 모두에서 높은 일반화 성능을 보여줍니다.
graphdeco-inria
실시간 3D 방사장 필드 렌더링의 원본 구현체

Tencent-Hunyuan
텐센트 고해상도 3D 생성

Microsoft
Microsoft의 텍스트/이미지→3D 자산 생성 모델 (CVPR'25)

VAST-AI-Research
단일 이미지에서 0.5초 만에 고품질 3D 객체를 재구성하는 AI 모델