Trending

PixelDiT

NVlabsNOASSERTION2026.06.04

Vision696 Stars54 Forks5.0천 조회

NVIDIA Research가 공개한 CVPR 2026 Oral 논문 구현체로, 잠재(latent) 공간이 아닌 픽셀 공간에서 직접 동작하는 디퓨전 트랜스포머(Diffusion Transformer)입니다. 패치 단위로 전역 의미를 학습하는 patch-level DiT와 텍스처 디테일을 복원하는 pixel-level DiT를 결합한 이중 계층 구조를 통해 VAE 인코더/디코더 없이도 고품질 이미지 생성이 가능합니다. 기존 latent diffusion 모델 대비 학습 파이프라인이 단순해지고 디코더 손실에서 자유롭다는 장점이 있어, 차세대 픽셀 네이티브 생성 모델 연구의 레퍼런스로 주목받고 있습니다.

주요 특징

픽셀 공간에서 직접 동작하는 디퓨전 트랜스포머 아키텍처
patch-level DiT(전역 의미) + pixel-level DiT(텍스처) 이중 구조
VAE 인코더/디코더 의존성 제거로 단순화된 학습 파이프라인
ImageNet 등 표준 벤치마크에서 latent DiT 수준 FID 달성
CVPR 2026 Oral 채택, 학습/평가 스크립트 공개

Open Source

PixelDiT

주요 특징

태그

관련 프로젝트

ComfyUI

Deep-Live-Cam

MinerU

Ultralytics YOLO26