Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
NVIDIA Research가 공개한 CVPR 2026 Oral 논문 구현체로, 잠재(latent) 공간이 아닌 픽셀 공간에서 직접 동작하는 디퓨전 트랜스포머(Diffusion Transformer)입니다. 패치 단위로 전역 의미를 학습하는 patch-level DiT와 텍스처 디테일을 복원하는 pixel-level DiT를 결합한 이중 계층 구조를 통해 VAE 인코더/디코더 없이도 고품질 이미지 생성이 가능합니다. 기존 latent diffusion 모델 대비 학습 파이프라인이 단순해지고 디코더 손실에서 자유롭다는 장점이 있어, 차세대 픽셀 네이티브 생성 모델 연구의 레퍼런스로 주목받고 있습니다.

Comfy-Org
노드 기반 디퓨전 모델 GUI
hacksider
단 한 장의 이미지로 실시간 얼굴 교체 및 딥페이크 구현 - 84K 스타 인기 프로젝트

opendatalab
PDF를 AI 워크플로우용 마크다운/JSON으로 변환하는 비전-언어 기반 문서 파싱 엔진

ultralytics
엣지 최적화 실시간 객체 감지 YOLO 프레임워크