Trending

Sana

NVlabsApache-2.02026.05.10

Vision5.1K Stars347 Forks4.9천 조회

NVIDIA Labs가 공개한 효율적인 고해상도 이미지 합성 프레임워크입니다. Linear Diffusion Transformer(Linear DiT) 구조를 도입해 기존 디퓨전 트랜스포머 대비 메모리 사용량과 추론 시간을 획기적으로 줄이면서도, 4K급 고해상도 이미지를 빠르게 생성할 수 있는 것이 특징입니다. NVFP4 같은 저정밀 추론과 강화학습 기반 정렬을 결합해 단일 GPU에서 고품질 텍스트-이미지 생성과 텍스트-비디오 생성까지 다룰 수 있는 통합 디퓨전 시스템으로, 연구·산업 양쪽에서 디퓨전 모델 효율성의 새로운 기준을 제시합니다.

주요 특징

Linear Diffusion Transformer로 4K급 고해상도 이미지를 빠르게 합성
선형 어텐션 기반으로 메모리·연산 비용을 대폭 절감
NVFP4 저정밀 추론을 통한 단일 GPU 가속 지원
강화학습 기반 정렬로 프롬프트 충실도와 미적 품질 향상
텍스트→이미지뿐 아니라 텍스트→비디오 생성까지 확장된 통합 파이프라인

Open Source

Sana

주요 특징

태그

관련 프로젝트

ComfyUI

Deep-Live-Cam

MinerU

Ultralytics YOLO26