2026.07.03
2
0
0
오픈소스NEW

NVIDIA Nemotron-Labs-TwoTower 리뷰: 처리량 2.42배 높인 확산 LLM

NVIDIA가 AR 백본을 고정하고 디퓨전 디노이저만 학습시킨 오픈웨이트 확산 언어모델 Nemotron-Labs-TwoTower를 공개했다. 품질 98.7% 유지하며 처리량 2.42배 향상시켰다.

#NVIDIA#Nemotron#오픈소스#확산언어모델#DiffusionLM
NVIDIA Nemotron-Labs-TwoTower 리뷰: 처리량 2.42배 높인 확산 LLM
AI 핵심 요약

NVIDIA가 AR 백본을 고정하고 디퓨전 디노이저만 학습시킨 오픈웨이트 확산 언어모델 Nemotron-Labs-TwoTower를 공개했다. 품질 98.7% 유지하며 처리량 2.42배 향상시켰다.

핵심 요약

NVIDIA가 2026년 7월 1일 오픈웨이트 확산 언어모델(Diffusion Language Model) Nemotron-Labs-TwoTower를 공개했다. 이 모델은 사전학습된 자기회귀(Autoregressive, AR) 백본 모델 Nemotron-3-Nano-30B-A3B 위에 구축됐으며, 문맥 처리 타워와 디퓨전 디노이저 타워를 분리한 "Two-Tower" 아키텍처가 핵심이다. 가중치는 NVIDIA Nemotron Open Model License로 공개됐다.

기존 AR 모델은 토큰을 순차적으로 하나씩 생성하는 방식 때문에 병렬화에 구조적 한계가 있다. Nemotron-Labs-TwoTower는 검증된 AR 백본을 재활용하면서 생성 방식만 확산 방식으로 전환하는 방식으로 이 문제에 접근했다.

주요 특징

1. Two-Tower 아키텍처

Nemotron-Labs-TwoTower의 구조는 두 개의 타워로 나뉜다. 하나는 문맥을 처리하는 AR 타워로, Nemotron-3-Nano-30B-A3B 백본을 그대로 가져와 **고정(frozen)**시킨다. 다른 하나는 학습 가능한 디퓨전 디노이저(denoiser) 타워로, 노이즈 제거 과정을 거쳐 실제 텍스트를 생성한다.

이 분리 구조의 핵심은 기존에 학습된 AR 모델의 지식과 문맥 이해 능력을 그대로 보존하면서, 생성 메커니즘만 확산 방식으로 전환할 수 있다는 점이다. 처음부터 확산 모델을 학습시키는 대신 검증된 AR 백본을 재사용해 학습 비용과 리스크를 줄이는 접근이다.

2. 처리량 2.42배 향상

공식 발표에 따르면 Nemotron-Labs-TwoTower는 AR 베이스라인 대비 벤치마크 품질을 98.7% 유지하면서 생성 처리량을 2.42배 끌어올렸다. 품질 저하를 1.3%포인트 수준으로 최소화하면서 처리 속도는 두 배 이상 높인 셈이다.

3. 규모와 오픈 라이선스

총 파라미터는 약 60B로, AR 타워와 디노이저 타워를 합친 규모다. 가중치는 NVIDIA Nemotron Open Model License로 공개되어 연구자와 개발자가 접근할 수 있다. Hugging Face에는 nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 모델 카드가 등록되어 있으며, 관련 기술 논문도 arXiv에 공개됐다.

항목내용
공개일2026년 7월 1일
백본 모델Nemotron-3-Nano-30B-A3B (AR, 고정)
총 파라미터약 60B
벤치마크 품질 유지율AR 대비 98.7%
처리량 향상AR 대비 2.42배
라이선스NVIDIA Nemotron Open Model License

사용성 분석

Two-Tower 구조는 기존 AR 모델 자산과의 호환성을 고려한 설계로 해석할 수 있다. AR 타워가 고정된 백본을 그대로 사용하기 때문에, 이미 Nemotron-3-Nano-30B-A3B에 익숙한 개발자라면 추가적인 문맥 이해 학습 없이 디노이저 타워만 다뤄볼 수 있는 구조다.

다만 확산 방식의 텍스트 생성은 자기회귀 방식과 추론 파이프라인이 다르다. 기존 AR 모델에 최적화된 서빙 기법을 그대로 적용하기 어려울 가능성이 있으나, 이 부분은 공식 자료에서 구체적으로 확인되지 않는다. 실제 배포 환경에서의 지연 시간, 메모리 사용량 등 세부 벤치마크 역시 공개된 정보만으로는 확인되지 않는다.

장점과 한계

장점은 세 가지로 정리된다. 첫째, 검증된 AR 백본을 재사용해 확산 모델 학습의 리스크를 줄였다. 둘째, 품질 저하를 1.3%포인트 수준으로 억제하며 처리량을 2배 이상 높였다. 셋째, 가중치를 오픈 라이선스로 공개해 접근성을 확보했다.

한계도 있다. 총 60B 파라미터는 AR 백본(30B) 대비 두 배에 가까운 규모로, 디노이저 타워 추가에 따른 메모리 부담이 존재한다. 또한 확산 기반 생성 방식은 AR 대비 서빙 도구와 생태계 지원이 상대적으로 초기 단계다.

전망

Two-Tower 접근은 처음부터 확산 모델을 학습하는 대신 기존 AR 자산을 재사용하는 방법론을 제시했다는 점에서 주목할 만하다. 이 방식이 다른 오픈소스 AR 모델에도 적용 가능한지, 그리고 실제 서빙 환경에서 처리량 향상이 비용 절감으로 이어지는지는 커뮤니티의 후속 검증이 필요하다.

결론

Nemotron-Labs-TwoTower는 AR 백본을 고정하고 디퓨전 디노이저만 학습시키는 방식으로, 품질 손실을 최소화하면서 처리량을 높인 오픈웨이트 모델이다. 확산 기반 생성 방식의 실용성을 검증하려는 연구자와, 처리량 개선에 관심 있는 오픈소스 LLM 개발자에게 살펴볼 가치가 있다.

장점

  • AR 베이스라인 대비 벤치마크 품질 98.7% 유지
  • 생성 처리량 2.42배 향상
  • 검증된 AR 백본(Nemotron-3-Nano-30B-A3B) 재사용으로 학습 리스크 감소
  • NVIDIA Nemotron Open Model License로 가중치 공개

단점/한계

  • 총 파라미터 약 60B로 AR 백본 대비 메모리 부담 증가
  • 확산 기반 생성의 서빙 인프라와 생태계가 상대적으로 초기 단계
  • 실제 배포 환경의 지연 시간/메모리 사용량 등 세부 벤치마크 미공개

댓글0

주요 기능/특징

1. Two-Tower 아키텍처: AR 문맥 처리 타워(고정)와 학습 가능한 디퓨전 디노이저 타워 분리 2. 처리량 2.42배 향상: AR 베이스라인 대비 생성 처리량 2.42배 증가 3. 벤치마크 품질 98.7% 유지: AR 대비 품질 손실 최소화 4. 약 60B 총 파라미터 규모의 오픈웨이트 모델 5. NVIDIA Nemotron Open Model License로 가중치 공개

핵심 인사이트

  • AR 백본을 고정하고 재사용하는 방식은 확산 모델 학습의 리스크와 비용을 줄이는 접근이다
  • 품질 저하를 1.3%포인트 수준으로 억제하면서 처리량을 2배 이상 높인 점은 실용적 트레이드오프로 평가된다
  • Two-Tower 구조는 기존 AR 모델 자산을 재활용할 수 있어 처음부터 확산 모델을 학습하는 방식보다 효율적일 수 있다
  • 총 60B 파라미터는 AR 백본(30B) 대비 약 두 배 규모로, 디노이저 타워 추가에 따른 자원 부담이 존재한다
  • 오픈 라이선스 공개로 연구자와 개발자의 접근성이 확보됐다
  • 확산 기반 생성 방식은 AR 대비 서빙 인프라와 생태계 지원이 상대적으로 초기 단계다
  • 실제 배포 환경에서의 지연 시간, 메모리 사용량 등 세부 데이터는 아직 확인되지 않는다
  • 이 접근법이 다른 오픈소스 AR 모델에도 적용 가능한지는 후속 검증이 필요하다

이 리뷰가 유용했나요?

공유하기