NVIDIA Nemotron-Labs-TwoTower 리뷰: 처리량 2.42배 높인 확산 LLM
NVIDIA가 AR 백본을 고정하고 디퓨전 디노이저만 학습시킨 오픈웨이트 확산 언어모델 Nemotron-Labs-TwoTower를 공개했다. 품질 98.7% 유지하며 처리량 2.42배 향상시켰다.
NVIDIA가 AR 백본을 고정하고 디퓨전 디노이저만 학습시킨 오픈웨이트 확산 언어모델 Nemotron-Labs-TwoTower를 공개했다. 품질 98.7% 유지하며 처리량 2.42배 향상시켰다.
핵심 요약
NVIDIA가 2026년 7월 1일 오픈웨이트 확산 언어모델(Diffusion Language Model) Nemotron-Labs-TwoTower를 공개했다. 이 모델은 사전학습된 자기회귀(Autoregressive, AR) 백본 모델 Nemotron-3-Nano-30B-A3B 위에 구축됐으며, 문맥 처리 타워와 디퓨전 디노이저 타워를 분리한 "Two-Tower" 아키텍처가 핵심이다. 가중치는 NVIDIA Nemotron Open Model License로 공개됐다.
기존 AR 모델은 토큰을 순차적으로 하나씩 생성하는 방식 때문에 병렬화에 구조적 한계가 있다. Nemotron-Labs-TwoTower는 검증된 AR 백본을 재활용하면서 생성 방식만 확산 방식으로 전환하는 방식으로 이 문제에 접근했다.
주요 특징
1. Two-Tower 아키텍처
Nemotron-Labs-TwoTower의 구조는 두 개의 타워로 나뉜다. 하나는 문맥을 처리하는 AR 타워로, Nemotron-3-Nano-30B-A3B 백본을 그대로 가져와 **고정(frozen)**시킨다. 다른 하나는 학습 가능한 디퓨전 디노이저(denoiser) 타워로, 노이즈 제거 과정을 거쳐 실제 텍스트를 생성한다.
이 분리 구조의 핵심은 기존에 학습된 AR 모델의 지식과 문맥 이해 능력을 그대로 보존하면서, 생성 메커니즘만 확산 방식으로 전환할 수 있다는 점이다. 처음부터 확산 모델을 학습시키는 대신 검증된 AR 백본을 재사용해 학습 비용과 리스크를 줄이는 접근이다.
2. 처리량 2.42배 향상
공식 발표에 따르면 Nemotron-Labs-TwoTower는 AR 베이스라인 대비 벤치마크 품질을 98.7% 유지하면서 생성 처리량을 2.42배 끌어올렸다. 품질 저하를 1.3%포인트 수준으로 최소화하면서 처리 속도는 두 배 이상 높인 셈이다.
3. 규모와 오픈 라이선스
총 파라미터는 약 60B로, AR 타워와 디노이저 타워를 합친 규모다. 가중치는 NVIDIA Nemotron Open Model License로 공개되어 연구자와 개발자가 접근할 수 있다. Hugging Face에는 nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 모델 카드가 등록되어 있으며, 관련 기술 논문도 arXiv에 공개됐다.
| 항목 | 내용 |
|---|---|
| 공개일 | 2026년 7월 1일 |
| 백본 모델 | Nemotron-3-Nano-30B-A3B (AR, 고정) |
| 총 파라미터 | 약 60B |
| 벤치마크 품질 유지율 | AR 대비 98.7% |
| 처리량 향상 | AR 대비 2.42배 |
| 라이선스 | NVIDIA Nemotron Open Model License |
사용성 분석
Two-Tower 구조는 기존 AR 모델 자산과의 호환성을 고려한 설계로 해석할 수 있다. AR 타워가 고정된 백본을 그대로 사용하기 때문에, 이미 Nemotron-3-Nano-30B-A3B에 익숙한 개발자라면 추가적인 문맥 이해 학습 없이 디노이저 타워만 다뤄볼 수 있는 구조다.
다만 확산 방식의 텍스트 생성은 자기회귀 방식과 추론 파이프라인이 다르다. 기존 AR 모델에 최적화된 서빙 기법을 그대로 적용하기 어려울 가능성이 있으나, 이 부분은 공식 자료에서 구체적으로 확인되지 않는다. 실제 배포 환경에서의 지연 시간, 메모리 사용량 등 세부 벤치마크 역시 공개된 정보만으로는 확인되지 않는다.
장점과 한계
장점은 세 가지로 정리된다. 첫째, 검증된 AR 백본을 재사용해 확산 모델 학습의 리스크를 줄였다. 둘째, 품질 저하를 1.3%포인트 수준으로 억제하며 처리량을 2배 이상 높였다. 셋째, 가중치를 오픈 라이선스로 공개해 접근성을 확보했다.
한계도 있다. 총 60B 파라미터는 AR 백본(30B) 대비 두 배에 가까운 규모로, 디노이저 타워 추가에 따른 메모리 부담이 존재한다. 또한 확산 기반 생성 방식은 AR 대비 서빙 도구와 생태계 지원이 상대적으로 초기 단계다.
전망
Two-Tower 접근은 처음부터 확산 모델을 학습하는 대신 기존 AR 자산을 재사용하는 방법론을 제시했다는 점에서 주목할 만하다. 이 방식이 다른 오픈소스 AR 모델에도 적용 가능한지, 그리고 실제 서빙 환경에서 처리량 향상이 비용 절감으로 이어지는지는 커뮤니티의 후속 검증이 필요하다.
결론
Nemotron-Labs-TwoTower는 AR 백본을 고정하고 디퓨전 디노이저만 학습시키는 방식으로, 품질 손실을 최소화하면서 처리량을 높인 오픈웨이트 모델이다. 확산 기반 생성 방식의 실용성을 검증하려는 연구자와, 처리량 개선에 관심 있는 오픈소스 LLM 개발자에게 살펴볼 가치가 있다.
장점
- AR 베이스라인 대비 벤치마크 품질 98.7% 유지
- 생성 처리량 2.42배 향상
- 검증된 AR 백본(Nemotron-3-Nano-30B-A3B) 재사용으로 학습 리스크 감소
- NVIDIA Nemotron Open Model License로 가중치 공개
단점/한계
- 총 파라미터 약 60B로 AR 백본 대비 메모리 부담 증가
- 확산 기반 생성의 서빙 인프라와 생태계가 상대적으로 초기 단계
- 실제 배포 환경의 지연 시간/메모리 사용량 등 세부 벤치마크 미공개
참고 자료
댓글0개
주요 기능/특징
1. Two-Tower 아키텍처: AR 문맥 처리 타워(고정)와 학습 가능한 디퓨전 디노이저 타워 분리 2. 처리량 2.42배 향상: AR 베이스라인 대비 생성 처리량 2.42배 증가 3. 벤치마크 품질 98.7% 유지: AR 대비 품질 손실 최소화 4. 약 60B 총 파라미터 규모의 오픈웨이트 모델 5. NVIDIA Nemotron Open Model License로 가중치 공개
핵심 인사이트
- AR 백본을 고정하고 재사용하는 방식은 확산 모델 학습의 리스크와 비용을 줄이는 접근이다
- 품질 저하를 1.3%포인트 수준으로 억제하면서 처리량을 2배 이상 높인 점은 실용적 트레이드오프로 평가된다
- Two-Tower 구조는 기존 AR 모델 자산을 재활용할 수 있어 처음부터 확산 모델을 학습하는 방식보다 효율적일 수 있다
- 총 60B 파라미터는 AR 백본(30B) 대비 약 두 배 규모로, 디노이저 타워 추가에 따른 자원 부담이 존재한다
- 오픈 라이선스 공개로 연구자와 개발자의 접근성이 확보됐다
- 확산 기반 생성 방식은 AR 대비 서빙 인프라와 생태계 지원이 상대적으로 초기 단계다
- 실제 배포 환경에서의 지연 시간, 메모리 사용량 등 세부 데이터는 아직 확인되지 않는다
- 이 접근법이 다른 오픈소스 AR 모델에도 적용 가능한지는 후속 검증이 필요하다
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Cohere North Mini Code 1.0: 단일 H100에서 실행되는 30B MoE 코딩 에이전트
Cohere가 2026년 6월 9일 오픈소스 코딩 에이전트 모델 North Mini Code 1.0을 공개했다. 30B MoE 구조에 Apache 2.0 라이선스로, 엔터프라이즈 온프레미스 배포에 적합하다.
DiffusionGemma 26B: 확산 기법으로 최대 4배 빠른 텍스트 생성
Google DeepMind가 2026년 6월 10일 DiffusionGemma 26B-A4B를 Apache 2.0으로 공개했다. 텍스트 확산 기법으로 256개 토큰을 병렬 생성해 기존 LLM 대비 최대 4배 빠른 속도를 달성했다.
Gemini CLI 심층 리뷰: 무료로 쓰는 터미널 AI 에이전트의 실체
구글이 공개한 오픈소스 터미널 AI 에이전트 Gemini CLI가 개발자 커뮤니티의 주목을 받고 있다. 개인 계정으로 무료 사용이 가능하며, 1M 토큰 컨텍스트 창과 MCP 지원이 핵심이다.
Kimi K2.6 오픈소스 공개: 1조 파라미터, 300개 에이전트 병렬 실행
Moonshot AI가 2026년 4월 21일 Kimi K2.6을 오픈소스로 공개했다. 1조 파라미터 MoE 아키텍처에 300개 병렬 에이전트 실행 능력을 갖춰 GPT-5.4와 Claude Opus 4.6을 복수 벤치마크에서 앞질렀다.
