NVIDIA Rubin CPX 공개: 100만 토큰 추론 전용 GPU의 탄생
NVIDIA가 GTC 2026에서 대규모 컨텍스트 추론 전용 GPU 'Rubin CPX'를 공개했다. 30 PFLOPS 성능과 128GB GDDR7 메모리로 100만+ 토큰 워크로드를 처리한다.
NVIDIA가 GTC 2026에서 대규모 컨텍스트 추론 전용 GPU 'Rubin CPX'를 공개했다. 30 PFLOPS 성능과 128GB GDDR7 메모리로 100만+ 토큰 워크로드를 처리한다.
핵심 요약
NVIDIA가 GTC 2026 키노트에서 'Rubin CPX'를 공개했다. 이는 기존 범용 GPU 전략에서 벗어나, **대규모 컨텍스트 추론(massive-context inference)**에 특화된 완전히 새로운 GPU 클래스다. 100만 토큰 이상의 장문 코딩과 생성형 비디오 처리를 위해 설계됐다.
주요 기술 사양
Rubin CPX는 NVFP4 정밀도 기준 **30 페타플롭(PFLOPS)**의 연산 성능을 제공한다. 메모리는 HBM4 대신 비용 효율적인 128GB GDDR7을 채택했으며, 메모리 대역폭은 1.7 PB/s에 달한다.
| 항목 | Rubin CPX | GB300 NVL72 |
|---|---|---|
| 어텐션 가속 | 3배 향상 | 기준 |
| 메모리 | 128GB GDDR7 | HBM |
| 비디오 인코더/디코더 | 내장 | 외부 필요 |
| 타겟 워크로드 | 장문 추론 | 범용 |
특히 비디오 디코더와 인코더를 단일 칩에 통합해, 비디오 검색과 고품질 생성형 비디오 같은 장문 애플리케이션에서 전례 없는 성능을 발휘한다.
NVL144 CPX 플랫폼
Rubin CPX를 기반으로 한 Vera Rubin NVL144 CPX 플랫폼은 단일 랙에서 8 엑사플롭(EFLOPS)의 AI 성능과 100TB의 고속 메모리를 제공한다. 이는 GB300 NVL72 대비 7.5배 향상된 수치다.
Jensen Huang CEO는 NVL144를 "현대 기업을 위한 새로운 컴퓨팅 단위"라고 소개했다. 액체 냉각 방식의 랙 스케일 슈퍼컴퓨터로, Microsoft와 Meta 임원들이 키노트 현장에서 직접 확인했다.
GPU 전략의 패러다임 전환
Rubin CPX는 NVIDIA 역사상 중요한 전환점이다. 그동안 NVIDIA는 '하나의 GPU로 모든 것을 처리'하는 전략을 고수해왔다. 하지만 에이전틱 AI 시대가 도래하면서, 추론 워크로드의 단계별 특성에 맞는 전문화된 프로세서가 필요해졌다.
학습(Training)용 Rubin GPU와 추론(Inference)용 Rubin CPX를 분리함으로써, 각 워크로드에 최적화된 아키텍처를 제공할 수 있게 됐다.
수익 모델
NVIDIA에 따르면 Rubin CPX 플랫폼은 하드웨어 1억 달러 투자당 50억 달러의 토큰 수익을 창출할 수 있다. 이는 추론 서비스 제공업체에게 매력적인 ROI를 제시한다.
출시 일정
Rubin CPX는 2026년 말 출시 예정이다. 초기 샘플은 주요 클라우드 제공업체에 먼저 배포될 것으로 보인다.
경쟁 환경
대규모 컨텍스트 추론은 Google TPU v6, AMD MI400X 등 경쟁 제품들도 주목하는 영역이다. 하지만 Rubin CPX는 CUDA 생태계와의 자연스러운 통합이라는 강점을 가진다. 기존 NVIDIA 소프트웨어 스택을 활용하는 기업이라면 전환 비용 없이 바로 채택할 수 있다.
결론
Rubin CPX는 AI 추론 시장의 폭발적 성장에 대응한 NVIDIA의 전략적 선택이다. 범용 GPU에서 워크로드별 전문 프로세서로의 전환은, AI 인프라가 성숙 단계에 접어들었음을 보여준다. 100만 토큰 컨텍스트가 일상이 되는 시대에, 이 GPU는 핵심 인프라가 될 것이다. 대규모 언어 모델을 서비스하는 기업, 클라우드 제공업체, AI 추론 스타트업이라면 Rubin CPX의 출시 일정을 주의 깊게 모니터링할 필요가 있다.
장점
- 100만 토큰 이상 대규모 컨텍스트 추론에 최적화된 설계
- GB300 NVL72 대비 어텐션 처리 3배 향상
- GDDR7 채택으로 HBM 대비 비용 효율적
- 비디오 인코더/디코더 통합으로 장문 비디오 애플리케이션 지원
- NVL144 플랫폼의 8 EFLOPS 압도적 성능
단점/한계
- 2026년 말 출시로 당장 활용할 수 없음
- 범용 학습 워크로드에는 별도 GPU가 필요
- 공식 가격 미공개로 실제 비용 효율성 검증 불가
- 초기 공급은 대형 클라우드 업체에 한정될 가능성
참고 자료
댓글0개
주요 기능/특징
1. NVFP4 기준 30 PFLOPS 연산 성능 2. 128GB GDDR7 메모리, 1.7 PB/s 대역폭 3. GB300 NVL72 대비 어텐션 처리 3배 향상 4. 비디오 인코더/디코더 단일 칩 통합 5. NVL144 플랫폼: 단일 랙 8 EFLOPS, 100TB 메모리
핵심 인사이트
- NVIDIA가 '하나의 GPU로 모든 것' 전략에서 워크로드별 전문 프로세서 전략으로 전환했다
- 100만+ 토큰 컨텍스트 처리가 GPU 설계의 핵심 요구사항이 됐다
- GDDR7 채택으로 HBM 대비 비용 효율성을 크게 개선했다
- NVL144 CPX 플랫폼은 GB300 NVL72 대비 7.5배 성능을 제공한다
- 하드웨어 1억 달러 투자당 50억 달러 토큰 수익이라는 구체적 ROI를 제시했다
- 비디오 인코더/디코더 통합으로 생성형 비디오 워크로드에 최적화됐다
- 추론 시장이 학습 시장을 추월하면서 전용 칩 수요가 폭증하고 있다
- 2026년 말 출시로 클라우드 제공업체의 추론 인프라 경쟁이 가속화될 전망이다
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
테네시주 AI 정신건강법 서명: AI 챗봇의 치료사 사칭을 금지하다
테네시주가 AI 시스템의 정신건강 전문가 사칭을 금지하는 SB1580 법안에 서명했다. 7월 1일 시행되며 위반 시 건당 $5,000 벌금과 사적 소송권이 부여된다. 미국 최초의 AI 정신건강 규제법이다.
Q1 2026 VC $3,000억 역대 최대: AI가 전체 투자의 81%를 집어삼켰다
2026년 1분기 글로벌 벤처캐피털 투자가 $3,000억으로 역대 최고를 기록했다. AI 스타트업이 $2,420억(81%)을 차지하며, OpenAI($1,220억)와 Anthropic($300억)이 대형 라운드를 이끌었다.
OpenAI, 테크 팟캐스트 TBPN 인수: AI 기업이 미디어에 진출하는 이유
OpenAI가 실리콘밸리 인기 테크 팟캐스트 TBPN을 인수했다. AI 기업의 첫 미디어 인수로, AI 서사 주도권 확보를 위한 새로운 전략이다. 편집 독립성 유지를 약속했지만, 이해 충돌 우려도 제기된다.
젠슨 황 "AGI 달성했다" 선언: $4조 기업 CEO의 발언이 촉발한 정의 논쟁
NVIDIA CEO 젠슨 황이 Lex Fridman 팟캐스트에서 "AGI를 달성했다"고 선언했다. Google DeepMind의 인지 프레임워크는 이에 반박하며, AGI 정의를 둘러싼 업계 논쟁이 격화되고 있다.
