2026.03.17
3.1천
0
0
IT 뉴스

NVIDIA Rubin CPX 공개: 100만 토큰 추론 전용 GPU의 탄생

NVIDIA가 GTC 2026에서 대규모 컨텍스트 추론 전용 GPU 'Rubin CPX'를 공개했다. 30 PFLOPS 성능과 128GB GDDR7 메모리로 100만+ 토큰 워크로드를 처리한다.

#NVIDIA#Rubin CPX#GTC 2026#GPU#추론
NVIDIA Rubin CPX 공개: 100만 토큰 추론 전용 GPU의 탄생
AI 핵심 요약

NVIDIA가 GTC 2026에서 대규모 컨텍스트 추론 전용 GPU 'Rubin CPX'를 공개했다. 30 PFLOPS 성능과 128GB GDDR7 메모리로 100만+ 토큰 워크로드를 처리한다.

핵심 요약

NVIDIA가 GTC 2026 키노트에서 'Rubin CPX'를 공개했다. 이는 기존 범용 GPU 전략에서 벗어나, **대규모 컨텍스트 추론(massive-context inference)**에 특화된 완전히 새로운 GPU 클래스다. 100만 토큰 이상의 장문 코딩과 생성형 비디오 처리를 위해 설계됐다.

주요 기술 사양

Rubin CPX는 NVFP4 정밀도 기준 **30 페타플롭(PFLOPS)**의 연산 성능을 제공한다. 메모리는 HBM4 대신 비용 효율적인 128GB GDDR7을 채택했으며, 메모리 대역폭은 1.7 PB/s에 달한다.

항목Rubin CPXGB300 NVL72
어텐션 가속3배 향상기준
메모리128GB GDDR7HBM
비디오 인코더/디코더내장외부 필요
타겟 워크로드장문 추론범용

특히 비디오 디코더와 인코더를 단일 칩에 통합해, 비디오 검색과 고품질 생성형 비디오 같은 장문 애플리케이션에서 전례 없는 성능을 발휘한다.

NVL144 CPX 플랫폼

Rubin CPX를 기반으로 한 Vera Rubin NVL144 CPX 플랫폼은 단일 랙에서 8 엑사플롭(EFLOPS)의 AI 성능과 100TB의 고속 메모리를 제공한다. 이는 GB300 NVL72 대비 7.5배 향상된 수치다.

Jensen Huang CEO는 NVL144를 "현대 기업을 위한 새로운 컴퓨팅 단위"라고 소개했다. 액체 냉각 방식의 랙 스케일 슈퍼컴퓨터로, Microsoft와 Meta 임원들이 키노트 현장에서 직접 확인했다.

GPU 전략의 패러다임 전환

Rubin CPX는 NVIDIA 역사상 중요한 전환점이다. 그동안 NVIDIA는 '하나의 GPU로 모든 것을 처리'하는 전략을 고수해왔다. 하지만 에이전틱 AI 시대가 도래하면서, 추론 워크로드의 단계별 특성에 맞는 전문화된 프로세서가 필요해졌다.

학습(Training)용 Rubin GPU와 추론(Inference)용 Rubin CPX를 분리함으로써, 각 워크로드에 최적화된 아키텍처를 제공할 수 있게 됐다.

수익 모델

NVIDIA에 따르면 Rubin CPX 플랫폼은 하드웨어 1억 달러 투자당 50억 달러의 토큰 수익을 창출할 수 있다. 이는 추론 서비스 제공업체에게 매력적인 ROI를 제시한다.

출시 일정

Rubin CPX는 2026년 말 출시 예정이다. 초기 샘플은 주요 클라우드 제공업체에 먼저 배포될 것으로 보인다.

경쟁 환경

대규모 컨텍스트 추론은 Google TPU v6, AMD MI400X 등 경쟁 제품들도 주목하는 영역이다. 하지만 Rubin CPX는 CUDA 생태계와의 자연스러운 통합이라는 강점을 가진다. 기존 NVIDIA 소프트웨어 스택을 활용하는 기업이라면 전환 비용 없이 바로 채택할 수 있다.

결론

Rubin CPX는 AI 추론 시장의 폭발적 성장에 대응한 NVIDIA의 전략적 선택이다. 범용 GPU에서 워크로드별 전문 프로세서로의 전환은, AI 인프라가 성숙 단계에 접어들었음을 보여준다. 100만 토큰 컨텍스트가 일상이 되는 시대에, 이 GPU는 핵심 인프라가 될 것이다. 대규모 언어 모델을 서비스하는 기업, 클라우드 제공업체, AI 추론 스타트업이라면 Rubin CPX의 출시 일정을 주의 깊게 모니터링할 필요가 있다.

장점

  • 100만 토큰 이상 대규모 컨텍스트 추론에 최적화된 설계
  • GB300 NVL72 대비 어텐션 처리 3배 향상
  • GDDR7 채택으로 HBM 대비 비용 효율적
  • 비디오 인코더/디코더 통합으로 장문 비디오 애플리케이션 지원
  • NVL144 플랫폼의 8 EFLOPS 압도적 성능

단점/한계

  • 2026년 말 출시로 당장 활용할 수 없음
  • 범용 학습 워크로드에는 별도 GPU가 필요
  • 공식 가격 미공개로 실제 비용 효율성 검증 불가
  • 초기 공급은 대형 클라우드 업체에 한정될 가능성

댓글0

주요 기능/특징

1. NVFP4 기준 30 PFLOPS 연산 성능 2. 128GB GDDR7 메모리, 1.7 PB/s 대역폭 3. GB300 NVL72 대비 어텐션 처리 3배 향상 4. 비디오 인코더/디코더 단일 칩 통합 5. NVL144 플랫폼: 단일 랙 8 EFLOPS, 100TB 메모리

핵심 인사이트

  • NVIDIA가 '하나의 GPU로 모든 것' 전략에서 워크로드별 전문 프로세서 전략으로 전환했다
  • 100만+ 토큰 컨텍스트 처리가 GPU 설계의 핵심 요구사항이 됐다
  • GDDR7 채택으로 HBM 대비 비용 효율성을 크게 개선했다
  • NVL144 CPX 플랫폼은 GB300 NVL72 대비 7.5배 성능을 제공한다
  • 하드웨어 1억 달러 투자당 50억 달러 토큰 수익이라는 구체적 ROI를 제시했다
  • 비디오 인코더/디코더 통합으로 생성형 비디오 워크로드에 최적화됐다
  • 추론 시장이 학습 시장을 추월하면서 전용 칩 수요가 폭증하고 있다
  • 2026년 말 출시로 클라우드 제공업체의 추론 인프라 경쟁이 가속화될 전망이다

이 리뷰가 유용했나요?

공유하기