NVIDIA Blackwell Ultra B300 양산 돌입: 15 PFLOPS AI 칩의 시대
NVIDIA가 Blackwell Ultra B300의 양산 출하를 시작했습니다. 208B 트랜지스터, 288GB HBM3e, 15 PFLOPS FP4 성능을 갖추고, GB300 NVL72 랙 시스템은 1.1 ExaFLOPS를 달성하여 AI 팩토리 시대를 본격 견인합니다.
NVIDIA가 Blackwell Ultra B300의 양산 출하를 시작했습니다. 208B 트랜지스터, 288GB HBM3e, 15 PFLOPS FP4 성능을 갖추고, GB300 NVL72 랙 시스템은 1.1 ExaFLOPS를 달성하여 AI 팩토리 시대를 본격 견인합니다.
AI 칩의 새로운 왕좌: Blackwell Ultra B300
NVIDIA는 2026년 2월, Blackwell Ultra(B300) GPU와 GB200 NVL72 랙 시스템의 본격 양산 출하를 시작했습니다. Blackwell Ultra는 NVIDIA의 AI 데이터센터용 최신 GPU로, 이전 세대 Hopper(H100) 대비 AI 추론 성능이 7.5배 향상된 괴물급 칩입니다.
TSMC 4NP 공정으로 제조된 B300은 208B(2,080억 개) 트랜지스터를 탑재하며, 이는 H100의 80B 대비 2.6배 증가한 규모입니다. 2026년에만 약 60,000개 랙이 출하될 것으로 전망됩니다.
핵심 스펙 비교
Blackwell Ultra의 사양을 이전 세대와 비교하면 세대별 도약의 규모가 명확해집니다.
| 사양 | Hopper H100 | Blackwell B200 | Blackwell Ultra B300 |
|---|---|---|---|
| 트랜지스터 | 80B | 208B | 208B |
| HBM 용량 | 80GB | 192GB | 288GB |
| HBM 대역폭 | 3.35TB/s | 8TB/s | 8TB/s |
| FP4 성능 | 2 PFLOPS | 10 PFLOPS | 15 PFLOPS |
| NVLink 대역폭 | 900GB/s | 1,800GB/s | 1,800GB/s |
| TDP | 700W | 1,200W | 1,400W |
Blackwell Ultra의 가장 큰 차별점은 288GB HBM3e 메모리입니다. 8개의 12-Hi 스택으로 구성되어 H100 대비 3.6배, 기존 Blackwell 대비 50% 더 많은 메모리를 제공합니다. 이는 대형 언어 모델의 추론 시 모델 전체를 단일 GPU 메모리에 로드할 수 있는 범위를 크게 넓힙니다.
5세대 Tensor 코어와 NVFP4 정밀도
Blackwell Ultra는 640개의 5세대 Tensor 코어를 탑재하여 15 PFLOPS FP4 성능을 달성합니다. 여기서 핵심은 NVFP4(4비트 부동소수점) 정밀도입니다.
NVFP4는 FP8 대비 메모리 사용량을 약 1.8배 감소시키면서 거의 동등한 정확도를 유지합니다. 이는 동일한 하드웨어에서 더 큰 모델을 실행하거나, 동일 모델을 더 빠르게 추론할 수 있음을 의미합니다.
또한 Blackwell Ultra는 특수 함수 유닛(SFU) 처리량을 2배로 증가시켜, Transformer 모델의 attention 계층에서 핵심인 softmax 연산을 크게 가속화합니다. 이는 긴 컨텍스트 윈도우를 가진 추론 모델에서 특히 효과적입니다.
GB300 NVL72: 1.1 ExaFLOPS 랙 시스템
단일 GPU를 넘어, NVIDIA는 GB300 NVL72 랙 시스템으로 AI 컴퓨팅의 단위 자체를 바꾸고 있습니다.
GB300 NVL72는 36개의 Grace Blackwell 슈퍼칩을 NVLink 5와 NVLink Switch로 상호 연결한 액체냉각식 랙 시스템입니다. 72개 GPU가 하나의 거대한 AI 가속기처럼 동작하며, 집계 대역폭은 130TB/s에 달합니다.
이 시스템의 총 FP4 컴퓨팅 성능은 1.1 ExaFLOPS(엑사플롭스)입니다. Hopper 세대 대비 지연시간 10배 개선, 메가와트당 처리량 5배 증가로, NVIDIA는 이를 "AI 팩토리 시대의 엔진"이라고 표현합니다.
NVLink 5: GPU 간 초고속 연결
Blackwell Ultra는 NVLink 5를 통해 GPU당 1.8TB/s 양방향 대역폭을 제공합니다(18개 링크 x 100GB/s). 이는 Hopper의 NVLink 4 대비 2배 향상된 수치입니다.
최대 576개 GPU를 비차단(non-blocking) 구조로 연결할 수 있어, 초대형 모델의 분산 학습과 추론에서 GPU 간 통신 병목을 최소화합니다.
AI 인프라 시장에 미치는 영향
Blackwell Ultra 양산은 AI 인프라 시장의 판도를 좌우할 핵심 변수입니다. Microsoft Maia 200, Google TPU v6, AMD MI400 등 경쟁 칩이 등장하고 있지만, NVIDIA는 CUDA 생태계와 NVLink 기반 랙 스케일 시스템으로 여전히 지배적 위치를 유지하고 있습니다.
2026년 60,000랙 출하 전망이 현실화되면, 이는 AI 학습과 추론 비용의 추가 하락을 견인하여 더 많은 기업이 자체 AI 모델을 운영할 수 있는 환경을 만들 것입니다.
결론: AI 팩토리 시대의 본격 개막
Blackwell Ultra B300은 단순한 GPU 업그레이드가 아닙니다. 15 PFLOPS 단일 칩과 1.1 ExaFLOPS 랙 시스템은 AI 컴퓨팅의 단위를 한 차원 끌어올렸습니다. AI를 대규모로 배포하려는 기업, 클라우드 사업자, 연구기관에게 Blackwell Ultra는 2026년의 핵심 인프라가 될 것입니다.
장점
- 15 PFLOPS FP4 단일 칩 성능으로 Hopper 대비 7.5배 AI 추론 향상
- 288GB HBM3e로 대형 모델의 메모리 병목 크게 완화
- NVLink 5 기반 576 GPU 비차단 연결로 분산 학습 효율 극대화
- NVFP4 정밀도로 모델 크기 대비 메모리 효율 획기적 개선
단점/한계
- TDP 1,400W로 전력 소비와 냉각 비용이 매우 높음
- GPU 단가와 NVL72 시스템 가격이 대부분 기업에게 부담
- 액체냉각 필수로 기존 공랭식 데이터센터 인프라 개조 필요
- 경쟁 칩 대비 비용 효율이 불투명한 상황
참고 자료
댓글0개
주요 기능/특징
NVIDIA Blackwell Ultra B300이 양산에 돌입했습니다. 208B 트랜지스터, 288GB HBM3e 메모리, 15 PFLOPS FP4 성능을 제공하며, NVFP4 정밀도로 메모리 효율을 1.8배 개선합니다. GB300 NVL72 랙 시스템은 72개 GPU를 NVLink 5로 연결하여 1.1 ExaFLOPS를 달성합니다.
핵심 인사이트
- 288GB HBM3e 메모리로 H100 대비 3.6배 용량 증가, 대형 모델 단일 GPU 로드 범위 확대
- NVFP4 정밀도는 FP8 대비 메모리 사용량 1.8배 절감하면서 동등한 정확도 유지
- GB300 NVL72 랙 시스템이 1.1 ExaFLOPS를 달성하여 AI 팩토리 시대 본격 개막
- Attention 계층 SFU 처리량 2배 향상으로 긴 컨텍스트 추론 모델에서 큰 성능 이점
- NVLink 5로 최대 576개 GPU 비차단 연결, 초대형 분산 학습 병목 최소화
- 2026년 약 60,000랙 출하 전망으로 AI 인프라 공급 대폭 확대
- TDP 1,400W로 전력 효율과 데이터센터 냉각 인프라가 새로운 과제
- Microsoft Maia 200, Google TPU v6 등 경쟁에도 CUDA 생태계로 지배력 유지
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
테네시주 AI 정신건강법 서명: AI 챗봇의 치료사 사칭을 금지하다
테네시주가 AI 시스템의 정신건강 전문가 사칭을 금지하는 SB1580 법안에 서명했다. 7월 1일 시행되며 위반 시 건당 $5,000 벌금과 사적 소송권이 부여된다. 미국 최초의 AI 정신건강 규제법이다.
Q1 2026 VC $3,000억 역대 최대: AI가 전체 투자의 81%를 집어삼켰다
2026년 1분기 글로벌 벤처캐피털 투자가 $3,000억으로 역대 최고를 기록했다. AI 스타트업이 $2,420억(81%)을 차지하며, OpenAI($1,220억)와 Anthropic($300억)이 대형 라운드를 이끌었다.
OpenAI, 테크 팟캐스트 TBPN 인수: AI 기업이 미디어에 진출하는 이유
OpenAI가 실리콘밸리 인기 테크 팟캐스트 TBPN을 인수했다. AI 기업의 첫 미디어 인수로, AI 서사 주도권 확보를 위한 새로운 전략이다. 편집 독립성 유지를 약속했지만, 이해 충돌 우려도 제기된다.
젠슨 황 "AGI 달성했다" 선언: $4조 기업 CEO의 발언이 촉발한 정의 논쟁
NVIDIA CEO 젠슨 황이 Lex Fridman 팟캐스트에서 "AGI를 달성했다"고 선언했다. Google DeepMind의 인지 프레임워크는 이에 반박하며, AGI 정의를 둘러싼 업계 논쟁이 격화되고 있다.
