NVIDIA Nemotron 3 Ultra 550B 출시: 오픈소스 에이전트용 최강 MoE 모델
NVIDIA가 6월 4일 550B 파라미터의 하이브리드 MoE 아키텍처 오픈소스 모델 Nemotron 3 Ultra를 출시했다. 100만 토큰 컨텍스트와 6배 추론 속도가 핵심 강점이다.
NVIDIA가 6월 4일 550B 파라미터의 하이브리드 MoE 아키텍처 오픈소스 모델 Nemotron 3 Ultra를 출시했다. 100만 토큰 컨텍스트와 6배 추론 속도가 핵심 강점이다.
NVIDIA Nemotron 3 Ultra 550B: 오픈소스 에이전트 LLM의 새 기준
2026년 6월 4일, NVIDIA AI Research는 Nemotron 3 Ultra를 공개 출시했다. 550B 총 파라미터(활성 파라미터 55B)의 이 모델은 하이브리드 Mamba-Transformer 아키텍처와 Mixture-of-Experts(MoE) 설계를 결합한 오픈소스 LLM이다. 미국 AI 연구소에서 나온 오픈소스 모델 중 현재 가장 높은 성능으로 평가받고 있다.
핵심 아키텍처: Mamba + Attention의 하이브리드
Nemotron 3 Ultra의 가장 독특한 특징은 순수 Transformer 대신 Mamba 레이어와 Attention 레이어를 혼합한 하이브리드 구조다. Mamba 레이어는 긴 시퀀스를 이차 복잡도 없이 처리하며, 선택적 Attention 레이어는 대용량 컨텍스트에서 정밀한 정보 검색을 담당한다.
주요 스펙은 다음과 같다:
- 총 파라미터: 550B (활성: 55B)
- 레이어 수: 108개
- 전문가 수: 레이어당 512개 (상위 22개 라우팅)
- 컨텍스트 윈도우: 100만 토큰 (1M)
- 학습 데이터: 20조 토큰 (2단계 커리큘럼)
- 정밀도: NVFP4 양자화 (4비트)
LatentMoE 라우팅 방식은 전문가 활용 효율성을 높이고, Multi-Token Prediction(MTP)은 네이티브 추론 디코딩(speculative decoding)을 가능하게 해 속도를 더욱 향상시킨다.
성능 벤치마크
공식 벤치마크 결과는 다음과 같다:
| 벤치마크 | 점수 |
|---|---|
| PinchBench (에이전트) | 90.0 |
| SWE-Bench Verified (코딩) | 71.9 |
| RULER at 1M tokens (장문) | 94.7 |
| IOI 2025 (경쟁 프로그래밍) | 570.0 |
경쟁 오픈소스 모델 대비 최대 6배 높은 추론 처리량(throughput)을 달성했다. Artificial Analysis Intelligence Index에서 48점을 기록하며 미국 오픈소스 모델 중 가장 높은 점수를 받았다.
장기 에이전트 작업을 위한 설계
Nemotron 3 Ultra는 특히 "여러 턴에 걸쳐 계획하고, 도구를 호출하며, 추론하는 장기 실행 에이전트"를 위해 설계됐다. 100만 토큰 컨텍스트는 복잡한 멀티스텝 에이전트 워크플로우에서 이전 대화 전체를 유지할 수 있게 해준다.
추론 시간 비용 제어(inference time reasoning budget control) 기능을 통해 세 가지 추론 모드를 지원한다. 정밀 추론이 필요한 작업에는 높은 예산을, 빠른 응답이 필요한 경우에는 저비용 모드를 선택할 수 있다.
오픈소스 공개 및 접근성
OpenMDW-1.1 라이선스 하에 완전 공개되었다. 가중치(weights), 학습 데이터, 레시피가 모두 제공된다:
- HuggingFace: 사전 학습 및 사후 학습 체크포인트 (BF16, NVFP4)
- NVIDIA NIM: 클라우드 API 엔드포인트
- OpenRouter, Together AI, Perplexity: 서드파티 API
- Nebius Token Factory: 고성능 추론 서비스
25개 이상의 플랫폼에서 4가지 체크포인트로 제공된다.
사후 학습 방법론
NVIDIA는 세 가지 방법을 결합한 고도화된 사후 학습 파이프라인을 적용했다:
- 지도 파인튜닝(SFT): 기본 능력 강화
- 강화학습(RL): 복잡한 추론 및 에이전트 행동 최적화
- 멀티 교사 온-폴리시 증류(Multi-teacher On-Policy Distillation): 다양한 강사 모델로부터 지식 통합
전망과 의의
Nemotron 3 Ultra는 미국 AI 연구소의 오픈소스 모델 역량이 크게 강화되고 있음을 보여준다. 특히 에이전트 애플리케이션과 초장문 컨텍스트 처리에서의 강점은 실제 기업 워크플로우 자동화에 직접 활용될 수 있다.
다만 활성 파라미터 55B는 최신 효율 모델들과 비교 시 여전히 높은 편이며, 상업적 배포에는 상당한 컴퓨팅 자원이 필요하다. NVFP4 체크포인트는 NVIDIA Blackwell, Hopper, Ampere GPU에 최적화되어 있다.
결론
NVIDIA Nemotron 3 Ultra 550B는 에이전트 AI 구축을 목표로 하는 연구자와 개발자에게 현존 최고 수준의 오픈소스 선택지다. 코딩, 장문 추론, 복잡한 멀티스텝 에이전트 파이프라인이 필요한 팀에 특히 추천한다.
장점
- 현존 미국 오픈소스 LLM 중 최고 수준의 에이전트 및 코딩 성능
- 100만 토큰 컨텍스트로 복잡한 멀티스텝 에이전트 워크플로우 지원
- 최대 6배 추론 처리량으로 배포 비용 절감 가능
- 완전 오픈소스 (가중치·데이터·레시피 포함), 25개 이상 플랫폼 즉시 사용 가능
- 추론 시간 예산 제어로 속도-정확도 트레이드오프 조절 가능
단점/한계
- 활성 파라미터 55B로 최적 성능 구현 시 고사양 GPU(Blackwell/Hopper) 필요
- NVFP4 최적화가 NVIDIA GPU에 집중되어 AMD/Intel 환경에서는 성능 저하 가능
- 중국 오픈소스 모델(DeepSeek 등)과 비교 시 일부 벤치마크에서 아직 차이 존재
참고 자료
댓글0개
주요 기능/특징
1. 550B 총 파라미터 / 55B 활성 파라미터: MoE로 효율성과 성능을 모두 확보 2. 하이브리드 Mamba-Attention 아키텍처: 이차 복잡도 없이 100만 토큰 컨텍스트 처리 3. LatentMoE 라우팅: 개선된 전문가 효율성으로 기존 오픈소스 대비 최대 6배 처리량 4. 에이전트 특화 설계: 멀티스텝 계획, 도구 호출, 추론 예산 제어 지원 5. 완전 오픈소스 (OpenMDW-1.1): 가중치·데이터·레시피 모두 공개, 25+ 플랫폼 배포
핵심 인사이트
- 순수 Transformer가 아닌 Mamba 하이브리드 아키텍처로 100만 토큰 컨텍스트를 실용적으로 구현했다.
- SWE-Bench Verified 71.9점은 코딩 에이전트 분야에서 오픈소스 모델 최고 수준이다.
- 6배 추론 처리량 향상은 실제 배포 비용을 대폭 줄일 수 있어 기업 채택 가능성이 높다.
- 에이전트 작업 특화 설계는 기존 일반 목적 LLM과 차별화된 포지셔닝 전략이다.
- OpenMDW-1.1 완전 공개 라이선스는 연구 및 상업적 활용 모두에 유리하다.
- NVIDIA의 자체 LLM 공개는 하드웨어 판매를 넘어 AI 생태계 주도권 확보를 목표로 한다.
- 멀티 교사 온-폴리시 증류 방법론은 향후 소형 모델 압축에도 적용 가능성이 있다.
- Artificial Analysis Intelligence Index 48점은 미국 오픈소스 모델 중 최고 기록이다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
MiniMax M3 출시: 오픈웨이트 최초 100만 토큰 컨텍스트·멀티모달·코딩 삼박자
중국 AI 기업 MiniMax가 2026년 6월 1일 M3를 공개했다. SWE-Bench Pro 59.0%로 GPT-5.5를 추월한 오픈웨이트 모델로, MSA 아키텍처로 연산량을 1/20으로 줄이면서 1M 컨텍스트를 실현했다.
Qwen 3.7-Max 공식 출시: 35시간 자율 실행, 에이전트 AI 시대의 새 기준
알리바바가 2026년 5월 20일 클라우드 서밋에서 Qwen 3.7-Max를 공식 발표했다. GPQA Diamond 92.4점, 1백만 토큰 컨텍스트, 최대 35시간 자율 실행으로 글로벌 에이전트 AI 경쟁에 새 기준을 제시했다.
xAI Grok Build 출시: 터미널 기반 AI 코딩 에이전트로 Claude Code에 도전장
xAI가 2026년 5월 14일 터미널 네이티브 AI 코딩 에이전트 'Grok Build'를 베타 출시했다. 최대 8개의 동시 에이전트, 200만 토큰 컨텍스트, ACP 지원으로 전문 개발자 시장 공략에 나섰다.
Mistral Medium 3.5 출시: 128B 오픈웨이트 모델 + 클라우드 코딩 에이전트
Mistral AI가 128B 오픈웨이트 모델 Medium 3.5(SWE-Bench 77.6%)와 클라우드 비동기 코딩 에이전트 Vibe Remote Agents를 발표했다. 4개 GPU 자체 호스팅과 수정 MIT 라이선스를 지원한다.
