2026.06.10
76
0
0
기타 LLMNEW

NVIDIA Nemotron 3 Ultra 550B 출시: 오픈소스 에이전트용 최강 MoE 모델

NVIDIA가 6월 4일 550B 파라미터의 하이브리드 MoE 아키텍처 오픈소스 모델 Nemotron 3 Ultra를 출시했다. 100만 토큰 컨텍스트와 6배 추론 속도가 핵심 강점이다.

#NVIDIA#Nemotron#오픈소스#LLM#MoE
NVIDIA Nemotron 3 Ultra 550B 출시: 오픈소스 에이전트용 최강 MoE 모델
AI 핵심 요약

NVIDIA가 6월 4일 550B 파라미터의 하이브리드 MoE 아키텍처 오픈소스 모델 Nemotron 3 Ultra를 출시했다. 100만 토큰 컨텍스트와 6배 추론 속도가 핵심 강점이다.

NVIDIA Nemotron 3 Ultra 550B: 오픈소스 에이전트 LLM의 새 기준

2026년 6월 4일, NVIDIA AI Research는 Nemotron 3 Ultra를 공개 출시했다. 550B 총 파라미터(활성 파라미터 55B)의 이 모델은 하이브리드 Mamba-Transformer 아키텍처와 Mixture-of-Experts(MoE) 설계를 결합한 오픈소스 LLM이다. 미국 AI 연구소에서 나온 오픈소스 모델 중 현재 가장 높은 성능으로 평가받고 있다.

핵심 아키텍처: Mamba + Attention의 하이브리드

Nemotron 3 Ultra의 가장 독특한 특징은 순수 Transformer 대신 Mamba 레이어와 Attention 레이어를 혼합한 하이브리드 구조다. Mamba 레이어는 긴 시퀀스를 이차 복잡도 없이 처리하며, 선택적 Attention 레이어는 대용량 컨텍스트에서 정밀한 정보 검색을 담당한다.

주요 스펙은 다음과 같다:

  • 총 파라미터: 550B (활성: 55B)
  • 레이어 수: 108개
  • 전문가 수: 레이어당 512개 (상위 22개 라우팅)
  • 컨텍스트 윈도우: 100만 토큰 (1M)
  • 학습 데이터: 20조 토큰 (2단계 커리큘럼)
  • 정밀도: NVFP4 양자화 (4비트)

LatentMoE 라우팅 방식은 전문가 활용 효율성을 높이고, Multi-Token Prediction(MTP)은 네이티브 추론 디코딩(speculative decoding)을 가능하게 해 속도를 더욱 향상시킨다.

성능 벤치마크

공식 벤치마크 결과는 다음과 같다:

벤치마크점수
PinchBench (에이전트)90.0
SWE-Bench Verified (코딩)71.9
RULER at 1M tokens (장문)94.7
IOI 2025 (경쟁 프로그래밍)570.0

경쟁 오픈소스 모델 대비 최대 6배 높은 추론 처리량(throughput)을 달성했다. Artificial Analysis Intelligence Index에서 48점을 기록하며 미국 오픈소스 모델 중 가장 높은 점수를 받았다.

장기 에이전트 작업을 위한 설계

Nemotron 3 Ultra는 특히 "여러 턴에 걸쳐 계획하고, 도구를 호출하며, 추론하는 장기 실행 에이전트"를 위해 설계됐다. 100만 토큰 컨텍스트는 복잡한 멀티스텝 에이전트 워크플로우에서 이전 대화 전체를 유지할 수 있게 해준다.

추론 시간 비용 제어(inference time reasoning budget control) 기능을 통해 세 가지 추론 모드를 지원한다. 정밀 추론이 필요한 작업에는 높은 예산을, 빠른 응답이 필요한 경우에는 저비용 모드를 선택할 수 있다.

오픈소스 공개 및 접근성

OpenMDW-1.1 라이선스 하에 완전 공개되었다. 가중치(weights), 학습 데이터, 레시피가 모두 제공된다:

  • HuggingFace: 사전 학습 및 사후 학습 체크포인트 (BF16, NVFP4)
  • NVIDIA NIM: 클라우드 API 엔드포인트
  • OpenRouter, Together AI, Perplexity: 서드파티 API
  • Nebius Token Factory: 고성능 추론 서비스

25개 이상의 플랫폼에서 4가지 체크포인트로 제공된다.

사후 학습 방법론

NVIDIA는 세 가지 방법을 결합한 고도화된 사후 학습 파이프라인을 적용했다:

  1. 지도 파인튜닝(SFT): 기본 능력 강화
  2. 강화학습(RL): 복잡한 추론 및 에이전트 행동 최적화
  3. 멀티 교사 온-폴리시 증류(Multi-teacher On-Policy Distillation): 다양한 강사 모델로부터 지식 통합

전망과 의의

Nemotron 3 Ultra는 미국 AI 연구소의 오픈소스 모델 역량이 크게 강화되고 있음을 보여준다. 특히 에이전트 애플리케이션과 초장문 컨텍스트 처리에서의 강점은 실제 기업 워크플로우 자동화에 직접 활용될 수 있다.

다만 활성 파라미터 55B는 최신 효율 모델들과 비교 시 여전히 높은 편이며, 상업적 배포에는 상당한 컴퓨팅 자원이 필요하다. NVFP4 체크포인트는 NVIDIA Blackwell, Hopper, Ampere GPU에 최적화되어 있다.

결론

NVIDIA Nemotron 3 Ultra 550B는 에이전트 AI 구축을 목표로 하는 연구자와 개발자에게 현존 최고 수준의 오픈소스 선택지다. 코딩, 장문 추론, 복잡한 멀티스텝 에이전트 파이프라인이 필요한 팀에 특히 추천한다.

장점

  • 현존 미국 오픈소스 LLM 중 최고 수준의 에이전트 및 코딩 성능
  • 100만 토큰 컨텍스트로 복잡한 멀티스텝 에이전트 워크플로우 지원
  • 최대 6배 추론 처리량으로 배포 비용 절감 가능
  • 완전 오픈소스 (가중치·데이터·레시피 포함), 25개 이상 플랫폼 즉시 사용 가능
  • 추론 시간 예산 제어로 속도-정확도 트레이드오프 조절 가능

단점/한계

  • 활성 파라미터 55B로 최적 성능 구현 시 고사양 GPU(Blackwell/Hopper) 필요
  • NVFP4 최적화가 NVIDIA GPU에 집중되어 AMD/Intel 환경에서는 성능 저하 가능
  • 중국 오픈소스 모델(DeepSeek 등)과 비교 시 일부 벤치마크에서 아직 차이 존재

댓글0

주요 기능/특징

1. 550B 총 파라미터 / 55B 활성 파라미터: MoE로 효율성과 성능을 모두 확보 2. 하이브리드 Mamba-Attention 아키텍처: 이차 복잡도 없이 100만 토큰 컨텍스트 처리 3. LatentMoE 라우팅: 개선된 전문가 효율성으로 기존 오픈소스 대비 최대 6배 처리량 4. 에이전트 특화 설계: 멀티스텝 계획, 도구 호출, 추론 예산 제어 지원 5. 완전 오픈소스 (OpenMDW-1.1): 가중치·데이터·레시피 모두 공개, 25+ 플랫폼 배포

핵심 인사이트

  • 순수 Transformer가 아닌 Mamba 하이브리드 아키텍처로 100만 토큰 컨텍스트를 실용적으로 구현했다.
  • SWE-Bench Verified 71.9점은 코딩 에이전트 분야에서 오픈소스 모델 최고 수준이다.
  • 6배 추론 처리량 향상은 실제 배포 비용을 대폭 줄일 수 있어 기업 채택 가능성이 높다.
  • 에이전트 작업 특화 설계는 기존 일반 목적 LLM과 차별화된 포지셔닝 전략이다.
  • OpenMDW-1.1 완전 공개 라이선스는 연구 및 상업적 활용 모두에 유리하다.
  • NVIDIA의 자체 LLM 공개는 하드웨어 판매를 넘어 AI 생태계 주도권 확보를 목표로 한다.
  • 멀티 교사 온-폴리시 증류 방법론은 향후 소형 모델 압축에도 적용 가능성이 있다.
  • Artificial Analysis Intelligence Index 48점은 미국 오픈소스 모델 중 최고 기록이다.

이 리뷰가 유용했나요?

공유하기