2026.06.04
225
0
0
기타 LLMNEW

MiniMax M3 출시: 오픈웨이트 최초 100만 토큰 컨텍스트·멀티모달·코딩 삼박자

중국 AI 기업 MiniMax가 2026년 6월 1일 M3를 공개했다. SWE-Bench Pro 59.0%로 GPT-5.5를 추월한 오픈웨이트 모델로, MSA 아키텍처로 연산량을 1/20으로 줄이면서 1M 컨텍스트를 실현했다.

#MiniMax#M3#오픈웨이트#LLM#멀티모달
MiniMax M3 출시: 오픈웨이트 최초 100만 토큰 컨텍스트·멀티모달·코딩 삼박자
AI 핵심 요약

중국 AI 기업 MiniMax가 2026년 6월 1일 M3를 공개했다. SWE-Bench Pro 59.0%로 GPT-5.5를 추월한 오픈웨이트 모델로, MSA 아키텍처로 연산량을 1/20으로 줄이면서 1M 컨텍스트를 실현했다.

핵심 요약

상하이 소재 AI 기업 MiniMax가 2026년 6월 1일 MiniMax M3를 공개했다. 오픈웨이트(open-weight) 진영에서는 처음으로 프런티어급 코딩 성능, 100만(1M) 토큰 컨텍스트 윈도우, 네이티브 멀티모달을 하나의 모델에 통합했다. 코딩 벤치마크 SWE-Bench Pro에서 59.0%를 기록하며 GPT-5.5와 Gemini 3.1 Pro를 넘어섰으며, Claude Opus 4.7에 근접한다는 점도 주목받고 있다.

MiniMax Sparse Attention: 핵심 기술 혁신

M3의 가장 중요한 기술적 도약은 신규 어텐션 메커니즘인 MSA(MiniMax Sparse Attention)다. 기존 Transformer의 풀 어텐션은 시퀀스 길이가 길어질수록 연산량이 기하급수적으로 증가한다는 한계가 있다. MSA는 "관련 있는 데이터 블록만 처리"하는 방식으로 이 문제를 해결했다.

  • 연산량: 이전 모델 대비 1/20 수준으로 감소
  • 프리필 속도: 9배 이상 향상
  • 효과: 1M 컨텍스트를 현실적인 비용으로 제공 가능

이 덕분에 소설 전체, 대규모 코드 저장소, 긴 영상 등 방대한 데이터를 단일 컨텍스트에서 처리할 수 있다.

벤치마크 성능 분석

벤치마크MiniMax M3GPT-5.5Gemini 3.1 ProClaude Opus 4.7
SWE-Bench Pro59.0%하위하위상위
BrowseComp83.5--79.3
Terminal-Bench 2.166.0%---

SWE-Bench Pro는 실제 소프트웨어 엔지니어링 과제를 자동으로 해결하는 능력을 측정하는 업계 표준 벤치마크다. 59.0%는 오픈웨이트 모델 중 최고 기록이며, GPT-5.5와 Gemini 3.1 Pro보다 높다. 자율 웹 검색 능력을 평가하는 BrowseComp에서는 83.5점으로 Claude Opus 4.7(79.3)을 앞질렀다.

자율 실행 능력: 장시간 에이전트 테스트

MiniMax는 M3의 자율 실행 능력을 검증하기 위해 세 가지 내부 실험을 공개했다.

  1. 논문 재현 실험: 12시간 동안 18개 커밋으로 학술 논문의 실험을 자동 재현
  2. GPU 커널 최적화: 147회 시도 끝에 하드웨어 활용률 71.3% 달성
  3. 모델 훈련 사이클: 인간 개입 없이 모델 학습 및 평가 반복 수행

이는 M3가 단순한 응답 생성 모델을 넘어 복잡한 엔지니어링 과제를 장시간 자율적으로 수행할 수 있음을 시사한다.

멀티모달 기능

M3는 이미지와 비디오 입력을 네이티브로 지원하며, 데스크톱 컴퓨터 제어 기능도 포함된다. 텍스트 외에도 시각 정보를 직접 처리할 수 있어 UI 자동화나 코드 리뷰 시 스크린샷 분석 등 실용적인 활용이 가능하다.

오픈소스 현황과 가격

모델 가중치와 기술 보고서를 발표 후 10일 이내에 Hugging Face와 GitHub에 공개하겠다고 약속했다. 다만 훈련 코드와 추론 연산자는 미공개 상태로, 완전한 오픈소스로는 분류하기 어렵다. "오픈웨이트" 모델에 가깝다.

API 구독 가격은 Plus(월 $20, 약 17억 토큰), Max(월 $50, 약 51억 토큰), Ultra(월 $120, 약 98억 토큰)로 구성된다.

결론

MiniMax M3는 오픈웨이트 진영에서 지금까지 없었던 프런티어급 코딩+장문맥+멀티모달 조합을 처음으로 구현했다는 점에서 의미가 크다. SWE-Bench Pro에서 GPT-5.5를 넘어선 성과는 중국 오픈소스 AI의 경쟁력을 다시 한번 입증한다. 완전한 오픈소스 공개 여부와 실제 가중치 배포 시점이 최종 평가의 열쇠가 될 것이다.

장점

  • 오픈웨이트 모델 최초로 1M 컨텍스트+코딩+멀티모달 통합 구현
  • SWE-Bench Pro 59.0%로 GPT-5.5, Gemini 3.1 Pro를 넘어선 코딩 성능
  • MSA 아키텍처로 연산 효율이 1/20 수준으로 낮아져 실용적 비용으로 장문맥 처리 가능
  • 월 $20부터 시작하는 경쟁력 있는 구독 요금

단점/한계

  • 훈련 코드·추론 연산자 미공개로 완전한 오픈소스가 아닌 오픈웨이트 수준에 그침
  • 가중치 공개 약속이 '10일 내'로만 제시되어 실제 배포 시점의 불확실성이 존재
  • 자체 내부 벤치마크 일부는 독립적으로 검증되지 않았다는 지적이 있음

댓글0

주요 기능/특징

1. SWE-Bench Pro 59.0%: 오픈웨이트 모델 중 최고, GPT-5.5·Gemini 3.1 Pro 초과 2. 1M 토큰 컨텍스트: MSA 아키텍처로 연산량 1/20 줄여 실현 3. 네이티브 멀티모달: 이미지·비디오 입력 및 데스크톱 컴퓨터 제어 지원 4. 장시간 자율 실행: 12시간 논문 재현, 147회 GPU 커널 최적화 등 에이전트 능력 검증 5. 오픈웨이트 계획: 10일 내 Hugging Face·GitHub 가중치 공개 예정

핵심 인사이트

  • 1M 컨텍스트+코딩+멀티모달 삼박자를 오픈웨이트 모델이 처음으로 달성하여 프런티어 AI 접근 장벽이 낮아졌다
  • MSA 아키텍처는 Sparse Attention의 실용적 구현 가능성을 보여주며 향후 오픈소스 LLM 아키텍처 설계의 중요한 참고점이 된다
  • SWE-Bench Pro 59.0%는 자동화 소프트웨어 개발 분야에서 오픈소스 모델이 상용 모델과 경쟁 가능한 수준에 도달했음을 의미한다
  • 중국 AI 기업들(MiniMax, DeepSeek, Qwen)의 연이은 강력한 오픈소스 출시는 서방 독점 체제를 흔들고 있다
  • 훈련 코드 미공개 상태에서 '오픈웨이트'와 '오픈소스'를 명확히 구분하는 것이 AI 커뮤니티의 과제로 남는다
  • BrowseComp 83.5로 Claude Opus 4.7(79.3) 초과는 자율 웹 검색 에이전트 분야에서 오픈모델의 전진을 보여준다
  • 월 $20부터 시작하는 구독 요금은 GPT-5.5·Opus 4.7 대비 경쟁력 있는 가격 포지셔닝이다
  • 장시간 자율 실행 능력은 M3가 단순 챗봇을 넘어 엔지니어링 자동화 도구로 진화하고 있음을 시사한다

이 리뷰가 유용했나요?

공유하기