MiniMax M3 출시: 오픈웨이트 최초 100만 토큰 컨텍스트·멀티모달·코딩 삼박자
중국 AI 기업 MiniMax가 2026년 6월 1일 M3를 공개했다. SWE-Bench Pro 59.0%로 GPT-5.5를 추월한 오픈웨이트 모델로, MSA 아키텍처로 연산량을 1/20으로 줄이면서 1M 컨텍스트를 실현했다.
중국 AI 기업 MiniMax가 2026년 6월 1일 M3를 공개했다. SWE-Bench Pro 59.0%로 GPT-5.5를 추월한 오픈웨이트 모델로, MSA 아키텍처로 연산량을 1/20으로 줄이면서 1M 컨텍스트를 실현했다.
핵심 요약
상하이 소재 AI 기업 MiniMax가 2026년 6월 1일 MiniMax M3를 공개했다. 오픈웨이트(open-weight) 진영에서는 처음으로 프런티어급 코딩 성능, 100만(1M) 토큰 컨텍스트 윈도우, 네이티브 멀티모달을 하나의 모델에 통합했다. 코딩 벤치마크 SWE-Bench Pro에서 59.0%를 기록하며 GPT-5.5와 Gemini 3.1 Pro를 넘어섰으며, Claude Opus 4.7에 근접한다는 점도 주목받고 있다.
MiniMax Sparse Attention: 핵심 기술 혁신
M3의 가장 중요한 기술적 도약은 신규 어텐션 메커니즘인 MSA(MiniMax Sparse Attention)다. 기존 Transformer의 풀 어텐션은 시퀀스 길이가 길어질수록 연산량이 기하급수적으로 증가한다는 한계가 있다. MSA는 "관련 있는 데이터 블록만 처리"하는 방식으로 이 문제를 해결했다.
- 연산량: 이전 모델 대비 1/20 수준으로 감소
- 프리필 속도: 9배 이상 향상
- 효과: 1M 컨텍스트를 현실적인 비용으로 제공 가능
이 덕분에 소설 전체, 대규모 코드 저장소, 긴 영상 등 방대한 데이터를 단일 컨텍스트에서 처리할 수 있다.
벤치마크 성능 분석
| 벤치마크 | MiniMax M3 | GPT-5.5 | Gemini 3.1 Pro | Claude Opus 4.7 |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0% | 하위 | 하위 | 상위 |
| BrowseComp | 83.5 | - | - | 79.3 |
| Terminal-Bench 2.1 | 66.0% | - | - | - |
SWE-Bench Pro는 실제 소프트웨어 엔지니어링 과제를 자동으로 해결하는 능력을 측정하는 업계 표준 벤치마크다. 59.0%는 오픈웨이트 모델 중 최고 기록이며, GPT-5.5와 Gemini 3.1 Pro보다 높다. 자율 웹 검색 능력을 평가하는 BrowseComp에서는 83.5점으로 Claude Opus 4.7(79.3)을 앞질렀다.
자율 실행 능력: 장시간 에이전트 테스트
MiniMax는 M3의 자율 실행 능력을 검증하기 위해 세 가지 내부 실험을 공개했다.
- 논문 재현 실험: 12시간 동안 18개 커밋으로 학술 논문의 실험을 자동 재현
- GPU 커널 최적화: 147회 시도 끝에 하드웨어 활용률 71.3% 달성
- 모델 훈련 사이클: 인간 개입 없이 모델 학습 및 평가 반복 수행
이는 M3가 단순한 응답 생성 모델을 넘어 복잡한 엔지니어링 과제를 장시간 자율적으로 수행할 수 있음을 시사한다.
멀티모달 기능
M3는 이미지와 비디오 입력을 네이티브로 지원하며, 데스크톱 컴퓨터 제어 기능도 포함된다. 텍스트 외에도 시각 정보를 직접 처리할 수 있어 UI 자동화나 코드 리뷰 시 스크린샷 분석 등 실용적인 활용이 가능하다.
오픈소스 현황과 가격
모델 가중치와 기술 보고서를 발표 후 10일 이내에 Hugging Face와 GitHub에 공개하겠다고 약속했다. 다만 훈련 코드와 추론 연산자는 미공개 상태로, 완전한 오픈소스로는 분류하기 어렵다. "오픈웨이트" 모델에 가깝다.
API 구독 가격은 Plus(월 $20, 약 17억 토큰), Max(월 $50, 약 51억 토큰), Ultra(월 $120, 약 98억 토큰)로 구성된다.
결론
MiniMax M3는 오픈웨이트 진영에서 지금까지 없었던 프런티어급 코딩+장문맥+멀티모달 조합을 처음으로 구현했다는 점에서 의미가 크다. SWE-Bench Pro에서 GPT-5.5를 넘어선 성과는 중국 오픈소스 AI의 경쟁력을 다시 한번 입증한다. 완전한 오픈소스 공개 여부와 실제 가중치 배포 시점이 최종 평가의 열쇠가 될 것이다.
장점
- 오픈웨이트 모델 최초로 1M 컨텍스트+코딩+멀티모달 통합 구현
- SWE-Bench Pro 59.0%로 GPT-5.5, Gemini 3.1 Pro를 넘어선 코딩 성능
- MSA 아키텍처로 연산 효율이 1/20 수준으로 낮아져 실용적 비용으로 장문맥 처리 가능
- 월 $20부터 시작하는 경쟁력 있는 구독 요금
단점/한계
- 훈련 코드·추론 연산자 미공개로 완전한 오픈소스가 아닌 오픈웨이트 수준에 그침
- 가중치 공개 약속이 '10일 내'로만 제시되어 실제 배포 시점의 불확실성이 존재
- 자체 내부 벤치마크 일부는 독립적으로 검증되지 않았다는 지적이 있음
참고 자료
댓글0개
주요 기능/특징
1. SWE-Bench Pro 59.0%: 오픈웨이트 모델 중 최고, GPT-5.5·Gemini 3.1 Pro 초과 2. 1M 토큰 컨텍스트: MSA 아키텍처로 연산량 1/20 줄여 실현 3. 네이티브 멀티모달: 이미지·비디오 입력 및 데스크톱 컴퓨터 제어 지원 4. 장시간 자율 실행: 12시간 논문 재현, 147회 GPU 커널 최적화 등 에이전트 능력 검증 5. 오픈웨이트 계획: 10일 내 Hugging Face·GitHub 가중치 공개 예정
핵심 인사이트
- 1M 컨텍스트+코딩+멀티모달 삼박자를 오픈웨이트 모델이 처음으로 달성하여 프런티어 AI 접근 장벽이 낮아졌다
- MSA 아키텍처는 Sparse Attention의 실용적 구현 가능성을 보여주며 향후 오픈소스 LLM 아키텍처 설계의 중요한 참고점이 된다
- SWE-Bench Pro 59.0%는 자동화 소프트웨어 개발 분야에서 오픈소스 모델이 상용 모델과 경쟁 가능한 수준에 도달했음을 의미한다
- 중국 AI 기업들(MiniMax, DeepSeek, Qwen)의 연이은 강력한 오픈소스 출시는 서방 독점 체제를 흔들고 있다
- 훈련 코드 미공개 상태에서 '오픈웨이트'와 '오픈소스'를 명확히 구분하는 것이 AI 커뮤니티의 과제로 남는다
- BrowseComp 83.5로 Claude Opus 4.7(79.3) 초과는 자율 웹 검색 에이전트 분야에서 오픈모델의 전진을 보여준다
- 월 $20부터 시작하는 구독 요금은 GPT-5.5·Opus 4.7 대비 경쟁력 있는 가격 포지셔닝이다
- 장시간 자율 실행 능력은 M3가 단순 챗봇을 넘어 엔지니어링 자동화 도구로 진화하고 있음을 시사한다
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Qwen 3.7-Max 공식 출시: 35시간 자율 실행, 에이전트 AI 시대의 새 기준
알리바바가 2026년 5월 20일 클라우드 서밋에서 Qwen 3.7-Max를 공식 발표했다. GPQA Diamond 92.4점, 1백만 토큰 컨텍스트, 최대 35시간 자율 실행으로 글로벌 에이전트 AI 경쟁에 새 기준을 제시했다.
xAI Grok Build 출시: 터미널 기반 AI 코딩 에이전트로 Claude Code에 도전장
xAI가 2026년 5월 14일 터미널 네이티브 AI 코딩 에이전트 'Grok Build'를 베타 출시했다. 최대 8개의 동시 에이전트, 200만 토큰 컨텍스트, ACP 지원으로 전문 개발자 시장 공략에 나섰다.
Mistral Medium 3.5 출시: 128B 오픈웨이트 모델 + 클라우드 코딩 에이전트
Mistral AI가 128B 오픈웨이트 모델 Medium 3.5(SWE-Bench 77.6%)와 클라우드 비동기 코딩 에이전트 Vibe Remote Agents를 발표했다. 4개 GPU 자체 호스팅과 수정 MIT 라이선스를 지원한다.
DeepSeek V4 Pro 심층 분석: GPT-5.5 제치는 오픈소스 코딩 괴물의 등장
DeepSeek이 2026년 4월 24일 V4 Pro를 출시했다. SWE-bench 80.6%, LiveCodeBench 93.5%로 서양 최고 모델들과 어깨를 나란히 하면서도 가격은 Claude Opus 4.7 대비 최대 35배 저렴하다.
