MiniMax M2.5: Claude Opus 4.6 급 성능을 1/20 비용으로 제공하는 오픈소스 AI
중국 AI 스타트업 MiniMax가 230B MoE 아키텍처의 M2.5를 오픈소스로 공개했습니다. SWE-Bench 80.2%로 Claude Opus 4.6에 필적하면서 시간당 $1의 파격적 비용, Multi-SWE-Bench 1위(51.3%), 에이전틱 태스크 37% 속도 향상 등으로 주목받고 있습니다.
중국 AI 스타트업 MiniMax가 230B MoE 아키텍처의 M2.5를 오픈소스로 공개했습니다. SWE-Bench 80.2%로 Claude Opus 4.6에 필적하면서 시간당 $1의 파격적 비용, Multi-SWE-Bench 1위(51.3%), 에이전틱 태스크 37% 속도 향상 등으로 주목받고 있습니다.
오픈소스 AI의 새로운 가성비 왕좌
2026년 2월 11일, 중국 AI 스타트업 MiniMax가 차세대 파운데이션 모델 M2.5를 오픈소스로 공개했습니다. 230B(2,300억) 파라미터의 Mixture-of-Experts(MoE) 아키텍처를 채택한 이 모델은, 순방향 패스(forward pass)당 10B 파라미터만 활성화하여 효율성을 극대화합니다. SWE-Bench Verified에서 80.2%를 기록하며 Claude Opus 4.6에 필적하는 성능을 보이면서도, 운영 비용은 1/20에 불과합니다.
핵심 벤치마크: 코딩과 에이전트 분야 최상위
M2.5의 벤치마크 성적은 오픈소스 모델로서는 이례적인 수준입니다.
| 벤치마크 | M2.5 점수 | 비교 |
|---|---|---|
| SWE-Bench Verified | 80.2% | Claude Opus 4.6 수준 |
| Multi-SWE-Bench | 51.3% | 전체 1위 (다국어 코딩) |
| BrowseComp | 76.3% | 웹 검색/도구 활용 |
| VIBE-Pro | Opus 4.5 수준 | 복합 태스크 평가 |
Multi-SWE-Bench 1위는 특히 주목할 만합니다. Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP 등 10개 이상 프로그래밍 언어에서 훈련된 결과로, 다국어 코딩 환경에서 가장 뛰어난 성능을 입증했습니다.
가격 혁명: 시간당 $1
M2.5의 가격 정책은 파격적입니다.
| 모델 | 입력 가격 (100만 토큰) | 출력 가격 (100만 토큰) | 속도 |
|---|---|---|---|
| M2.5-Lightning | $0.30 | $2.40 | 100 tok/s |
| M2.5 | 약 $0.15 | 약 $1.20 | 50 tok/s |
| Claude Opus 4.6 (비교) | $15.00 | $75.00 | 약 50 tok/s |
100 tok/s 속도로 1시간 연속 실행해도 비용은 단 $1입니다. Claude Opus 4.6 대비 입력 기준 50배, 출력 기준 31배 저렴합니다. M2.5-Lightning은 초당 100토큰으로 다른 프론티어 모델의 거의 두 배 속도를 자랑합니다.
Forge 프레임워크: RL 스케일링의 비밀
M2.5의 성능 비결은 자체 개발한 Forge 강화학습 프레임워크에 있습니다.
1. 에이전트 스캐폴드 분리: 훈련과 에이전트 인프라를 분리하여 다양한 환경에서 독립적으로 최적화할 수 있습니다.
2. CISPO 알고리즘: 대규모 MoE 모델 훈련 시 안정성을 보장하는 커스텀 최적화 알고리즘입니다.
3. 프로세스 보상 메커니즘: 최종 결과뿐 아니라 중간 과정의 품질도 모니터링하여 학습 효율을 높입니다.
4. 40배 훈련 속도 향상: 최적화된 스케줄링으로 기존 대비 약 40배 빠른 훈련을 구현했습니다.
20만 개 이상의 실제 환경에서 훈련되었으며, 이전 모델 M2.1 대비 SWE-Bench 기준 37% 빠른 완료 속도와 20% 높은 토큰 효율성을 달성했습니다.
에이전틱 AI: 코딩을 넘어 사무 자동화로
M2.5는 순수 코딩을 넘어 에이전틱 사무 자동화 영역에서도 두각을 나타냅니다. Microsoft Word, Excel, PowerPoint 파일 생성/편집이 가능하며, 금융 모델링과 문서 편집에서 경쟁 모델 대비 59.0% 승률을 기록했습니다.
MiniMax 내부에서는 이미 전체 업무의 30%를 M2.5가 자율적으로 수행하고 있으며, 새로 커밋되는 코드의 80%가 M2.5가 생성한 것입니다.
한계와 고려사항
1. MoE 배포 복잡성: 230B 전체 파라미터를 호스팅하려면 상당한 메모리가 필요하며, 10B 활성 파라미터라 하더라도 인프라 요구사항이 만만치 않습니다.
2. 수정 MIT 라이선스: 표준 MIT가 아닌 수정된 라이선스를 사용하며, 상업적 활용 시 세부 조건 확인이 필요합니다.
3. 중국 기업 데이터 주권 이슈: 민감한 데이터를 다루는 기업의 경우 데이터 주권 관련 정책 검토가 필요할 수 있습니다.
결론: 오픈소스 AI의 가성비 혁명
MiniMax M2.5는 '프론티어 성능은 폐쇄형 모델의 전유물'이라는 공식을 깨뜨리고 있습니다. SWE-Bench 80.2%, Multi-SWE-Bench 1위라는 최상위 성능을 1/20 비용으로 제공하면서, Forge RL 프레임워크를 통한 40배 훈련 가속이라는 기술적 혁신도 함께 보여주었습니다. GLM-5, DeepSeek V4와 함께 2026년 2월 중국발 오픈소스 AI의 공세를 이끄는 핵심 모델로 자리매김하고 있습니다.
장점
- Claude Opus 4.6 급 성능(SWE-Bench 80.2%)을 1/20 비용으로 제공
- Multi-SWE-Bench 전체 1위로 다국어 코딩 최강 입증
- 100 tok/s 속도와 시간당 $1의 파격적 가성비
- 오픈소스 공개로 누구나 접근 가능
- 에이전틱 사무 자동화(Word/Excel/PPT)까지 지원
단점/한계
- 230B 전체 파라미터 호스팅에 상당한 메모리 인프라 필요
- 수정 MIT 라이선스로 상업적 활용 시 세부 조건 확인 필요
- 중국 기업 출신으로 데이터 주권 관련 정책 검토 필요
- 환각(Hallucination) 관련 독립적 벤치마크 데이터 부족
참고 자료
댓글0개
주요 기능/특징
MiniMax M2.5는 230B MoE 아키텍처(10B 활성 파라미터)의 오픈소스 AI 모델로, SWE-Bench Verified 80.2%로 Claude Opus 4.6에 필적하면서 비용은 1/20 수준입니다. Multi-SWE-Bench 51.3%로 전체 1위를 기록했으며, 자체 Forge RL 프레임워크로 40배 훈련 가속을 달성했습니다. M2.5-Lightning은 100 tok/s로 시간당 $1의 파격적 비용을 제공하며, Word/Excel/PPT 자동화 등 에이전틱 사무 기능에서도 59.0% 승률을 보여줍니다.
핵심 인사이트
- 230B MoE 아키텍처에서 10B 파라미터만 활성화하여 효율성과 성능을 동시 달성
- SWE-Bench Verified 80.2%로 Claude Opus 4.6에 필적하면서 비용은 1/20 수준
- Multi-SWE-Bench 51.3%로 전체 1위, 10개 이상 프로그래밍 언어 지원
- M2.5-Lightning은 100 tok/s로 프론티어 모델의 두 배 속도, 시간당 $1 비용
- 자체 Forge RL 프레임워크와 CISPO 알고리즘으로 40배 훈련 속도 향상
- MiniMax 내부에서 전체 업무 30%를 자율 수행, 신규 코드의 80%를 M2.5가 생성
- Word/Excel/PPT 자동화 등 에이전틱 사무 기능에서 경쟁 모델 대비 59.0% 승률
- GLM-5, DeepSeek V4와 함께 2026년 2월 중국발 오픈소스 AI 공세의 핵심 모델
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Google Gemma 4 출시: Apache 2.0 라이선스로 전환한 최강 오픈 모델
Google DeepMind가 Gemini 3 기반의 오픈 모델 Gemma 4를 Apache 2.0 라이선스로 출시했다. 31B 모델이 오픈 모델 Arena AI 3위에 올랐고, 2B 모델은 라즈베리파이에서도 구동된다.
Karpathy의 autoresearch: GPU 1개로 밤새 100개 AI 실험을 자동 실행
전 Tesla AI 디렉터 Andrej Karpathy가 오픈소스 프로젝트 autoresearch를 공개했다. 630줄 Python 코드로 AI 에이전트가 단일 GPU에서 밤새 자율적으로 ML 실험을 반복하며, 공개 며칠 만에 GitHub 8,000 스타를 달성했다.
AI2 Olmo Hybrid 7B: 트랜스포머와 RNN을 결합한 완전 오픈소스 LLM
Allen Institute for AI(AI2)가 Olmo Hybrid 7B를 Apache 2.0 라이선스로 공개했다. 트랜스포머 어텐션과 gated DeltaNet을 결합한 하이브리드 아키텍처로, Olmo 3 대비 2배의 데이터 효율성과 75% 향상된 장문맥 추론 효율성을 달성했다.
Guide Labs Steerling-8B 오픈소스 공개: AI 블랙박스 문제를 해결하는 해석 가능한 LLM
Y Combinator 출신 스타트업 Guide Labs가 2026년 2월 23일 Steerling-8B을 오픈소스로 공개했다. 모든 출력 토큰을 학습 데이터 원본까지 추적할 수 있는 최초의 상용급 해석 가능한 LLM으로, 기존 모델 성능의 90%를 유지한다.
