DeepSeek R2 출시: 32B 오픈웨이트로 AIME 92.7% 달성
중국 AI 스타트업 DeepSeek이 32B 파라미터 오픈웨이트 추론 모델 R2를 출시했다. MIT 라이선스로 RTX 4090 단일 GPU에서 실행 가능하며, AIME 2025에서 92.7%를 기록해 서방 최고급 모델과 경쟁한다.
중국 AI 스타트업 DeepSeek이 32B 파라미터 오픈웨이트 추론 모델 R2를 출시했다. MIT 라이선스로 RTX 4090 단일 GPU에서 실행 가능하며, AIME 2025에서 92.7%를 기록해 서방 최고급 모델과 경쟁한다.
DeepSeek R2 출시: 소비자 GPU 하나로 최고 수준 추론 모델 실행
DeepSeek이 2026년 4월 오픈웨이트 추론 모델 R2를 공개했다. 32B(320억) 파라미터의 밀집(dense) 트랜스포머 구조로 MIT 라이선스 하에 배포되며, 단일 RTX 4090 또는 A6000 GPU에서 실행할 수 있다.
핵심 성능: AIME 92.7%
R2의 가장 주목할 성과는 수학 추론 벤치마크인 AIME 2025에서 92.7%를 기록한 것이다. AIME 15문제 중 약 14문제를 정확히 풀어내는 수준으로, 전작 R1이 같은 벤치마크에서 74%에 머물렀던 것과 비교하면 대폭 향상된 수치다. MATH-500에서도 89.4%를 달성해 OpenAI의 o3와 대등한 성능을 보인다.
기술 구조: GRPO 강화학습 고도화
R2는 모델 규모를 키우는 대신 사후학습(post-training)에 집중한 설계 철학을 따른다. DeepSeek이 R1에서 도입한 GRPO(Group Relative Policy Optimization) 강화학습 파이프라인을 정교하게 개선해, 32B의 비교적 작은 파라미터로도 높은 추론 능력을 이끌어냈다. 이는 "더 크게 만들면 더 똑똑해진다"는 기존 스케일링 법칙에 도전하는 방식이다.
가격 경쟁력: 서방 API 대비 70% 저렴
DeepSeek은 R2 API 가격을 서방 주요 추론 모델 대비 약 70% 낮게 책정했다. 이 가격 구조는 오픈소스 활용자와 기업 모두에게 매력적인 선택지를 제공한다. 동시에 MIT 라이선스로 로컬 실행이 가능해, API 비용 없이 직접 모델을 운영하는 것도 허용된다.
하드웨어 요구사항
R2는 24GB VRAM을 갖춘 단일 소비자용 GPU에서 실행할 수 있도록 설계됐다. RTX 4090 또는 RTX 3090 Ti, 전문가용 A6000 계열 GPU가 대표적인 실행 환경이다. 고급 서버 클러스터 없이도 로컬 추론이 가능하다는 점은 소규모 팀이나 개인 연구자에게 실질적인 기회를 열어준다.
기업 투자 유치: $10억 이상 밸류에이션
DeepSeek은 R2 출시와 함께 $10억 이상의 밸류에이션으로 첫 외부 투자 라운드를 진행 중이라고 알려졌다. 그동안 자체 자금으로 운영해온 DeepSeek이 외부 투자를 검토한다는 것은 상업적 확장 의지를 시사한다.
장단점 분석
장점:
- 소비자 GPU 단일 장비에서 실행 가능한 최고 수준 추론 모델
- MIT 라이선스로 상업적 사용 및 파인튜닝 자유
- API 가격이 서방 모델 대비 70% 저렴
- AIME 92.7%로 수학·과학 추론에서 검증된 성능
단점:
- 중국 기업 모델로 데이터 주권 및 컴플라이언스 우려 존재
- 영어 외 언어 성능 및 비수학 도메인 검증 제한적
- 최신 모델 정보가 실시간으로 검증되지 않은 부분 존재
시장 전망
R2의 등장은 "어떤 모델이 가장 스마트한가"에서 "감당할 수 있는 가격에서 충분히 스마트한 모델은 무엇인가"로 시장의 질문을 바꾼다. 32B 오픈웨이트로 프론티어급 추론 성능을 구현한 R2는 추론 AI 시장의 가격 경쟁을 더욱 가속화할 것으로 예상된다.
결론
DeepSeek R2는 소규모 하드웨어에서도 최고 수준 수학·과학 추론이 필요한 연구자와 개발자에게 적합하다. 특히 비용 제약이 있는 스타트업이나 학술 기관에서 RTX 4090급 GPU로 프론티어급 추론을 구현하려 한다면 최우선 검토 대상이다.
장점
- 단일 소비자 GPU에서 실행 가능한 최고 수준 수학·과학 추론 성능
- MIT 라이선스로 상업적 사용 및 파인튜닝 완전 허용
- 서방 경쟁 API 대비 70% 낮은 가격으로 비용 효율적 운영 가능
- AIME 92.7% 등 주요 수학 벤치마크에서 객관적으로 검증된 성능
단점/한계
- 중국 기업 모델로 일부 기업 환경에서 데이터 주권 및 컴플라이언스 제약 가능
- 비수학·비과학 도메인에서의 성능 검증이 수학 벤치마크 대비 제한적
- 영어 중심 사후학습으로 한국어 등 비영어 성능 별도 검증 필요
참고 자료
댓글0개
주요 기능/특징
1. AIME 2025에서 92.7% 달성 — 수학 추론 업계 최고 수준 2. 32B 밀집 트랜스포머, 단일 24GB GPU(RTX 4090)에서 실행 가능 3. MIT 라이선스 오픈웨이트 — 상업적 사용, 파인튜닝, 로컬 배포 자유 4. GRPO 강화학습 사후학습 고도화로 소규모 파라미터 대비 고성능 구현 5. API 가격이 서방 동급 추론 모델 대비 약 70% 저렴
핵심 인사이트
- 32B 파라미터로 AIME 92.7%를 달성해 대형 모델 없이도 최고 추론 성능 구현이 가능함을 입증했다.
- GRPO 강화학습 고도화는 스케일 대신 학습 효율성으로 성능을 끌어올리는 새 접근법이다.
- MIT 라이선스 채택은 오픈소스 생태계와 상업 활용 모두를 포괄하는 전략적 선택이다.
- 소비자 GPU 실행 가능 설계는 고가 인프라 없이도 최고 추론 능력을 민주화한다.
- API 가격 70% 인하는 서방 프론티어 모델 시장의 가격 경쟁을 심화시킨다.
- 첫 외부 투자 라운드 진행은 DeepSeek의 상업적 규모 확장 의지를 나타낸다.
- R1(74%) 대비 R2(92.7%)의 AIME 점수 약 19%p 향상은 강화학습 사후학습 효과를 확인해준다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
MiniMax M3 출시: 오픈웨이트 최초 100만 토큰 컨텍스트·멀티모달·코딩 삼박자
중국 AI 기업 MiniMax가 2026년 6월 1일 M3를 공개했다. SWE-Bench Pro 59.0%로 GPT-5.5를 추월한 오픈웨이트 모델로, MSA 아키텍처로 연산량을 1/20으로 줄이면서 1M 컨텍스트를 실현했다.
Qwen 3.7-Max 공식 출시: 35시간 자율 실행, 에이전트 AI 시대의 새 기준
알리바바가 2026년 5월 20일 클라우드 서밋에서 Qwen 3.7-Max를 공식 발표했다. GPQA Diamond 92.4점, 1백만 토큰 컨텍스트, 최대 35시간 자율 실행으로 글로벌 에이전트 AI 경쟁에 새 기준을 제시했다.
xAI Grok Build 출시: 터미널 기반 AI 코딩 에이전트로 Claude Code에 도전장
xAI가 2026년 5월 14일 터미널 네이티브 AI 코딩 에이전트 'Grok Build'를 베타 출시했다. 최대 8개의 동시 에이전트, 200만 토큰 컨텍스트, ACP 지원으로 전문 개발자 시장 공략에 나섰다.
Mistral Medium 3.5 출시: 128B 오픈웨이트 모델 + 클라우드 코딩 에이전트
Mistral AI가 128B 오픈웨이트 모델 Medium 3.5(SWE-Bench 77.6%)와 클라우드 비동기 코딩 에이전트 Vibe Remote Agents를 발표했다. 4개 GPU 자체 호스팅과 수정 MIT 라이선스를 지원한다.
