Qwen3-Coder-Next: 80B 파라미터 중 3B만 활성화하는 초희소 코딩 모델
알리바바 Qwen 팀이 공개한 Qwen3-Coder-Next는 80B 파라미터 중 3B만 활성화하는 초희소 MoE 아키텍처로 SWE-bench 70.6%를 달성, Apache 2.0 라이선스로 공개됐다.
알리바바 Qwen 팀이 공개한 Qwen3-Coder-Next는 80B 파라미터 중 3B만 활성화하는 초희소 MoE 아키텍처로 SWE-bench 70.6%를 달성, Apache 2.0 라이선스로 공개됐다.
알리바바, 초희소 코딩 모델 공개
알리바바 Qwen 팀이 2026년 2월 3일 Qwen3-Coder-Next를 공개했다. 80B(800억) 총 파라미터 중 순방향 패스당 3B만 활성화하는 초희소(Ultra-sparse) MoE 아키텍처를 채택해, 밀집 모델 대비 10배 높은 처리량을 달성하면서도 최고 수준의 코딩 성능을 보여준다.
아키텍처: 512개 전문가 중 11개만 활성화
| 사양 | 수치 |
|---|---|
| 총 파라미터 | 80B |
| 활성 파라미터 | 3B (순방향 패스당) |
| 전문가 수 | 512개 |
| 활성 전문가 | 10개 + 1개 공유 전문가 |
| 컨텍스트 길이 | 256K (기본), 1M (Yarn 확장) |
| 지원 언어 | 370개 프로그래밍 언어 |
Gated DeltaNet, Gated Attention, MoE를 결합한 하이브리드 아키텍처로, 각 전문가의 중간 차원은 512로 설정되어 전문화와 효율성을 동시에 추구한다.
벤치마크: DeepSeek-V3.2와 Claude Opus 4.5 능가
SWE-bench 성능
| 모델 | SWE-bench Verified | SWE-bench Pro |
|---|---|---|
| Qwen3-Coder-Next | 70.6% | 44.3% |
| DeepSeek-V3.2 | 70.2% | - |
| GLM-4.7 | 74.2% | - |
보안 코드 생성
| 모델 | SecCodeBench | CWEval (func-sec@1) |
|---|---|---|
| Qwen3-Coder-Next | 61.2% | 56.32% |
| Claude Opus 4.5 | 52.5% | - |
보안 코드 생성에서 Claude Opus 4.5를 8.7%p 앞서며, 코딩 에이전트 시대에 중요한 보안 역량을 입증했다.
에이전틱 학습: 80만 검증 가능 태스크
Qwen 팀은 이 모델을 **"에이전틱 학습(Agentically Trained)"**했다고 설명한다.
- 80만 개 검증 가능 태스크와 실행 환경에서 학습
- 대규모 실행 가능 태스크 합성
- 환경과의 상호작용
- 강화학습 적용
효율성: 10배 높은 처리량
초희소 MoE 아키텍처 덕분에 동급 총 용량의 밀집 모델 대비 이론적 10배 처리량을 제공한다. 이는 특히 레포지토리 수준의 대규모 코드 작업에서 비용 효율성을 극대화한다.
| 장점 | 설명 |
|---|---|
| 로컬 실행 | 3B 활성 파라미터로 소비자급 GPU에서 실행 가능 |
| 처리량 | 밀집 모델 대비 10배 |
| 컨텍스트 | 1M 토큰으로 전체 레포 이해 |
라이선스와 접근성
Apache 2.0 라이선스로 공개되어 상업적 사용이 가능하며, Hugging Face에서 모델 가중치를 다운로드할 수 있다. 370개 프로그래밍 언어를 지원해 다양한 개발 환경에 적용 가능하다.
시사점: 코딩 에이전트의 새로운 선택지
Qwen3-Coder-Next는 오픈소스 코딩 모델의 새로운 이정표다. 초희소 아키텍처로 효율성과 성능을 동시에 잡았으며, 특히 보안 코드 생성에서 강점을 보여 기업 환경 도입에 매력적이다. 코딩 에이전트 시대, 로컬에서 고성능 코딩 AI를 운영하려는 개발자들에게 주목할 만한 선택지다.
장점
- 밀집 모델 대비 10배 높은 처리량으로 비용 효율적
- 3B 활성 파라미터로 소비자급 GPU에서도 실행 가능
- 370개 프로그래밍 언어 지원으로 범용성 확보
- Apache 2.0 라이선스로 상업적 사용 완전 자유
단점/한계
- GLM-4.7(74.2%) 대비 SWE-bench 점수 다소 낮음
- 초희소 MoE 최적화를 위한 전용 인프라 튜닝 필요
- 아직 Qwen3-Coder-Next 기반 생태계/도구 초기 단계
참고 자료
댓글0개
주요 기능/특징
Qwen3-Coder-Next는 80B 총 파라미터 중 3B만 활성화하는 초희소 MoE 아키텍처를 채택한 코딩 전용 모델이다. 512개 전문가 중 11개(10+1 공유)만 활성화되어 밀집 모델 대비 10배 높은 처리량을 제공한다. SWE-bench Verified 70.6%, SecCodeBench에서 Claude Opus 4.5를 8.7%p 상회하며, Apache 2.0 라이선스로 상업적 사용이 가능하다.
핵심 인사이트
- 80B 파라미터 중 3B만 활성화하는 초희소 MoE로 효율성 극대화
- SWE-bench Verified 70.6%로 DeepSeek-V3.2(70.2%) 상회
- 보안 코드 생성(SecCodeBench)에서 Claude Opus 4.5 대비 8.7%p 우위
- 80만 검증 가능 태스크로 에이전틱 학습, 실제 코딩 환경 최적화
- 1M 토큰 컨텍스트로 전체 레포지토리 수준 코드 이해 가능
- Apache 2.0 라이선스로 상업적 사용 및 수정 자유
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Mistral Large 3: 675B 파라미터 MoE 모델, Apache 2.0 라이선스로 오픈소스 혁명
Mistral AI가 675B 총 파라미터(41B 활성)의 Mixture-of-Experts 모델 Mistral Large 3를 Apache 2.0 라이선스로 공개했습니다. 256K 컨텍스트 윈도우와 멀티모달 지원을 갖추고, LMArena 코딩 리더보드 1위를 차지했습니다. 입력 $2/출력 $6 per 1M 토큰으로 GPT-5.2 성능의 92%를 15% 가격에 제공합니다.
SERA: 400달러로 나만의 코딩 에이전트를 만드는 Ai2의 혁신
Allen Institute for AI가 공개한 SERA는 SWE-Bench에서 54.2%를 달성하면서도 단 400달러로 재현 가능한 오픈소스 코딩 에이전트입니다. 프라이빗 코드베이스 특화 기능이 게임체인저가 될 전망입니다.
OpenCode: 7만 GitHub 스타, 65만 개발자가 선택한 오픈소스 AI 코딩 어시스턴트
Cursor와 Claude Code의 오픈소스 대안으로 떠오른 OpenCode가 개발자들의 뜨거운 관심을 받고 있습니다. Claude, GPT, Gemini는 물론 로컬 모델까지 자유롭게 선택할 수 있는 완전 오픈소스 솔루션의 강력함을 분석합니다.
NVIDIA Nemotron 3 Nano 심층 분석: 에이전트 AI를 위한 오픈소스 혁신
NVIDIA가 공개한 Nemotron 3 Nano는 30B 파라미터 중 3.5B만 활성화하는 하이브리드 MoE 아키텍처로, 에이전트 AI 개발에 최적화된 오픈소스 모델이다. 100만 토큰 컨텍스트와 뛰어난 추론 성능이 특징이다.
