Qwen3-Coder-Next: 80B 파라미터 중 3B만 활성화하는 초희소 코딩 모델

알리바바 Qwen 팀이 공개한 Qwen3-Coder-Next는 80B 파라미터 중 3B만 활성화하는 초희소 MoE 아키텍처로 SWE-bench 70.6%를 달성, Apache 2.0 라이선스로 공개됐다.

#Qwen#알리바바#Qwen3-Coder-Next#MoE#오픈소스

Qwen3-Coder-Next: 80B 파라미터 중 3B만 활성화하는 초희소 코딩 모델

AI 핵심 요약

알리바바 Qwen 팀이 공개한 Qwen3-Coder-Next는 80B 파라미터 중 3B만 활성화하는 초희소 MoE 아키텍처로 SWE-bench 70.6%를 달성, Apache 2.0 라이선스로 공개됐다.

알리바바, 초희소 코딩 모델 공개

알리바바 Qwen 팀이 2026년 2월 3일 Qwen3-Coder-Next를 공개했다. 80B(800억) 총 파라미터 중 순방향 패스당 3B만 활성화하는 초희소(Ultra-sparse) MoE 아키텍처를 채택해, 밀집 모델 대비 10배 높은 처리량을 달성하면서도 최고 수준의 코딩 성능을 보여준다.

아키텍처: 512개 전문가 중 11개만 활성화

사양	수치
총 파라미터	80B
활성 파라미터	3B (순방향 패스당)
전문가 수	512개
활성 전문가	10개 + 1개 공유 전문가
컨텍스트 길이	256K (기본), 1M (Yarn 확장)
지원 언어	370개 프로그래밍 언어

Gated DeltaNet, Gated Attention, MoE를 결합한 하이브리드 아키텍처로, 각 전문가의 중간 차원은 512로 설정되어 전문화와 효율성을 동시에 추구한다.

벤치마크: DeepSeek-V3.2와 Claude Opus 4.5 능가

SWE-bench 성능

모델	SWE-bench Verified	SWE-bench Pro
Qwen3-Coder-Next	70.6%	44.3%
DeepSeek-V3.2	70.2%	-
GLM-4.7	74.2%	-

보안 코드 생성

모델	SecCodeBench	CWEval (func-sec@1)
Qwen3-Coder-Next	61.2%	56.32%
Claude Opus 4.5	52.5%	-

보안 코드 생성에서 Claude Opus 4.5를 8.7%p 앞서며, 코딩 에이전트 시대에 중요한 보안 역량을 입증했다.

에이전틱 학습: 80만 검증 가능 태스크

Qwen 팀은 이 모델을 **"에이전틱 학습(Agentically Trained)"**했다고 설명한다.

80만 개 검증 가능 태스크와 실행 환경에서 학습
대규모 실행 가능 태스크 합성
환경과의 상호작용
강화학습 적용

효율성: 10배 높은 처리량

초희소 MoE 아키텍처 덕분에 동급 총 용량의 밀집 모델 대비 이론적 10배 처리량을 제공한다. 이는 특히 레포지토리 수준의 대규모 코드 작업에서 비용 효율성을 극대화한다.

장점	설명
로컬 실행	3B 활성 파라미터로 소비자급 GPU에서 실행 가능
처리량	밀집 모델 대비 10배
컨텍스트	1M 토큰으로 전체 레포 이해

라이선스와 접근성

Apache 2.0 라이선스로 공개되어 상업적 사용이 가능하며, Hugging Face에서 모델 가중치를 다운로드할 수 있다. 370개 프로그래밍 언어를 지원해 다양한 개발 환경에 적용 가능하다.

시사점: 코딩 에이전트의 새로운 선택지

Qwen3-Coder-Next는 오픈소스 코딩 모델의 새로운 이정표다. 초희소 아키텍처로 효율성과 성능을 동시에 잡았으며, 특히 보안 코드 생성에서 강점을 보여 기업 환경 도입에 매력적이다. 코딩 에이전트 시대, 로컬에서 고성능 코딩 AI를 운영하려는 개발자들에게 주목할 만한 선택지다.

장점

밀집 모델 대비 10배 높은 처리량으로 비용 효율적
3B 활성 파라미터로 소비자급 GPU에서도 실행 가능
370개 프로그래밍 언어 지원으로 범용성 확보
Apache 2.0 라이선스로 상업적 사용 완전 자유

단점/한계

GLM-4.7(74.2%) 대비 SWE-bench 점수 다소 낮음
초희소 MoE 최적화를 위한 전용 인프라 튜닝 필요
아직 Qwen3-Coder-Next 기반 생태계/도구 초기 단계

참고 자료

Qwen3-Coder-Next offers vibe coders a powerful open source model - VentureBeat Qwen Team Releases Qwen3-Coder-Next - MarkTechPost Alibaba's Qwen3-Coder-Next Activates Just 3B of 80B Parameters - WinBuzzer

댓글0개

주요 기능/특징

Qwen3-Coder-Next는 80B 총 파라미터 중 3B만 활성화하는 초희소 MoE 아키텍처를 채택한 코딩 전용 모델이다. 512개 전문가 중 11개(10+1 공유)만 활성화되어 밀집 모델 대비 10배 높은 처리량을 제공한다. SWE-bench Verified 70.6%, SecCodeBench에서 Claude Opus 4.5를 8.7%p 상회하며, Apache 2.0 라이선스로 상업적 사용이 가능하다.

핵심 인사이트

80B 파라미터 중 3B만 활성화하는 초희소 MoE로 효율성 극대화
SWE-bench Verified 70.6%로 DeepSeek-V3.2(70.2%) 상회
보안 코드 생성(SecCodeBench)에서 Claude Opus 4.5 대비 8.7%p 우위
80만 검증 가능 태스크로 에이전틱 학습, 실제 코딩 환경 최적화
1M 토큰 컨텍스트로 전체 레포지토리 수준 코드 이해 가능
Apache 2.0 라이선스로 상업적 사용 및 수정 자유

이 리뷰가 유용했나요?

관련 AI 리뷰

Mistral Large 3: 675B 파라미터 MoE 모델, Apache 2.0 라이선스로 오픈소스 혁명

NEW오픈소스

282

Mistral Large 3: 675B 파라미터 MoE 모델, Apache 2.0 라이선스로 오픈소스 혁명

Mistral AI가 675B 총 파라미터(41B 활성)의 Mixture-of-Experts 모델 Mistral Large 3를 Apache 2.0 라이선스로 공개했습니다. 256K 컨텍스트 윈도우와 멀티모달 지원을 갖추고, LMArena 코딩 리더보드 1위를 차지했습니다. 입력 $2/출력 $6 per 1M 토큰으로 GPT-5.2 성능의 92%를 15% 가격에 제공합니다.

2026.02.05

Mistral AI+11