Qwen 3.5 Medium 시리즈 출시: 작은 모델이 더 똑똑하다는 증명
알리바바 Qwen 팀이 2월 24일 Qwen 3.5 Medium 시리즈(27B, 35B-A3B, 122B-A10B)를 출시했다. 3B 활성 파라미터만으로 이전 세대 235B 모델을 넘어서며, MoE 아키텍처와 고품질 데이터의 조합이 규모의 시대를 효율성의 시대로 전환하고 있음을 입증했다.
알리바바 Qwen 팀이 2월 24일 Qwen 3.5 Medium 시리즈(27B, 35B-A3B, 122B-A10B)를 출시했다. 3B 활성 파라미터만으로 이전 세대 235B 모델을 넘어서며, MoE 아키텍처와 고품질 데이터의 조합이 규모의 시대를 효율성의 시대로 전환하고 있음을 입증했다.
작은 것이 강하다: Qwen 3.5 Medium의 등장
알리바바 Qwen 팀이 2026년 2월 24일 Qwen 3.5 Medium 모델 시리즈를 공개했다. Qwen3.5-27B, Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, 그리고 프로덕션용 Qwen3.5-Flash까지 네 개 모델이 동시에 출시되었다. 이번 릴리즈의 핵심 메시지는 명확하다. 더 큰 모델이 아니라, 더 효율적인 모델이 미래라는 것이다.
모델 라인업 상세
| 모델 | 총 파라미터 | 활성 파라미터 | 아키텍처 | 주요 강점 |
|---|---|---|---|---|
| Qwen3.5-27B | 27B | 27B (Dense) | Dense | 코딩, 명령 수행 |
| Qwen3.5-35B-A3B | 35B | 3B | MoE | 에이전트 태스크 |
| Qwen3.5-122B-A10B | 122B | 10B | MoE | 지식 추론, 장기 태스크 |
| Qwen3.5-Flash | 35B-A3B급 | 3B | MoE | 프로덕션 배포 |
모든 모델은 기본 100만 토큰 컨텍스트 윈도우를 지원한다. 특히 Flash 모델은 35B-A3B와 동일한 성능을 제공하면서 프로덕션 환경에 최적화되어 있다.
3B 활성 파라미터로 235B를 넘어서다
Qwen3.5-35B-A3B의 성능은 이번 릴리즈에서 가장 주목할 부분이다. 총 35B 파라미터 중 추론 시 단 3B만 활성화되지만, 이전 세대의 Qwen3-235B-A22B보다 높은 성능을 달성했다. 비전 기능을 포함한 Qwen3-VL-235B-A22B마저 넘어섰다.
이것이 가능한 이유는 세 가지다.
첫째, MoE(Mixture of Experts) 아키텍처의 고도화다. 전문가 라우팅 메커니즘이 각 입력에 가장 적합한 전문가 네트워크만 활성화해, 불필요한 연산을 제거한다.
둘째, 학습 데이터의 품질 향상이다. 알리바바는 전통적인 스케일링 대신 데이터 큐레이션에 투자했고, 이것이 적은 파라미터로도 높은 성능을 이끌어냈다.
셋째, 강화학습(RL) 최적화다. 사후 학습 단계에서의 강화학습이 모델의 추론 능력과 명령 수행 정확도를 끌어올렸다.
벤치마크 성능 분석
세 모델은 각각 다른 강점을 보인다.
| 벤치마크 | 27B | 35B-A3B | 122B-A10B | 비교 대상 |
|---|---|---|---|---|
| SWE-bench | 72.4 | - | - | GPT-5-mini (72.4) 동등 |
| IFEval | 95.0 | - | - | 시리즈 내 최고 |
| TAU2-Bench | - | 최고 | - | 에이전트 태스크 1위 |
| GPQA, MMLU-Pro | - | - | 최고 | 지식 추론 1위 |
| VITA-Bench | 41.9 | - | - | GPT-5-mini 대비 3배 |
27B Dense 모델은 코딩(SWE-bench 72.4)과 명령 수행(IFEval 95.0)에서 강점을 보이며, GPT-5-mini와 동등한 수준이다. 35B-A3B는 에이전트 태스크(TAU2-Bench)에서 시리즈 최고 성능을 기록했다. 122B-A10B는 지식 집약적 추론(GPQA, MMLU-Pro)에서 우위를 보인다.
프로덕션 환경의 '골디락스 존'
이번 Medium 시리즈가 노리는 시장은 명확하다. 클라우드 API에 의존하기엔 보안이 중요하고, 수천억 파라미터 모델을 자체 운영하기엔 인프라 비용이 부담되는 기업들이다. 27B~122B(A10B 활성) 범위의 모델은 프라이빗 클라우드나 온프레미스 환경에서도 운영 가능한 크기이면서, 프론티어급 성능을 유지한다.
네이티브 함수 호출과 API 연동을 공식 지원해, 에이전틱 워크플로우에서 별도의 프롬프트 엔지니어링 없이 멀티스텝 작업을 수행할 수 있다. Flash 모델의 100만 토큰 컨텍스트 윈도우는 대규모 문서 세트나 코드베이스를 처리할 때 RAG 파이프라인의 필요성을 줄여준다.
오픈소스 생태계에 미치는 영향
모든 모델은 Hugging Face와 ModelScope에서 오픈 웨이트로 제공된다. 이는 2월 17일 출시된 Qwen3.5-397B-A17B 플래그십 모델의 기술을 더 접근 가능한 크기로 확장한 것이다. 201개 언어와 방언을 지원하며, Alibaba Cloud Model Studio를 통한 API 접근도 가능하다.
결론
Qwen 3.5 Medium 시리즈는 AI 모델 개발의 패러다임 전환을 상징한다. 파라미터 수를 늘리는 것이 아니라, 아키텍처 효율성과 데이터 품질로 성능을 끌어올리는 접근법이 실제로 작동함을 증명했다. 특히 3B 활성 파라미터로 235B 모델을 넘어선 35B-A3B는, 로컬 배포와 비용 효율성을 중시하는 기업들에 매력적인 선택지가 될 것이다.
장점
- 3B 활성 파라미터로 235B 모델을 넘어서는 극적인 효율성 향상을 달성했다
- 27B, 35B-A3B, 122B-A10B 세 가지 크기로 다양한 배포 환경에 대응한다
- 네이티브 함수 호출과 에이전틱 워크플로우를 공식 지원한다
- 100만 토큰 컨텍스트 윈도우와 201개 언어를 기본 지원한다
- 오픈 웨이트로 공개되어 자체 인프라에서 자유롭게 배포 가능하다
단점/한계
- 벤치마크 결과는 자체 보고로, 독립적 검증이 필요하다
- 클로즈드 소스 프론티어 모델(Claude Opus, GPT-5.2) 대비 전반적 성능 격차가 존재한다
- MoE 아키텍처는 Dense 모델 대비 메모리 사용량이 크며, 전문가 라우팅의 오버헤드가 있다
참고 자료
댓글0개
주요 기능/특징
알리바바 Qwen 팀이 Qwen 3.5 Medium 시리즈(27B, 35B-A3B, 122B-A10B, Flash)를 출시했다. 35B-A3B 모델은 3B 활성 파라미터만으로 이전 세대 235B 모델을 넘어서는 성능을 달성했다. 모든 모델은 100만 토큰 컨텍스트 윈도우를 지원하며, 네이티브 함수 호출과 에이전틱 워크플로우를 공식 지원한다. Hugging Face에서 오픈 웨이트로 제공된다.
핵심 인사이트
- Qwen3.5-35B-A3B는 3B 활성 파라미터만으로 이전 세대 235B 모델(22B 활성)보다 높은 성능을 달성했다.
- MoE 아키텍처, 고품질 데이터, 강화학습의 조합이 전통적인 스케일링을 대체하고 있다.
- 27B Dense 모델은 SWE-bench 72.4로 GPT-5-mini와 동등하며, 비디오 이해(VITA-Bench)에서는 3배 우수하다.
- 27B~122B 범위는 프라이빗 클라우드/온프레미스 배포가 가능한 '골디락스 존'이다.
- 100만 토큰 컨텍스트 윈도우로 대규모 문서 처리 시 RAG 파이프라인의 필요성을 줄여준다.
- 201개 언어와 방언을 지원해 글로벌 다국어 서비스에 적합하다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Qwen 3.7-Max 공식 출시: 35시간 자율 실행, 에이전트 AI 시대의 새 기준
알리바바가 2026년 5월 20일 클라우드 서밋에서 Qwen 3.7-Max를 공식 발표했다. GPQA Diamond 92.4점, 1백만 토큰 컨텍스트, 최대 35시간 자율 실행으로 글로벌 에이전트 AI 경쟁에 새 기준을 제시했다.
xAI Grok Build 출시: 터미널 기반 AI 코딩 에이전트로 Claude Code에 도전장
xAI가 2026년 5월 14일 터미널 네이티브 AI 코딩 에이전트 'Grok Build'를 베타 출시했다. 최대 8개의 동시 에이전트, 200만 토큰 컨텍스트, ACP 지원으로 전문 개발자 시장 공략에 나섰다.
Mistral Medium 3.5 출시: 128B 오픈웨이트 모델 + 클라우드 코딩 에이전트
Mistral AI가 128B 오픈웨이트 모델 Medium 3.5(SWE-Bench 77.6%)와 클라우드 비동기 코딩 에이전트 Vibe Remote Agents를 발표했다. 4개 GPU 자체 호스팅과 수정 MIT 라이선스를 지원한다.
DeepSeek V4 Pro 심층 분석: GPT-5.5 제치는 오픈소스 코딩 괴물의 등장
DeepSeek이 2026년 4월 24일 V4 Pro를 출시했다. SWE-bench 80.6%, LiveCodeBench 93.5%로 서양 최고 모델들과 어깨를 나란히 하면서도 가격은 Claude Opus 4.7 대비 최대 35배 저렴하다.
