Qwen 3.5 Medium 시리즈 출시: 작은 모델이 더 똑똑하다는 증명
알리바바 Qwen 팀이 2월 24일 Qwen 3.5 Medium 시리즈(27B, 35B-A3B, 122B-A10B)를 출시했다. 3B 활성 파라미터만으로 이전 세대 235B 모델을 넘어서며, MoE 아키텍처와 고품질 데이터의 조합이 규모의 시대를 효율성의 시대로 전환하고 있음을 입증했다.
알리바바 Qwen 팀이 2월 24일 Qwen 3.5 Medium 시리즈(27B, 35B-A3B, 122B-A10B)를 출시했다. 3B 활성 파라미터만으로 이전 세대 235B 모델을 넘어서며, MoE 아키텍처와 고품질 데이터의 조합이 규모의 시대를 효율성의 시대로 전환하고 있음을 입증했다.
작은 것이 강하다: Qwen 3.5 Medium의 등장
알리바바 Qwen 팀이 2026년 2월 24일 Qwen 3.5 Medium 모델 시리즈를 공개했다. Qwen3.5-27B, Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, 그리고 프로덕션용 Qwen3.5-Flash까지 네 개 모델이 동시에 출시되었다. 이번 릴리즈의 핵심 메시지는 명확하다. 더 큰 모델이 아니라, 더 효율적인 모델이 미래라는 것이다.
모델 라인업 상세
| 모델 | 총 파라미터 | 활성 파라미터 | 아키텍처 | 주요 강점 |
|---|---|---|---|---|
| Qwen3.5-27B | 27B | 27B (Dense) | Dense | 코딩, 명령 수행 |
| Qwen3.5-35B-A3B | 35B | 3B | MoE | 에이전트 태스크 |
| Qwen3.5-122B-A10B | 122B | 10B | MoE | 지식 추론, 장기 태스크 |
| Qwen3.5-Flash | 35B-A3B급 | 3B | MoE | 프로덕션 배포 |
모든 모델은 기본 100만 토큰 컨텍스트 윈도우를 지원한다. 특히 Flash 모델은 35B-A3B와 동일한 성능을 제공하면서 프로덕션 환경에 최적화되어 있다.
3B 활성 파라미터로 235B를 넘어서다
Qwen3.5-35B-A3B의 성능은 이번 릴리즈에서 가장 주목할 부분이다. 총 35B 파라미터 중 추론 시 단 3B만 활성화되지만, 이전 세대의 Qwen3-235B-A22B보다 높은 성능을 달성했다. 비전 기능을 포함한 Qwen3-VL-235B-A22B마저 넘어섰다.
이것이 가능한 이유는 세 가지다.
첫째, MoE(Mixture of Experts) 아키텍처의 고도화다. 전문가 라우팅 메커니즘이 각 입력에 가장 적합한 전문가 네트워크만 활성화해, 불필요한 연산을 제거한다.
둘째, 학습 데이터의 품질 향상이다. 알리바바는 전통적인 스케일링 대신 데이터 큐레이션에 투자했고, 이것이 적은 파라미터로도 높은 성능을 이끌어냈다.
셋째, 강화학습(RL) 최적화다. 사후 학습 단계에서의 강화학습이 모델의 추론 능력과 명령 수행 정확도를 끌어올렸다.
벤치마크 성능 분석
세 모델은 각각 다른 강점을 보인다.
| 벤치마크 | 27B | 35B-A3B | 122B-A10B | 비교 대상 |
|---|---|---|---|---|
| SWE-bench | 72.4 | - | - | GPT-5-mini (72.4) 동등 |
| IFEval | 95.0 | - | - | 시리즈 내 최고 |
| TAU2-Bench | - | 최고 | - | 에이전트 태스크 1위 |
| GPQA, MMLU-Pro | - | - | 최고 | 지식 추론 1위 |
| VITA-Bench | 41.9 | - | - | GPT-5-mini 대비 3배 |
27B Dense 모델은 코딩(SWE-bench 72.4)과 명령 수행(IFEval 95.0)에서 강점을 보이며, GPT-5-mini와 동등한 수준이다. 35B-A3B는 에이전트 태스크(TAU2-Bench)에서 시리즈 최고 성능을 기록했다. 122B-A10B는 지식 집약적 추론(GPQA, MMLU-Pro)에서 우위를 보인다.
프로덕션 환경의 '골디락스 존'
이번 Medium 시리즈가 노리는 시장은 명확하다. 클라우드 API에 의존하기엔 보안이 중요하고, 수천억 파라미터 모델을 자체 운영하기엔 인프라 비용이 부담되는 기업들이다. 27B~122B(A10B 활성) 범위의 모델은 프라이빗 클라우드나 온프레미스 환경에서도 운영 가능한 크기이면서, 프론티어급 성능을 유지한다.
네이티브 함수 호출과 API 연동을 공식 지원해, 에이전틱 워크플로우에서 별도의 프롬프트 엔지니어링 없이 멀티스텝 작업을 수행할 수 있다. Flash 모델의 100만 토큰 컨텍스트 윈도우는 대규모 문서 세트나 코드베이스를 처리할 때 RAG 파이프라인의 필요성을 줄여준다.
오픈소스 생태계에 미치는 영향
모든 모델은 Hugging Face와 ModelScope에서 오픈 웨이트로 제공된다. 이는 2월 17일 출시된 Qwen3.5-397B-A17B 플래그십 모델의 기술을 더 접근 가능한 크기로 확장한 것이다. 201개 언어와 방언을 지원하며, Alibaba Cloud Model Studio를 통한 API 접근도 가능하다.
결론
Qwen 3.5 Medium 시리즈는 AI 모델 개발의 패러다임 전환을 상징한다. 파라미터 수를 늘리는 것이 아니라, 아키텍처 효율성과 데이터 품질로 성능을 끌어올리는 접근법이 실제로 작동함을 증명했다. 특히 3B 활성 파라미터로 235B 모델을 넘어선 35B-A3B는, 로컬 배포와 비용 효율성을 중시하는 기업들에 매력적인 선택지가 될 것이다.
장점
- 3B 활성 파라미터로 235B 모델을 넘어서는 극적인 효율성 향상을 달성했다
- 27B, 35B-A3B, 122B-A10B 세 가지 크기로 다양한 배포 환경에 대응한다
- 네이티브 함수 호출과 에이전틱 워크플로우를 공식 지원한다
- 100만 토큰 컨텍스트 윈도우와 201개 언어를 기본 지원한다
- 오픈 웨이트로 공개되어 자체 인프라에서 자유롭게 배포 가능하다
단점/한계
- 벤치마크 결과는 자체 보고로, 독립적 검증이 필요하다
- 클로즈드 소스 프론티어 모델(Claude Opus, GPT-5.2) 대비 전반적 성능 격차가 존재한다
- MoE 아키텍처는 Dense 모델 대비 메모리 사용량이 크며, 전문가 라우팅의 오버헤드가 있다
참고 자료
댓글0개
주요 기능/특징
알리바바 Qwen 팀이 Qwen 3.5 Medium 시리즈(27B, 35B-A3B, 122B-A10B, Flash)를 출시했다. 35B-A3B 모델은 3B 활성 파라미터만으로 이전 세대 235B 모델을 넘어서는 성능을 달성했다. 모든 모델은 100만 토큰 컨텍스트 윈도우를 지원하며, 네이티브 함수 호출과 에이전틱 워크플로우를 공식 지원한다. Hugging Face에서 오픈 웨이트로 제공된다.
핵심 인사이트
- Qwen3.5-35B-A3B는 3B 활성 파라미터만으로 이전 세대 235B 모델(22B 활성)보다 높은 성능을 달성했다.
- MoE 아키텍처, 고품질 데이터, 강화학습의 조합이 전통적인 스케일링을 대체하고 있다.
- 27B Dense 모델은 SWE-bench 72.4로 GPT-5-mini와 동등하며, 비디오 이해(VITA-Bench)에서는 3배 우수하다.
- 27B~122B 범위는 프라이빗 클라우드/온프레미스 배포가 가능한 '골디락스 존'이다.
- 100만 토큰 컨텍스트 윈도우로 대규모 문서 처리 시 RAG 파이프라인의 필요성을 줄여준다.
- 201개 언어와 방언을 지원해 글로벌 다국어 서비스에 적합하다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Alibaba Qwen3.6-Plus 출시: 에이전틱 코딩에서 Claude를 위협하다
Alibaba가 에이전틱 AI 코딩에 특화된 Qwen3.6-Plus를 출시했다. Terminal-Bench 2.0에서 Claude Opus 4.5를 넘어서고, 100만 토큰 컨텍스트와 멀티모달 인식을 기본 탑재했다.
Mistral AI, $8.3억 부채 금융 조달: 13,800대 Nvidia GPU로 유럽 AI 자립 가속
프랑스 AI 스타트업 Mistral이 7개 은행에서 $8.3억 부채 금융을 확보했다. 파리 근교에 Nvidia GB300 13,800대 규모 데이터센터를 구축하며, 유럽 AI 인프라 자립에 나선다.
Mistral Voxtral TTS 출시: ElevenLabs에 도전하는 오픈소스 음성 합성 모델
Mistral AI가 4B 파라미터 오픈소스 TTS 모델 Voxtral을 출시했다. 9개 언어를 지원하며, 3초 음성 샘플로 화자 복제가 가능하고, ElevenLabs 대비 우수한 자연스러움을 보인다.
MiniMax M2.7 출시: 스스로 진화하는 AI 모델의 등장
MiniMax가 자기진화(self-evolving) 능력을 갖춘 M2.7 모델을 출시했다. SWE-Pro 56.22%, GDPval-AA 1495 ELO를 달성하며, 100회 이상 자율 최적화로 30% 성능 향상을 기록했다.
