Qwen 3.5 Small 시리즈 출시: 9B 모델이 120B를 이기는 시대
Alibaba Qwen 팀이 0.8B부터 9B까지 4개 모델로 구성된 Qwen 3.5 Small 시리즈를 출시했다. 9B 모델이 GPQA Diamond에서 81.7%를 기록하며 OpenAI gpt-oss-120B를 능가했다. 네이티브 멀티모달과 262K 컨텍스트 윈도우를 지원하는 온디바이스 AI의 새 기준이다.
Alibaba Qwen 팀이 0.8B부터 9B까지 4개 모델로 구성된 Qwen 3.5 Small 시리즈를 출시했다. 9B 모델이 GPQA Diamond에서 81.7%를 기록하며 OpenAI gpt-oss-120B를 능가했다. 네이티브 멀티모달과 262K 컨텍스트 윈도우를 지원하는 온디바이스 AI의 새 기준이다.
16일 만에 9개 모델: Alibaba의 폭풍 출시
Alibaba Qwen 팀은 2026년 3월 2일 Qwen 3.5 Small 시리즈를 공개했다. 2월 24일 출시된 Qwen 3.5 Medium 시리즈에 이어 16일 만에 총 9개 모델을 쏟아내며, Qwen 3.5 라인업을 완성했다. Small 시리즈는 0.8B, 2B, 4B, 9B 네 가지 파라미터 크기로 구성되어 있으며, 각각 Base와 Instruct 버전이 제공된다.
모델 라인업과 용도
| 모델 | 파라미터 | 용도 | 특징 |
|---|---|---|---|
| Qwen3.5-0.8B | 8억 | IoT, 임베디드 기기 | 최소 리소스로 기본 AI 기능 |
| Qwen3.5-2B | 20억 | 모바일 앱, 경량 서비스 | 고처리량, 저지연 |
| Qwen3.5-4B | 40억 | 경량 에이전트 | 멀티모달 베이스, 262K 컨텍스트 |
| Qwen3.5-9B | 90억 | 추론/로직 중심 작업 | 플래그십, GPQA Diamond 81.7% |
핵심 성과: 9B가 120B를 능가
가장 주목할 만한 성과는 Qwen3.5-9B가 GPQA Diamond 벤치마크에서 81.7%를 기록하며, 파라미터 수가 13배 이상 많은 OpenAI gpt-oss-120B를 능가한 것이다. 이는 모델 크기가 성능의 절대적 기준이 아님을 증명하는 사례다.
VentureBeat에 따르면, 이 모델은 일반 노트북에서도 실행 가능하다. 소형 모델이 대형 모델에 필적하는 성능을 로컬 환경에서 제공할 수 있다는 것은 AI 민주화의 관점에서 중요한 진전이다.
네이티브 멀티모달: 설계부터 다른 접근
Qwen 3.5 Small 시리즈의 기술적 차별점은 네이티브 멀티모달(native multimodal) 지원이다. 이전 세대 모델들이 텍스트 모델에 비전 인코더를 별도로 연결하는 방식이었다면, Qwen 3.5 Small은 훈련 단계에서부터 멀티모달 토큰을 통합한 'early fusion' 방식을 채택했다.
이를 통해 텍스트, 이미지를 하나의 모델 내에서 자연스럽게 처리할 수 있다. 특히 Qwen3.5-4B는 262,144 토큰의 컨텍스트 윈도우를 네이티브로 지원하여, 40억 파라미터 모델로서는 이례적인 긴 문맥 처리가 가능하다.
온디바이스 AI의 실용적 의미
| 비교 항목 | 클라우드 AI | 온디바이스 AI (Qwen 3.5 Small) |
|---|---|---|
| 지연 시간 | 네트워크 의존 | 즉각 응답 |
| 프라이버시 | 데이터 외부 전송 | 로컬 처리, 데이터 유출 없음 |
| 비용 | API 호출당 과금 | 초기 설치 후 무료 |
| 오프라인 | 불가 | 가능 |
| 커스터마이징 | 제한적 | 자유로운 파인튜닝 |
0.8B 모델은 IoT 기기와 임베디드 환경에서, 2B와 4B는 모바일 앱과 경량 에이전트에서, 9B는 노트북급 하드웨어에서 추론 중심 작업에 활용될 수 있다.
오픈소스 공개 및 접근성
Qwen 3.5 Small 시리즈는 HuggingFace와 ModelScope에서 공개되었다. Instruct와 Base 버전이 모두 제공되어 즉시 사용하거나 파인튜닝할 수 있다. GitHub 저장소(QwenLM/Qwen3.5)에서 전체 코드와 문서를 확인할 수 있다.
결론: 작은 모델의 시대가 열리고 있다
Qwen 3.5 Small 시리즈는 '더 크면 더 좋다'는 AI 모델의 통념에 도전한다. 9B 모델이 120B를 능가하고, 4B 모델이 262K 컨텍스트를 지원하며, 0.8B 모델이 IoT에서 AI를 실행하는 것이 가능해졌다. 네이티브 멀티모달과 온디바이스 실행이라는 두 가지 트렌드의 교차점에서, Alibaba는 '효율적 AI'의 새로운 기준을 제시하고 있다.
장점
- 9B 모델이 120B 모델을 능가하는 뛰어난 효율성을 입증했다
- 네이티브 멀티모달 지원으로 텍스트와 이미지를 하나의 모델에서 자연스럽게 처리한다
- 0.8B-9B까지 다양한 크기로 IoT부터 노트북까지 맞춤 배포가 가능하다
- 오픈소스로 공개되어 무료 사용 및 파인튜닝이 가능하다
- 온디바이스 실행으로 프라이버시 보호와 오프라인 사용이 가능하다
단점/한계
- 소형 모델 특성상 복잡한 다단계 추론이나 창의적 글쓰기에서는 대형 모델 대비 한계가 있을 수 있다
- 중국 기업의 모델로서 일부 국가에서 사용이 제한될 가능성이 있다
- 네이티브 멀티모달이 오디오, 비디오까지 확장되지 않아 완전한 멀티모달과는 거리가 있다
참고 자료
댓글0개
주요 기능/특징
Alibaba Qwen 팀이 0.8B-9B 4개 모델로 구성된 Qwen 3.5 Small 시리즈를 출시했다. 9B 모델이 GPQA Diamond에서 81.7%를 기록하며 OpenAI gpt-oss-120B(파라미터 13배)를 능가했다. 네이티브 멀티모달(early fusion) 방식, 4B 모델의 262K 컨텍스트 윈도우, 노트북에서 실행 가능한 온디바이스 AI 지원이 핵심이다.
핵심 인사이트
- Qwen3.5-9B가 GPQA Diamond에서 81.7%로 파라미터 13배 큰 gpt-oss-120B를 능가하며, 모델 크기와 성능의 비례 관계가 깨지고 있다.
- 네이티브 멀티모달(early fusion) 방식은 기존의 비전 인코더 부착 방식보다 텍스트-이미지 통합 처리에서 더 자연스럽고 효율적이다.
- Qwen3.5-4B의 262K 컨텍스트 윈도우는 40억 파라미터 모델로서 이례적으로 긴 문맥 처리를 가능하게 한다.
- 16일간 9개 모델을 출시한 Alibaba의 속도는 중국 AI 기업들의 빠른 모델 출시 주기를 보여준다.
- 일반 노트북에서 실행 가능한 9B 모델은 클라우드 의존도를 줄이고 AI 접근성을 높인다.
- 0.8B부터 9B까지의 크기별 라인업은 IoT부터 노트북까지 다양한 하드웨어에 맞춤 배포가 가능하다.
- 오픈소스 공개로 커뮤니티 기반 파인튜닝과 확장이 가능하여 생태계 확대가 기대된다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Qwen 3.7-Max 공식 출시: 35시간 자율 실행, 에이전트 AI 시대의 새 기준
알리바바가 2026년 5월 20일 클라우드 서밋에서 Qwen 3.7-Max를 공식 발표했다. GPQA Diamond 92.4점, 1백만 토큰 컨텍스트, 최대 35시간 자율 실행으로 글로벌 에이전트 AI 경쟁에 새 기준을 제시했다.
xAI Grok Build 출시: 터미널 기반 AI 코딩 에이전트로 Claude Code에 도전장
xAI가 2026년 5월 14일 터미널 네이티브 AI 코딩 에이전트 'Grok Build'를 베타 출시했다. 최대 8개의 동시 에이전트, 200만 토큰 컨텍스트, ACP 지원으로 전문 개발자 시장 공략에 나섰다.
Mistral Medium 3.5 출시: 128B 오픈웨이트 모델 + 클라우드 코딩 에이전트
Mistral AI가 128B 오픈웨이트 모델 Medium 3.5(SWE-Bench 77.6%)와 클라우드 비동기 코딩 에이전트 Vibe Remote Agents를 발표했다. 4개 GPU 자체 호스팅과 수정 MIT 라이선스를 지원한다.
DeepSeek V4 Pro 심층 분석: GPT-5.5 제치는 오픈소스 코딩 괴물의 등장
DeepSeek이 2026년 4월 24일 V4 Pro를 출시했다. SWE-bench 80.6%, LiveCodeBench 93.5%로 서양 최고 모델들과 어깨를 나란히 하면서도 가격은 Claude Opus 4.7 대비 최대 35배 저렴하다.
