Qwen 3.5 Small 시리즈 출시: 9B 모델이 120B를 이기는 시대
Alibaba Qwen 팀이 0.8B부터 9B까지 4개 모델로 구성된 Qwen 3.5 Small 시리즈를 출시했다. 9B 모델이 GPQA Diamond에서 81.7%를 기록하며 OpenAI gpt-oss-120B를 능가했다. 네이티브 멀티모달과 262K 컨텍스트 윈도우를 지원하는 온디바이스 AI의 새 기준이다.
Alibaba Qwen 팀이 0.8B부터 9B까지 4개 모델로 구성된 Qwen 3.5 Small 시리즈를 출시했다. 9B 모델이 GPQA Diamond에서 81.7%를 기록하며 OpenAI gpt-oss-120B를 능가했다. 네이티브 멀티모달과 262K 컨텍스트 윈도우를 지원하는 온디바이스 AI의 새 기준이다.
16일 만에 9개 모델: Alibaba의 폭풍 출시
Alibaba Qwen 팀은 2026년 3월 2일 Qwen 3.5 Small 시리즈를 공개했다. 2월 24일 출시된 Qwen 3.5 Medium 시리즈에 이어 16일 만에 총 9개 모델을 쏟아내며, Qwen 3.5 라인업을 완성했다. Small 시리즈는 0.8B, 2B, 4B, 9B 네 가지 파라미터 크기로 구성되어 있으며, 각각 Base와 Instruct 버전이 제공된다.
모델 라인업과 용도
| 모델 | 파라미터 | 용도 | 특징 |
|---|---|---|---|
| Qwen3.5-0.8B | 8억 | IoT, 임베디드 기기 | 최소 리소스로 기본 AI 기능 |
| Qwen3.5-2B | 20억 | 모바일 앱, 경량 서비스 | 고처리량, 저지연 |
| Qwen3.5-4B | 40억 | 경량 에이전트 | 멀티모달 베이스, 262K 컨텍스트 |
| Qwen3.5-9B | 90억 | 추론/로직 중심 작업 | 플래그십, GPQA Diamond 81.7% |
핵심 성과: 9B가 120B를 능가
가장 주목할 만한 성과는 Qwen3.5-9B가 GPQA Diamond 벤치마크에서 81.7%를 기록하며, 파라미터 수가 13배 이상 많은 OpenAI gpt-oss-120B를 능가한 것이다. 이는 모델 크기가 성능의 절대적 기준이 아님을 증명하는 사례다.
VentureBeat에 따르면, 이 모델은 일반 노트북에서도 실행 가능하다. 소형 모델이 대형 모델에 필적하는 성능을 로컬 환경에서 제공할 수 있다는 것은 AI 민주화의 관점에서 중요한 진전이다.
네이티브 멀티모달: 설계부터 다른 접근
Qwen 3.5 Small 시리즈의 기술적 차별점은 네이티브 멀티모달(native multimodal) 지원이다. 이전 세대 모델들이 텍스트 모델에 비전 인코더를 별도로 연결하는 방식이었다면, Qwen 3.5 Small은 훈련 단계에서부터 멀티모달 토큰을 통합한 'early fusion' 방식을 채택했다.
이를 통해 텍스트, 이미지를 하나의 모델 내에서 자연스럽게 처리할 수 있다. 특히 Qwen3.5-4B는 262,144 토큰의 컨텍스트 윈도우를 네이티브로 지원하여, 40억 파라미터 모델로서는 이례적인 긴 문맥 처리가 가능하다.
온디바이스 AI의 실용적 의미
| 비교 항목 | 클라우드 AI | 온디바이스 AI (Qwen 3.5 Small) |
|---|---|---|
| 지연 시간 | 네트워크 의존 | 즉각 응답 |
| 프라이버시 | 데이터 외부 전송 | 로컬 처리, 데이터 유출 없음 |
| 비용 | API 호출당 과금 | 초기 설치 후 무료 |
| 오프라인 | 불가 | 가능 |
| 커스터마이징 | 제한적 | 자유로운 파인튜닝 |
0.8B 모델은 IoT 기기와 임베디드 환경에서, 2B와 4B는 모바일 앱과 경량 에이전트에서, 9B는 노트북급 하드웨어에서 추론 중심 작업에 활용될 수 있다.
오픈소스 공개 및 접근성
Qwen 3.5 Small 시리즈는 HuggingFace와 ModelScope에서 공개되었다. Instruct와 Base 버전이 모두 제공되어 즉시 사용하거나 파인튜닝할 수 있다. GitHub 저장소(QwenLM/Qwen3.5)에서 전체 코드와 문서를 확인할 수 있다.
결론: 작은 모델의 시대가 열리고 있다
Qwen 3.5 Small 시리즈는 '더 크면 더 좋다'는 AI 모델의 통념에 도전한다. 9B 모델이 120B를 능가하고, 4B 모델이 262K 컨텍스트를 지원하며, 0.8B 모델이 IoT에서 AI를 실행하는 것이 가능해졌다. 네이티브 멀티모달과 온디바이스 실행이라는 두 가지 트렌드의 교차점에서, Alibaba는 '효율적 AI'의 새로운 기준을 제시하고 있다.
장점
- 9B 모델이 120B 모델을 능가하는 뛰어난 효율성을 입증했다
- 네이티브 멀티모달 지원으로 텍스트와 이미지를 하나의 모델에서 자연스럽게 처리한다
- 0.8B-9B까지 다양한 크기로 IoT부터 노트북까지 맞춤 배포가 가능하다
- 오픈소스로 공개되어 무료 사용 및 파인튜닝이 가능하다
- 온디바이스 실행으로 프라이버시 보호와 오프라인 사용이 가능하다
단점/한계
- 소형 모델 특성상 복잡한 다단계 추론이나 창의적 글쓰기에서는 대형 모델 대비 한계가 있을 수 있다
- 중국 기업의 모델로서 일부 국가에서 사용이 제한될 가능성이 있다
- 네이티브 멀티모달이 오디오, 비디오까지 확장되지 않아 완전한 멀티모달과는 거리가 있다
참고 자료
댓글0개
주요 기능/특징
Alibaba Qwen 팀이 0.8B-9B 4개 모델로 구성된 Qwen 3.5 Small 시리즈를 출시했다. 9B 모델이 GPQA Diamond에서 81.7%를 기록하며 OpenAI gpt-oss-120B(파라미터 13배)를 능가했다. 네이티브 멀티모달(early fusion) 방식, 4B 모델의 262K 컨텍스트 윈도우, 노트북에서 실행 가능한 온디바이스 AI 지원이 핵심이다.
핵심 인사이트
- Qwen3.5-9B가 GPQA Diamond에서 81.7%로 파라미터 13배 큰 gpt-oss-120B를 능가하며, 모델 크기와 성능의 비례 관계가 깨지고 있다.
- 네이티브 멀티모달(early fusion) 방식은 기존의 비전 인코더 부착 방식보다 텍스트-이미지 통합 처리에서 더 자연스럽고 효율적이다.
- Qwen3.5-4B의 262K 컨텍스트 윈도우는 40억 파라미터 모델로서 이례적으로 긴 문맥 처리를 가능하게 한다.
- 16일간 9개 모델을 출시한 Alibaba의 속도는 중국 AI 기업들의 빠른 모델 출시 주기를 보여준다.
- 일반 노트북에서 실행 가능한 9B 모델은 클라우드 의존도를 줄이고 AI 접근성을 높인다.
- 0.8B부터 9B까지의 크기별 라인업은 IoT부터 노트북까지 다양한 하드웨어에 맞춤 배포가 가능하다.
- 오픈소스 공개로 커뮤니티 기반 파인튜닝과 확장이 가능하여 생태계 확대가 기대된다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Alibaba Qwen3.6-Plus 출시: 에이전틱 코딩에서 Claude를 위협하다
Alibaba가 에이전틱 AI 코딩에 특화된 Qwen3.6-Plus를 출시했다. Terminal-Bench 2.0에서 Claude Opus 4.5를 넘어서고, 100만 토큰 컨텍스트와 멀티모달 인식을 기본 탑재했다.
Mistral AI, $8.3억 부채 금융 조달: 13,800대 Nvidia GPU로 유럽 AI 자립 가속
프랑스 AI 스타트업 Mistral이 7개 은행에서 $8.3억 부채 금융을 확보했다. 파리 근교에 Nvidia GB300 13,800대 규모 데이터센터를 구축하며, 유럽 AI 인프라 자립에 나선다.
Mistral Voxtral TTS 출시: ElevenLabs에 도전하는 오픈소스 음성 합성 모델
Mistral AI가 4B 파라미터 오픈소스 TTS 모델 Voxtral을 출시했다. 9개 언어를 지원하며, 3초 음성 샘플로 화자 복제가 가능하고, ElevenLabs 대비 우수한 자연스러움을 보인다.
MiniMax M2.7 출시: 스스로 진화하는 AI 모델의 등장
MiniMax가 자기진화(self-evolving) 능력을 갖춘 M2.7 모델을 출시했다. SWE-Pro 56.22%, GDPval-AA 1495 ELO를 달성하며, 100회 이상 자율 최적화로 30% 성능 향상을 기록했다.
