Qwen3.5: 397B MoE로 에이전틱 AI 시대를 여는 알리바바의 승부수
알리바바가 2026년 2월 16일 Qwen3.5를 공개했습니다. 397B 파라미터 중 17B만 활성화하는 MoE 아키텍처로 60% 비용 절감과 8배 처리량 향상을 달성하며, 201개 언어 지원, 네이티브 멀티모달, 비주얼 에이전틱 기능까지 갖춘 오픈소스 모델입니다.
알리바바가 2026년 2월 16일 Qwen3.5를 공개했습니다. 397B 파라미터 중 17B만 활성화하는 MoE 아키텍처로 60% 비용 절감과 8배 처리량 향상을 달성하며, 201개 언어 지원, 네이티브 멀티모달, 비주얼 에이전틱 기능까지 갖춘 오픈소스 모델입니다.
에이전틱 AI 시대를 위한 차세대 모델
2026년 2월 16일, 알리바바 클라우드의 Qwen 팀이 Qwen3.5를 공식 발표했습니다. 'Agentic AI 시대를 위해 설계된 모델'이라는 슬로건 아래, 397B(3,970억) 파라미터의 Mixture-of-Experts(MoE) 아키텍처를 채택하면서도 토큰당 17B만 활성화하는 효율적인 구조를 갖추었습니다. Apache 2.0 라이선스로 공개되어 상업적 활용에 제약이 없습니다.
핵심 벤치마크: 프론티어 모델에 도전
Qwen3.5의 벤치마크 성적은 자체 평가 기준으로 미국 주요 모델들과 경쟁하는 수준입니다.
| 벤치마크 | Qwen3.5 점수 | 평가 영역 |
|---|---|---|
| MMLU-Pro | 87.8 | 종합 지식 |
| LiveCodeBench v6 | 83.6 | 경쟁 프로그래밍 |
| AIME26 | 91.3 | 올림피아드 수학 |
| MathVista | 90.3 | 수학 시각 추론 |
| MMMU | 85.0 | 멀티모달 이해 |
| BFCL-V4 | 72.9 | 함수 호출 |
알리바바는 Qwen3.5가 GPT-5.2, Claude Opus 4.5, Gemini 3 Pro 대비 평가 카테고리의 80%에서 우위를 보인다고 발표했습니다. 다만 이는 자체 보고 수치로, 독립적인 제3자 검증이 필요한 상황입니다.
네이티브 멀티모달: 텍스트, 이미지, 비디오 통합 처리
Qwen3.5의 가장 큰 진화는 네이티브 멀티모달 통합입니다. 기존 모델들이 텍스트와 비전을 별도 모듈로 처리하는 것과 달리, Qwen3.5는 Early Fusion 아키텍처를 채택하여 576개의 이미지 토큰을 트랜스포머 첫 번째 레이어에 직접 주입합니다.
이미지 처리: 최대 1,344x1,344 픽셀 해상도의 이미지 분석이 가능하며, UI 스크린샷의 요소 감지와 상호작용까지 지원합니다.
비디오 처리: 8 FPS로 최대 60초 분량의 비디오 클립을 처리할 수 있어, 영상 속 객체와 이벤트를 이해하고 설명할 수 있습니다.
비주얼 에이전틱 기능: 화면을 보고 직접 조작
Qwen3.5의 차별화 포인트는 비주얼 에이전틱 기능입니다. 모바일과 데스크톱 앱의 화면을 인식하고, 스스로 클릭/입력 등의 동작을 수행할 수 있습니다. 이는 단순한 텍스트 생성을 넘어 실질적인 작업 자동화를 가능하게 합니다.
201개 언어 지원과 확장된 컨텍스트
어휘 사전이 152K에서 250K 토큰으로 확장되었고, 지원 언어는 82개에서 201개 언어 및 방언으로 대폭 늘어났습니다. 기본 컨텍스트 윈도우는 262,144 토큰이며, Qwen3.5-Plus 호스팅 버전은 100만 토큰 컨텍스트를 지원합니다.
비용과 효율성: 60% 절감, 8배 처리량
Qwen3.5는 전작 대비 60% 낮은 추론 비용과 8배 높은 처리량을 달성했습니다. 100만 토큰 컨텍스트 기준 약 $0.18의 비용이 발생하며, 기술 데이터셋에서 15-25% 적은 토큰으로 동일한 결과를 산출합니다.
Gated Delta Networks를 활용한 선형 복잡도 어텐션으로 활성 메모리를 95% 절감하면서도 표현력은 유지하는 것이 핵심 기술입니다.
적응형 추론 모드
Qwen3.5는 세 가지 런타임 모드를 제공합니다.
| 모드 | 설정 | 용도 |
|---|---|---|
| Thinking | enable_thinking: true | 체인 오브 소트 추론 |
| Fast | enable_fast: true | 저지연 서비스 |
| Auto | enable_auto: true | 동적 선택 |
배포 옵션
오픈 웨이트 버전(Qwen3.5-397B-A17B): Hugging Face, ModelScope, GitHub에서 다운로드 가능하며, 8xH100 GPU 환경에서 vLLM 기준 45 tok/s, 단일 A100에서 4비트 양자화 기준 28 tok/s의 속도를 보입니다.
호스팅 버전(Qwen3.5-Plus): 알리바바 클라우드 Model Studio에서 즉시 사용 가능하며, 스트리밍, 병렬 도구 호출, 웹 검색 기능을 내장하고 있습니다.
한계와 고려사항
자체 보고 벤치마크: 경쟁 모델 대비 우위를 주장하는 벤치마크 수치는 자체 보고로, 독립적 검증이 필요합니다.
대형 인프라 요구: 397B 전체 파라미터를 로컬에서 호스팅하려면 고사양 GPU 클러스터가 필요합니다.
데이터 주권 이슈: 중국 기업의 AI 모델을 활용하는 경우, 기업 환경에서 데이터 주권 관련 검토가 필요할 수 있습니다.
결론: 중국 AI의 에이전틱 전환
Qwen3.5는 DeepSeek V4, MiniMax M2.5, GLM-5에 이어 2026년 2월 중국발 AI 모델 러시의 정점을 찍는 모델입니다. 397B MoE 아키텍처에 네이티브 멀티모달, 비주얼 에이전틱 기능, 201개 언어 지원이라는 종합적인 역량을 Apache 2.0 라이선스로 공개한 것은 글로벌 AI 생태계에 상당한 영향을 미칠 것입니다. 특히 비용 효율성과 에이전틱 기능의 조합은 기업용 AI 도입을 고려하는 조직에 매력적인 선택지가 될 수 있습니다.
장점
- 397B 규모에서 17B만 활성화하는 효율적 MoE로 60% 비용 절감
- 텍스트/이미지/비디오를 단일 모델에서 네이티브 처리하는 멀티모달 통합
- 비주얼 에이전틱 기능으로 실질적 작업 자동화 가능
- Apache 2.0 라이선스로 상업적 활용 제약 없음
- 201개 언어 지원으로 글로벌 활용도 극대화
단점/한계
- 경쟁 모델 대비 우위를 주장하는 벤치마크가 자체 보고 수치로 독립 검증 부재
- 397B 전체 파라미터 로컬 호스팅에 고사양 GPU 클러스터 필요
- 중국 기업 모델로 기업 환경에서 데이터 주권 정책 검토 필요
- 비주얼 에이전틱 기능의 실제 안정성과 정확도에 대한 사용자 검증 필요
참고 자료
댓글0개
주요 기능/특징
Qwen3.5는 알리바바의 397B MoE 아키텍처 모델로, 토큰당 17B만 활성화하여 60% 비용 절감과 8배 처리량 향상을 달성했습니다. 네이티브 멀티모달(텍스트/이미지/비디오), 비주얼 에이전틱 기능, 201개 언어 지원, 250K 어휘 사전, 최대 100만 토큰 컨텍스트를 제공합니다. MMLU-Pro 87.8, AIME26 91.3 등의 벤치마크를 기록하며, Apache 2.0 라이선스로 오픈소스 공개되었습니다.
핵심 인사이트
- 397B MoE 아키텍처에서 17B 파라미터만 활성화하여 비용 대비 성능 극대화
- 네이티브 멀티모달로 텍스트, 이미지(1344x1344), 비디오(60초)를 단일 모델에서 처리
- 비주얼 에이전틱 기능으로 모바일/데스크톱 앱 화면 인식 및 자율 조작 가능
- 201개 언어 및 방언 지원으로 이전 세대(82개) 대비 145% 확대
- Gated Delta Networks로 활성 메모리 95% 절감하면서 표현력 유지
- MMLU-Pro 87.8, AIME26 91.3, LiveCodeBench v6 83.6 등 주요 벤치마크 상위권
- Apache 2.0 라이선스로 파인튜닝, 디스틸레이션, 상업적 활용 모두 허용
- DeepSeek V4, MiniMax M2.5, GLM-5에 이은 2026년 2월 중국 AI 모델 러시의 정점
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Alibaba Qwen3.6-Plus 출시: 에이전틱 코딩에서 Claude를 위협하다
Alibaba가 에이전틱 AI 코딩에 특화된 Qwen3.6-Plus를 출시했다. Terminal-Bench 2.0에서 Claude Opus 4.5를 넘어서고, 100만 토큰 컨텍스트와 멀티모달 인식을 기본 탑재했다.
Mistral AI, $8.3억 부채 금융 조달: 13,800대 Nvidia GPU로 유럽 AI 자립 가속
프랑스 AI 스타트업 Mistral이 7개 은행에서 $8.3억 부채 금융을 확보했다. 파리 근교에 Nvidia GB300 13,800대 규모 데이터센터를 구축하며, 유럽 AI 인프라 자립에 나선다.
Mistral Voxtral TTS 출시: ElevenLabs에 도전하는 오픈소스 음성 합성 모델
Mistral AI가 4B 파라미터 오픈소스 TTS 모델 Voxtral을 출시했다. 9개 언어를 지원하며, 3초 음성 샘플로 화자 복제가 가능하고, ElevenLabs 대비 우수한 자연스러움을 보인다.
MiniMax M2.7 출시: 스스로 진화하는 AI 모델의 등장
MiniMax가 자기진화(self-evolving) 능력을 갖춘 M2.7 모델을 출시했다. SWE-Pro 56.22%, GDPval-AA 1495 ELO를 달성하며, 100회 이상 자율 최적화로 30% 성능 향상을 기록했다.
