2026.02.17
3.8천
0
0
기타 LLM

Qwen3.5: 397B MoE로 에이전틱 AI 시대를 여는 알리바바의 승부수

알리바바가 2026년 2월 16일 Qwen3.5를 공개했습니다. 397B 파라미터 중 17B만 활성화하는 MoE 아키텍처로 60% 비용 절감과 8배 처리량 향상을 달성하며, 201개 언어 지원, 네이티브 멀티모달, 비주얼 에이전틱 기능까지 갖춘 오픈소스 모델입니다.

#Qwen3.5#알리바바#MoE#에이전틱 AI#멀티모달
Qwen3.5: 397B MoE로 에이전틱 AI 시대를 여는 알리바바의 승부수
AI 핵심 요약

알리바바가 2026년 2월 16일 Qwen3.5를 공개했습니다. 397B 파라미터 중 17B만 활성화하는 MoE 아키텍처로 60% 비용 절감과 8배 처리량 향상을 달성하며, 201개 언어 지원, 네이티브 멀티모달, 비주얼 에이전틱 기능까지 갖춘 오픈소스 모델입니다.

에이전틱 AI 시대를 위한 차세대 모델

2026년 2월 16일, 알리바바 클라우드의 Qwen 팀이 Qwen3.5를 공식 발표했습니다. 'Agentic AI 시대를 위해 설계된 모델'이라는 슬로건 아래, 397B(3,970억) 파라미터의 Mixture-of-Experts(MoE) 아키텍처를 채택하면서도 토큰당 17B만 활성화하는 효율적인 구조를 갖추었습니다. Apache 2.0 라이선스로 공개되어 상업적 활용에 제약이 없습니다.

핵심 벤치마크: 프론티어 모델에 도전

Qwen3.5의 벤치마크 성적은 자체 평가 기준으로 미국 주요 모델들과 경쟁하는 수준입니다.

벤치마크Qwen3.5 점수평가 영역
MMLU-Pro87.8종합 지식
LiveCodeBench v683.6경쟁 프로그래밍
AIME2691.3올림피아드 수학
MathVista90.3수학 시각 추론
MMMU85.0멀티모달 이해
BFCL-V472.9함수 호출

알리바바는 Qwen3.5가 GPT-5.2, Claude Opus 4.5, Gemini 3 Pro 대비 평가 카테고리의 80%에서 우위를 보인다고 발표했습니다. 다만 이는 자체 보고 수치로, 독립적인 제3자 검증이 필요한 상황입니다.

네이티브 멀티모달: 텍스트, 이미지, 비디오 통합 처리

Qwen3.5의 가장 큰 진화는 네이티브 멀티모달 통합입니다. 기존 모델들이 텍스트와 비전을 별도 모듈로 처리하는 것과 달리, Qwen3.5는 Early Fusion 아키텍처를 채택하여 576개의 이미지 토큰을 트랜스포머 첫 번째 레이어에 직접 주입합니다.

이미지 처리: 최대 1,344x1,344 픽셀 해상도의 이미지 분석이 가능하며, UI 스크린샷의 요소 감지와 상호작용까지 지원합니다.

비디오 처리: 8 FPS로 최대 60초 분량의 비디오 클립을 처리할 수 있어, 영상 속 객체와 이벤트를 이해하고 설명할 수 있습니다.

비주얼 에이전틱 기능: 화면을 보고 직접 조작

Qwen3.5의 차별화 포인트는 비주얼 에이전틱 기능입니다. 모바일과 데스크톱 앱의 화면을 인식하고, 스스로 클릭/입력 등의 동작을 수행할 수 있습니다. 이는 단순한 텍스트 생성을 넘어 실질적인 작업 자동화를 가능하게 합니다.

201개 언어 지원과 확장된 컨텍스트

어휘 사전이 152K에서 250K 토큰으로 확장되었고, 지원 언어는 82개에서 201개 언어 및 방언으로 대폭 늘어났습니다. 기본 컨텍스트 윈도우는 262,144 토큰이며, Qwen3.5-Plus 호스팅 버전은 100만 토큰 컨텍스트를 지원합니다.

비용과 효율성: 60% 절감, 8배 처리량

Qwen3.5는 전작 대비 60% 낮은 추론 비용8배 높은 처리량을 달성했습니다. 100만 토큰 컨텍스트 기준 약 $0.18의 비용이 발생하며, 기술 데이터셋에서 15-25% 적은 토큰으로 동일한 결과를 산출합니다.

Gated Delta Networks를 활용한 선형 복잡도 어텐션으로 활성 메모리를 95% 절감하면서도 표현력은 유지하는 것이 핵심 기술입니다.

적응형 추론 모드

Qwen3.5는 세 가지 런타임 모드를 제공합니다.

모드설정용도
Thinkingenable_thinking: true체인 오브 소트 추론
Fastenable_fast: true저지연 서비스
Autoenable_auto: true동적 선택

배포 옵션

오픈 웨이트 버전(Qwen3.5-397B-A17B): Hugging Face, ModelScope, GitHub에서 다운로드 가능하며, 8xH100 GPU 환경에서 vLLM 기준 45 tok/s, 단일 A100에서 4비트 양자화 기준 28 tok/s의 속도를 보입니다.

호스팅 버전(Qwen3.5-Plus): 알리바바 클라우드 Model Studio에서 즉시 사용 가능하며, 스트리밍, 병렬 도구 호출, 웹 검색 기능을 내장하고 있습니다.

한계와 고려사항

자체 보고 벤치마크: 경쟁 모델 대비 우위를 주장하는 벤치마크 수치는 자체 보고로, 독립적 검증이 필요합니다.

대형 인프라 요구: 397B 전체 파라미터를 로컬에서 호스팅하려면 고사양 GPU 클러스터가 필요합니다.

데이터 주권 이슈: 중국 기업의 AI 모델을 활용하는 경우, 기업 환경에서 데이터 주권 관련 검토가 필요할 수 있습니다.

결론: 중국 AI의 에이전틱 전환

Qwen3.5는 DeepSeek V4, MiniMax M2.5, GLM-5에 이어 2026년 2월 중국발 AI 모델 러시의 정점을 찍는 모델입니다. 397B MoE 아키텍처에 네이티브 멀티모달, 비주얼 에이전틱 기능, 201개 언어 지원이라는 종합적인 역량을 Apache 2.0 라이선스로 공개한 것은 글로벌 AI 생태계에 상당한 영향을 미칠 것입니다. 특히 비용 효율성과 에이전틱 기능의 조합은 기업용 AI 도입을 고려하는 조직에 매력적인 선택지가 될 수 있습니다.

장점

  • 397B 규모에서 17B만 활성화하는 효율적 MoE로 60% 비용 절감
  • 텍스트/이미지/비디오를 단일 모델에서 네이티브 처리하는 멀티모달 통합
  • 비주얼 에이전틱 기능으로 실질적 작업 자동화 가능
  • Apache 2.0 라이선스로 상업적 활용 제약 없음
  • 201개 언어 지원으로 글로벌 활용도 극대화

단점/한계

  • 경쟁 모델 대비 우위를 주장하는 벤치마크가 자체 보고 수치로 독립 검증 부재
  • 397B 전체 파라미터 로컬 호스팅에 고사양 GPU 클러스터 필요
  • 중국 기업 모델로 기업 환경에서 데이터 주권 정책 검토 필요
  • 비주얼 에이전틱 기능의 실제 안정성과 정확도에 대한 사용자 검증 필요

댓글0

주요 기능/특징

Qwen3.5는 알리바바의 397B MoE 아키텍처 모델로, 토큰당 17B만 활성화하여 60% 비용 절감과 8배 처리량 향상을 달성했습니다. 네이티브 멀티모달(텍스트/이미지/비디오), 비주얼 에이전틱 기능, 201개 언어 지원, 250K 어휘 사전, 최대 100만 토큰 컨텍스트를 제공합니다. MMLU-Pro 87.8, AIME26 91.3 등의 벤치마크를 기록하며, Apache 2.0 라이선스로 오픈소스 공개되었습니다.

핵심 인사이트

  • 397B MoE 아키텍처에서 17B 파라미터만 활성화하여 비용 대비 성능 극대화
  • 네이티브 멀티모달로 텍스트, 이미지(1344x1344), 비디오(60초)를 단일 모델에서 처리
  • 비주얼 에이전틱 기능으로 모바일/데스크톱 앱 화면 인식 및 자율 조작 가능
  • 201개 언어 및 방언 지원으로 이전 세대(82개) 대비 145% 확대
  • Gated Delta Networks로 활성 메모리 95% 절감하면서 표현력 유지
  • MMLU-Pro 87.8, AIME26 91.3, LiveCodeBench v6 83.6 등 주요 벤치마크 상위권
  • Apache 2.0 라이선스로 파인튜닝, 디스틸레이션, 상업적 활용 모두 허용
  • DeepSeek V4, MiniMax M2.5, GLM-5에 이은 2026년 2월 중국 AI 모델 러시의 정점

이 리뷰가 유용했나요?

공유하기