Trending

GLM-V

zai-orgApache-2.02026.04.19

멀티모달2.3K Stars161 Forks7.1천 조회

GLM-V는 Z.ai(zai-org)가 공개한 오픈소스 멀티모달 추론 모델 시리즈로, GLM-4.6V, GLM-4.5V, GLM-4.1V-Thinking을 포함합니다. 대규모 강화학습(scalable RL)을 통해 범용적인 멀티모달 추론 능력을 확보했으며, 네이티브 멀티모달 함수 호출을 지원해 비전 기반 도구 사용이 가능합니다. 이미지, 비디오, 문서 이해를 모두 지원하고, 바운딩 박스 감지를 통한 GUI 에이전트 조작과 그라운딩 작업에서 뛰어난 성능을 보입니다. 응답 속도와 추론 깊이를 균형 있게 조절하는 Thinking 모드 전환 기능을 갖췄으며, 128K 토큰 컨텍스트 윈도우와 최대 4K 해상도 다중 종횡비 이미지 입력을 지원합니다.

주요 특징

GLM-4.6V / 4.5V / 4.1V-Thinking 시리즈 통합 제공
네이티브 멀티모달 함수 호출 및 GUI 에이전트 조작
128K 컨텍스트 + 최대 4K 해상도 이미지 지원
Thinking 모드 전환으로 속도/추론 깊이 균형 조절
vLLM, SGLang, Transformers 백엔드 통합 지원

Open Source

GLM-V

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM