Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
GLM-V는 Z.ai(zai-org)가 공개한 오픈소스 멀티모달 추론 모델 시리즈로, GLM-4.6V, GLM-4.5V, GLM-4.1V-Thinking을 포함합니다. 대규모 강화학습(scalable RL)을 통해 범용적인 멀티모달 추론 능력을 확보했으며, 네이티브 멀티모달 함수 호출을 지원해 비전 기반 도구 사용이 가능합니다. 이미지, 비디오, 문서 이해를 모두 지원하고, 바운딩 박스 감지를 통한 GUI 에이전트 조작과 그라운딩 작업에서 뛰어난 성능을 보입니다. 응답 속도와 추론 깊이를 균형 있게 조절하는 Thinking 모드 전환 기능을 갖췄으며, 128K 토큰 컨텍스트 윈도우와 최대 4K 해상도 다중 종횡비 이미지 입력을 지원합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크