Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

Qwen3-VL은 알리바바 클라우드 Qwen 팀이 개발한 최신 비전-언어 멀티모달 대형 언어 모델입니다. PC/모바일 GUI를 직접 제어하는 비주얼 에이전트 기능, 2D/3D 그라운딩을 통한 공간 인식 강화, 기본 256K에서 최대 1M 토큰까지 지원하는 확장 컨텍스트를 제공합니다. STEM/수학 분야의 멀티모달 추론 능력이 크게 향상되었으며, 32개 언어의 저화질 텍스트까지 처리하는 강력한 다국어 OCR을 지원합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크