Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

알리바바 DAMO Academy에서 개발한 오픈소스 구체화 기초 모델(Embodied Foundation Model)입니다. 로봇의 1인칭 시점(egocentric) 비디오를 이해하고 공간-시간 추론을 수행하는 멀티모달 AI로, 로봇이 물리 세계를 인지하고 상호작용하는 능력을 부여합니다. 비디오 기반의 환경 인식, 객체 상태 추적, 행동 계획 수립 등 로봇 인지에 필요한 핵심 기능을 통합 제공하며, 다양한 실내외 환경에서의 로봇 자율 작업에 활용할 수 있습니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크