Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Ovis(Open VISion)는 AIDC-AI에서 개발한 멀티모달 대규모 언어 모델(MLLM) 아키텍처로, 시각과 텍스트 임베딩을 구조적으로 정렬하는 독창적인 설계가 특징입니다. 최신 버전 Ovis2.5는 네이티브 해상도 시각 인식, 향상된 반성적 추론(사고 모드), STEM·차트 분석·그라운딩·비디오 이해 등 다양한 벤치마크에서 40B 이하 오픈소스 모델 중 최고 성능을 달성합니다. 2B와 9B 두 가지 크기로 제공되어 다양한 하드웨어 환경에서 활용 가능하며, Qwen과 LLaMA 기반 백본을 지원합니다. 텍스트-이미지 생성에 특화된 Ovis-Image 변형도 함께 제공됩니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크