Trending

Ovis

AIDC-AIApache-2.02026.03.19

멀티모달1.4K Stars84 Forks7.9천 조회

Ovis(Open VISion)는 AIDC-AI에서 개발한 멀티모달 대규모 언어 모델(MLLM) 아키텍처로, 시각과 텍스트 임베딩을 구조적으로 정렬하는 독창적인 설계가 특징입니다. 최신 버전 Ovis2.5는 네이티브 해상도 시각 인식, 향상된 반성적 추론(사고 모드), STEM·차트 분석·그라운딩·비디오 이해 등 다양한 벤치마크에서 40B 이하 오픈소스 모델 중 최고 성능을 달성합니다. 2B와 9B 두 가지 크기로 제공되어 다양한 하드웨어 환경에서 활용 가능하며, Qwen과 LLaMA 기반 백본을 지원합니다. 텍스트-이미지 생성에 특화된 Ovis-Image 변형도 함께 제공됩니다.

주요 특징

시각-텍스트 임베딩 구조적 정렬 아키텍처
네이티브 해상도 시각 인식 지원
반성적 추론(Thinking Mode)으로 복잡한 문제 해결
2B/9B 모델 크기로 다양한 환경 지원
Ovis-Image: 고품질 텍스트 렌더링 특화 이미지 생성

Open Source

Ovis

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve