Trending

VLM-R1

om-ai-labApache-2.02026.02.07

Vision5.8K Stars378 Forks7.5천 조회

VLM-R1은 DeepSeek-R1 스타일의 강화학습을 Vision-Language Model에 적용한 혁신적 프로젝트입니다. Qwen2.5-VL 기반으로 GRPO(Group Relative Policy Optimization) 학습을 수행하며, 4B 미만 모델 중 OpenCompass Math 리더보드 1위, OVDEval(Open-Vocabulary Detection)에서 SOTA를 달성했습니다. 참조 표현 이해(REC), 개방형 어휘 감지(OVD), 수학 문제 해결 등 다양한 시각 이해 작업에서 기존 SFT 대비 탁월한 out-of-domain 일반화 성능을 보여줍니다.

주요 특징

DeepSeek-R1 스타일 강화학습을 VLM에 적용
4B 미만 모델 중 OpenCompass Math 1위
OVDEval(Open-Vocabulary Detection) SOTA 달성
GRPO(Group Relative Policy Optimization) 학습
참조 표현 이해, 수학 문제 해결 등 다중 비전 태스크
SFT 대비 뛰어난 out-of-domain 일반화 성능

Open Source

VLM-R1

주요 특징

태그

관련 프로젝트

ComfyUI

Deep-Live-Cam

MinerU

Ultralytics YOLO26