Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

VLM-R1은 DeepSeek-R1 스타일의 강화학습을 Vision-Language Model에 적용한 혁신적 프로젝트입니다. Qwen2.5-VL 기반으로 GRPO(Group Relative Policy Optimization) 학습을 수행하며, 4B 미만 모델 중 OpenCompass Math 리더보드 1위, OVDEval(Open-Vocabulary Detection)에서 SOTA를 달성했습니다. 참조 표현 이해(REC), 개방형 어휘 감지(OVD), 수학 문제 해결 등 다양한 시각 이해 작업에서 기존 SFT 대비 탁월한 out-of-domain 일반화 성능을 보여줍니다.

Comfy-Org
노드 기반 디퓨전 모델 GUI
hacksider
단 한 장의 이미지로 실시간 얼굴 교체 및 딥페이크 구현 - 84K 스타 인기 프로젝트

opendatalab
PDF를 AI 워크플로우용 마크다운/JSON으로 변환하는 비전-언어 기반 문서 파싱 엔진

ultralytics
엣지 최적화 실시간 객체 감지 YOLO 프레임워크