Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
rednote-hilab가 공개한 단일 비전-언어 모델(VLM) 기반 다국어 문서 레이아웃 파싱 시스템입니다. 1.7B 규모의 컴팩트한 모델로 텍스트 인식뿐 아니라 표, 수식, 그림, 헤더/푸터 등 복잡한 페이지 구조를 한 번에 분석해 마크다운/JSON으로 변환할 수 있습니다. 모듈형 OCR 파이프라인(레이아웃 감지 + OCR + 후처리) 대신 엔드투엔드 멀티모달 모델 하나로 문서를 처리해 정확도와 처리 속도를 동시에 끌어올렸고, 2026년 3월 dots.mocr 1.5로 리브랜딩되며 다국어 지원과 구조화 그래픽(SVG) 출력까지 확장되었습니다.

Comfy-Org
노드 기반 디퓨전 모델 GUI
hacksider
단 한 장의 이미지로 실시간 얼굴 교체 및 딥페이크 구현 - 84K 스타 인기 프로젝트

opendatalab
PDF를 AI 워크플로우용 마크다운/JSON으로 변환하는 비전-언어 기반 문서 파싱 엔진

ultralytics
엣지 최적화 실시간 객체 감지 YOLO 프레임워크