Trending

dots.ocr

rednote-hilabMIT2026.06.04

Vision8.9K Stars799 Forks5.0천 조회

rednote-hilab가 공개한 단일 비전-언어 모델(VLM) 기반 다국어 문서 레이아웃 파싱 시스템입니다. 1.7B 규모의 컴팩트한 모델로 텍스트 인식뿐 아니라 표, 수식, 그림, 헤더/푸터 등 복잡한 페이지 구조를 한 번에 분석해 마크다운/JSON으로 변환할 수 있습니다. 모듈형 OCR 파이프라인(레이아웃 감지 + OCR + 후처리) 대신 엔드투엔드 멀티모달 모델 하나로 문서를 처리해 정확도와 처리 속도를 동시에 끌어올렸고, 2026년 3월 dots.mocr 1.5로 리브랜딩되며 다국어 지원과 구조화 그래픽(SVG) 출력까지 확장되었습니다.

주요 특징

1.7B 파라미터 단일 VLM으로 레이아웃 감지와 OCR을 동시 수행
표, 수식, 그림, 헤더/푸터 등 복잡한 문서 구조 추출
다국어 PDF·이미지 입력을 마크다운/JSON으로 구조화 출력
엔드투엔드 VLM 방식으로 모듈형 파이프라인 대비 정확도 향상
Hugging Face 가중치 공개 및 vLLM 추론 지원

Open Source

dots.ocr

주요 특징

태그

관련 프로젝트

ComfyUI

Deep-Live-Cam

MinerU

Ultralytics YOLO26