Trending

MonkeyOCR

Yuliang-LiuApache-2.02026.06.26

Vision6.6K Stars459 Forks66 조회

MonkeyOCR은 경량 멀티모달 모델(LMM)을 기반으로 문서를 구조적으로 파싱하는 OCR 도구입니다. 전통적인 다단계 OCR 파이프라인 대신 '구조 탐지–내용 인식–관계 예측(Structure-Recognition-Relation)' 패러다임을 도입해, 복잡한 레이아웃의 PDF·스캔 이미지 문서에서 본문·표·수식·그림의 위치와 읽기 순서를 한 번에 추출합니다. 표는 HTML, 수식은 LaTeX, 본문은 Markdown으로 변환해 LLM이 바로 활용할 수 있는 깔끔한 구조화 출력을 제공합니다. 상대적으로 작은 파라미터 규모로도 대형 상용 OCR에 근접한 정확도를 내면서 추론 속도와 배포 효율이 높은 것이 특징입니다. Apache-2.0 라이선스로 공개되어 연구·상용 모두 자유롭게 사용할 수 있습니다.

주요 특징

Structure-Recognition-Relation 3단계 문서 파싱 패러다임
표·수식·그림·본문의 위치와 읽기 순서 동시 추출
표 HTML·수식 LaTeX·본문 Markdown 구조화 출력
경량 파라미터로 높은 정확도와 빠른 추론 속도
복잡한 레이아웃 PDF·스캔 이미지 문서 지원

Open Source

MonkeyOCR

주요 특징

태그

관련 프로젝트

ComfyUI

Deep-Live-Cam

MinerU

Ultralytics YOLO26