Trending

olmOCR

allenaiApache-2.02026.05.24

Vision17.3K Stars1.4K Forks4.9천 조회

Allen Institute for AI(AI2)가 개발한 오픈소스 비전-언어 OCR 툴킷으로, PDF와 이미지 기반 문서를 깔끔한 마크다운과 일반 텍스트로 변환합니다. 7B 파라미터 비전-언어 모델(Qwen2.5-VL 기반)을 활용하여 수식, 표, 손글씨, 다중 컬럼 레이아웃까지 정확히 인식하며, 헤더/푸터를 자동 제거하고 자연스러운 읽기 순서를 보존합니다. olmOCR-Bench에서 82.4점을 기록하며 상용 OCR 시스템들을 능가했고, 100만 페이지당 $200 미만의 비용으로 LLM 학습 데이터셋 구축에 최적화되어 있습니다. Docker 지원, 멀티노드 클러스터 처리, 원격 추론 서버 연동까지 제공해 대규모 문서 처리 파이프라인에 적합합니다.

주요 특징

PDF, PNG, JPEG를 깔끔한 마크다운으로 변환
수식, 표, 손글씨, 복잡한 서식 처리
다중 컬럼 레이아웃의 자연스러운 읽기 순서 보존
7B 파라미터 비전 언어 모델 기반 (Qwen2.5-VL)
Docker 및 멀티노드 클러스터 처리 지원

Open Source

olmOCR

주요 특징

태그

관련 프로젝트

ComfyUI

Deep-Live-Cam

MinerU

Ultralytics YOLO26