Trending

DeepSeek-OCR

deepseek-aiMIT2026.05.20

Vision23.1K Stars2.1K Forks5.0천 조회

DeepSeek가 공개한 LLM 중심 시각 인코더 연구를 기반으로 한 차세대 OCR 모델입니다. 'Contexts Optical Compression(맥락 광학 압축)' 개념을 적용해 이미지를 고밀도 비전 토큰으로 인코딩하고 언어 모델이 이를 다시 텍스트로 디코딩합니다. 압축률 10배 이하에서 OCR 정확도 97%를 유지하며 최대 20배까지 시각 컨텍스트를 압축할 수 있어, 긴 문서 처리 시 토큰 비용을 크게 줄여줍니다. 512x512부터 1280x1280까지의 다양한 해상도 모드와 동적 해상도 'Gundam' 모드를 지원하고, 문서를 Markdown으로 변환, 그림 파싱, 그라운딩 기능까지 제공합니다.

주요 특징

Contexts Optical Compression으로 시각 토큰 최대 20배 압축
다중 해상도 지원 (512x512 ~ 1280x1280)
동적 해상도 'Gundam' 모드
문서 → Markdown 변환 및 그림/도표 파싱
vLLM 및 HuggingFace Transformers 추론 지원

Open Source

DeepSeek-OCR

주요 특징

태그

관련 프로젝트

ComfyUI

Deep-Live-Cam

MinerU

Ultralytics YOLO26