Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
DeepSeek가 공개한 LLM 중심 시각 인코더 연구를 기반으로 한 차세대 OCR 모델입니다. 'Contexts Optical Compression(맥락 광학 압축)' 개념을 적용해 이미지를 고밀도 비전 토큰으로 인코딩하고 언어 모델이 이를 다시 텍스트로 디코딩합니다. 압축률 10배 이하에서 OCR 정확도 97%를 유지하며 최대 20배까지 시각 컨텍스트를 압축할 수 있어, 긴 문서 처리 시 토큰 비용을 크게 줄여줍니다. 512x512부터 1280x1280까지의 다양한 해상도 모드와 동적 해상도 'Gundam' 모드를 지원하고, 문서를 Markdown으로 변환, 그림 파싱, 그라운딩 기능까지 제공합니다.

Comfy-Org
노드 기반 디퓨전 모델 GUI
hacksider
단 한 장의 이미지로 실시간 얼굴 교체 및 딥페이크 구현 - 84K 스타 인기 프로젝트

opendatalab
PDF를 AI 워크플로우용 마크다운/JSON으로 변환하는 비전-언어 기반 문서 파싱 엔진

ultralytics
엣지 최적화 실시간 객체 감지 YOLO 프레임워크