Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
GutenOCR는 비전 언어 모델(VLM)을 활용한 차세대 OCR 시스템을 구축하기 위한 오픈소스 툴킷입니다. Qwen2.5-VL을 파인튜닝하여 3B와 7B 두 가지 모델을 제공하며, 단일 체크포인트로 문서 읽기, 텍스트 탐지, 위치 기반 검색을 통합 처리합니다. 비즈니스 문서, 과학 논문, 합성 데이터로 학습하여 전체 페이지 읽기, 특정 영역 내 로컬 읽기, 줄/문단 수준의 바운딩 박스 출력, 조건부 텍스트 검색을 지원합니다. GutenOCR-7B는 기반 모델인 Qwen2.5-VL-7B 대비 복합 OCR 점수를 0.40에서 0.82로 2배 이상 향상시켰습니다. DeepSpeed ZeRO-3 기반 멀티 GPU 학습과 vLLM 기반 평가 프레임워크를 포함하여, 연구자와 개발자가 쉽게 커스텀 OCR 모델을 구축할 수 있습니다.

Comfy-Org
노드 기반 디퓨전 모델 GUI
hacksider
단 한 장의 이미지로 실시간 얼굴 교체 및 딥페이크 구현 - 84K 스타 인기 프로젝트

opendatalab
PDF를 AI 워크플로우용 마크다운/JSON으로 변환하는 비전-언어 기반 문서 파싱 엔진

ultralytics
엣지 최적화 실시간 객체 감지 YOLO 프레임워크