Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Allen Institute for AI(AI2)가 개발한 오픈소스 비전-언어 OCR 툴킷으로, PDF와 이미지 기반 문서를 깔끔한 마크다운과 일반 텍스트로 변환합니다. 7B 파라미터 비전-언어 모델(Qwen2.5-VL 기반)을 활용하여 수식, 표, 손글씨, 다중 컬럼 레이아웃까지 정확히 인식하며, 헤더/푸터를 자동 제거하고 자연스러운 읽기 순서를 보존합니다. olmOCR-Bench에서 82.4점을 기록하며 상용 OCR 시스템들을 능가했고, 100만 페이지당 $200 미만의 비용으로 LLM 학습 데이터셋 구축에 최적화되어 있습니다. Docker 지원, 멀티노드 클러스터 처리, 원격 추론 서버 연동까지 제공해 대규모 문서 처리 파이프라인에 적합합니다.

Comfy-Org
노드 기반 디퓨전 모델 GUI
hacksider
단 한 장의 이미지로 실시간 얼굴 교체 및 딥페이크 구현 - 84K 스타 인기 프로젝트

opendatalab
PDF를 AI 워크플로우용 마크다운/JSON으로 변환하는 비전-언어 기반 문서 파싱 엔진

ultralytics
엣지 최적화 실시간 객체 감지 YOLO 프레임워크