Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
OmniParser는 마이크로소프트가 공개한 순수 비전 기반 화면 파싱 도구로, 스크린샷 한 장만으로 화면 속 버튼·아이콘·입력창·텍스트 등 상호작용 가능한 UI 요소를 정확히 탐지하고 구조화된 정보로 변환합니다. HTML이나 접근성 트리 같은 메타데이터 없이 픽셀만 보고 작동하기 때문에, 멀티모달 LLM이 운영체제와 웹·앱 화면을 사람처럼 이해하고 클릭할 수 있게 돕는 GUI 에이전트의 핵심 인지 모듈로 활용됩니다. 아이콘 탐지 모델과 기능 설명 캡셔닝 모델을 결합해 각 요소의 위치와 의미를 함께 제공하며, OmniParser V2에서는 탐지 정확도와 추론 속도를 크게 끌어올렸습니다. CC-BY-4.0 라이선스로 공개되어 연구·실험에 자유롭게 활용할 수 있습니다.

Comfy-Org
노드 기반 디퓨전 모델 GUI
hacksider
단 한 장의 이미지로 실시간 얼굴 교체 및 딥페이크 구현 - 84K 스타 인기 프로젝트

opendatalab
PDF를 AI 워크플로우용 마크다운/JSON으로 변환하는 비전-언어 기반 문서 파싱 엔진

ultralytics
엣지 최적화 실시간 객체 감지 YOLO 프레임워크