Trending

OmniParser

microsoftCC-BY-4.02026.06.26

Vision25.0K Stars2.2K Forks66 조회

OmniParser는 마이크로소프트가 공개한 순수 비전 기반 화면 파싱 도구로, 스크린샷 한 장만으로 화면 속 버튼·아이콘·입력창·텍스트 등 상호작용 가능한 UI 요소를 정확히 탐지하고 구조화된 정보로 변환합니다. HTML이나 접근성 트리 같은 메타데이터 없이 픽셀만 보고 작동하기 때문에, 멀티모달 LLM이 운영체제와 웹·앱 화면을 사람처럼 이해하고 클릭할 수 있게 돕는 GUI 에이전트의 핵심 인지 모듈로 활용됩니다. 아이콘 탐지 모델과 기능 설명 캡셔닝 모델을 결합해 각 요소의 위치와 의미를 함께 제공하며, OmniParser V2에서는 탐지 정확도와 추론 속도를 크게 끌어올렸습니다. CC-BY-4.0 라이선스로 공개되어 연구·실험에 자유롭게 활용할 수 있습니다.

주요 특징

스크린샷 픽셀만으로 상호작용 가능한 UI 요소 탐지
아이콘 탐지 모델 + 기능 캡셔닝 모델 결합 구조
메타데이터 없이 모든 OS·웹·앱 화면에 범용 적용
멀티모달 LLM 기반 GUI 에이전트의 인지 모듈로 활용
OmniParser V2에서 탐지 정확도·추론 속도 대폭 향상

Open Source

OmniParser

주요 특징

태그

관련 프로젝트

ComfyUI

Deep-Live-Cam

MinerU

Ultralytics YOLO26