DIGIPUNK
去投稿
发表于:2024年10月30日

微软推出开源工具 OmniParser,优化复杂用户界面交互解析

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
要点速达👈
  • 🆕 微软推出 OmniParser,优化复杂用户界面解析
  • 📊 该工具无需 HTML 等数据,凭视觉解析 GUI 交互元素
  • 🚀 准确率显著提升,GPT-4V 图标识别率从 70.5% 提升至 93.8%
  • 💻 支持桌面、移动及网页多平台应用
  • 🌐 OmniParser 已在 Hugging Face 平台开源

数智朋克讯,据科技媒体 Marktechpost报道,微软公司推出了一款名为 OmniParser 的开源工具,旨在解决当前图形用户界面(GUI)自动化中广泛存在的识别难题。随着多模态 AI 应用的深入,自动化模型逐步延伸到桌面、移动设备等非网络环境,而传统的 HTML 或视图层解析方式局限明显,现有视觉语言模型(如 GPT-4V)对复杂图标的识别能力也不足。OmniParser 针对这一技术空白,以纯视觉的方式解析 GUI 元素,进一步提高智能自动化工具的解析精度。

OmniParser 的设计旨在摒弃对 HTML 标签、视图层次结构等基础数据的依赖,集成了可交互区域检测、图标描述和 OCR 模块,使其在桌面、移动和网页平台中高效识别图形元素的细节,能够自动生成结构化的 DOM 形式数据。这样一来,开发者得以借助边界框、功能标签等标记数据,使语言模型在解析时更准确地预测用户操作。微软的测试数据显示,OmniParser 在 ScreenSpot 数据集中的准确率显著提升至 73%,在 GPT-4V 中的应用也使正确标记率从 70.5% 提升至 93.8%。

作为新一代多模态 AI 工具,OmniParser 的发布不仅拓宽了 AI 在图形用户界面解析中的应用范围,还为开发人员带来了更智能的交互支持。目前,微软已在 Hugging Face 平台上发布了该工具的代码,以便更多开发者应用该技术创新,进一步推动无障碍、智能辅助及自动化等领域的发展。

本文链接: https://www.shuzhipunk.com/articles/XpKl8kzDSsh
转载请注明文章出处

文章所属标签
OmniParser
微软开源工具
多模态 AI