微软推出开源工具 OmniParser，优化复杂用户界面交互解析

要点速达👈

🆕 微软推出 OmniParser，优化复杂用户界面解析
📊 该工具无需 HTML 等数据，凭视觉解析 GUI 交互元素
🚀 准确率显著提升，GPT-4V 图标识别率从 70.5% 提升至 93.8%
💻 支持桌面、移动及网页多平台应用
🌐 OmniParser 已在 Hugging Face 平台开源

数智朋克讯，据科技媒体 Marktechpost报道，微软公司推出了一款名为 OmniParser 的开源工具，旨在解决当前图形用户界面（GUI）自动化中广泛存在的识别难题。随着多模态 AI 应用的深入，自动化模型逐步延伸到桌面、移动设备等非网络环境，而传统的 HTML 或视图层解析方式局限明显，现有视觉语言模型（如 GPT-4V）对复杂图标的识别能力也不足。OmniParser 针对这一技术空白，以纯视觉的方式解析 GUI 元素，进一步提高智能自动化工具的解析精度。

OmniParser 的设计旨在摒弃对 HTML 标签、视图层次结构等基础数据的依赖，集成了可交互区域检测、图标描述和 OCR 模块，使其在桌面、移动和网页平台中高效识别图形元素的细节，能够自动生成结构化的 DOM 形式数据。这样一来，开发者得以借助边界框、功能标签等标记数据，使语言模型在解析时更准确地预测用户操作。微软的测试数据显示，OmniParser 在 ScreenSpot 数据集中的准确率显著提升至 73%，在 GPT-4V 中的应用也使正确标记率从 70.5% 提升至 93.8%。

作为新一代多模态 AI 工具，OmniParser 的发布不仅拓宽了 AI 在图形用户界面解析中的应用范围，还为开发人员带来了更智能的交互支持。目前，微软已在 Hugging Face 平台上发布了该工具的代码，以便更多开发者应用该技术创新，进一步推动无障碍、智能辅助及自动化等领域的发展。

微软推出开源工具 OmniParser，优化复杂用户界面交互解析

数智资讯订阅