要点速达👈
- 📸CogAgent-9B通过屏幕截图和历史操作预测下一步GUI操作,革新智能设备交互方式。
- 🔍模型优化提升GUI感知、推理准确性,支持中英文界面和自然语言交互。
- 📝输入仅包含自然语言指令、历史操作记录和GUI截图,无需HTML或文本信息。
- 💡具备自动识别操作敏感性的功能,预防误操作。
- ⚡通过低分辨率与高分辨率图像融合,优化性能,适应多种设备环境。
数智朋克讯,智谱技术团队在其公众号上发布了最新开源基座模型——CogAgent-9B-20241220。该版本是在原有GLM-4V-9B的基础上优化而成,特别针对智能体任务进行了调整,显著提升了在GUI(图形用户界面)操作中的表现。通过仅使用屏幕截图作为输入,结合历史操作记录,CogAgent-9B可以推测出用户的下一步GUI操作,无需依赖HTML或其他额外文本信息。这一创新使其在个人电脑、手机及车载设备等多种基于GUI交互的应用场景中展现出巨大的潜力。
与2023年12月开源的第一版CogAgent相比,CogAgent-9B-20241220在多个方面实现了技术突破。尤其在GUI感知、推理准确性、动作空间的扩展、任务普适性及泛化能力上都有了显著的提升。该模型不仅支持中英文双语界面,还能进行自然语言交互。与其前身不同,CogAgent-9B的输入方式极为简化,仅需用户的自然语言指令、历史操作记录以及GUI截图,而不依赖任何文本布局信息或标签,这极大提升了模型的效率。
CogAgent-9B的输出包含四个方面:首先,模型明确输出对GUI截图的理解过程,并根据分析决定下一步操作,给出状态(Status)和计划(Plan);其次,模型用自然语言描述下一步操作,便于用户理解;第三,CogAgent通过结构化形式输出操作及其相关参数,类似函数调用的方式;最后,模型能够识别敏感操作,例如“发送邮件”时,会自动警示“发送”按钮的敏感性,防止误操作。
作为一款视觉语言模型(VLM),CogAgent在处理高分辨率图像方面展现了其独特优势。它通过低分辨率和高分辨率模块的跨层融合,提升了图像特征的解析能力,同时有效控制计算成本。这种创新确保了模型在资源有限的设备上依然能保持流畅运行。
随着CogAgent-9B-20241220的发布,智谱技术团队再次证明了其在智能体技术领域的领先地位。凭借强大的视觉理解和推理能力,CogAgent为GUI相关任务的自动化和简化提供了新的解决方案,未来有望在智能设备和应用场景中广泛应用。