字节跳动开源 UI-TARS-1.5 智能体实现跨模态交互技术突破

核心要点👉

🚀 OSworld基准测试42.5分刷新纪录，较OpenAI CUA提升16.8%
🧠 决策树机制使WindowsAgentArena执行精度提升41.3%
🎯 ScreenSpotPro高难度定位任务准确率达61.6%
🔧 对抗训练生成仿真数据集使误操作率行业最低
💻 GitHub开放核心源码支持本地部署智能体服务

数智朋克获悉，字节跳动最新开源的UI-TARS-1.5智能体在跨模态交互领域实现技术突破，该框架通过视觉-语言联合建模构建闭环决策体系，在OSworld基准测试中以42.5分刷新纪录，较OpenAI CUA提升16.8%。其强化学习驱动的"决策树"机制使WindowsAgentArena（50步）执行精度达42.1，较前代模型提升41.3%，在ScreenSpotPro高难度定位任务中更以61.6%准确率建立新标杆。

该智能体采用像素级特征解析与语义理解融合架构，通过千万级界面截图训练形成跨平台GUI认知能力。在开放世界游戏环境中展现连续推理特性，结合动态环境适应算法使未知场景泛化能力提升40%。开发者可利用其多模态API实现跨终端自动化流程，涵盖PC系统操作、移动应用交互及浏览器复杂任务执行。

技术架构层面，UI-TARS-1.5创新性地将思维链机制引入视觉决策领域，构建包含环境感知、意图推理、动作校验的三阶段验证体系。通过对抗训练生成的仿真环境数据集，使模型在复杂工作流中的误操作率下降至行业最低水平。目前该项目已在GitHub开放核心模块源码，支持开发者在本地环境部署智能体服务。

字节跳动开源 UI-TARS-1.5 智能体实现跨模态交互技术突破

数智资讯订阅