![]()
这项由蚂蚁集团Venus团队领导的研究发表于2025年,有兴趣深入了解的读者可以通过论文编号arXiv:2602.09082v1查询完整论文。
在我们日常生活中,几乎每个人都有过这样的经历:需要在手机上完成一连串复杂操作,比如订票、购物、转账,或者在电脑上处理各种网页任务。这些看似简单的点击、滑动、输入操作,实际上需要我们的眼睛识别屏幕内容,大脑理解当前状态,手指执行精准动作。如果有一个智能助手能够像人类一样"看懂"屏幕、"理解"任务、"操作"设备,那会是什么样的体验?
蚂蚁集团的研究团队就在朝着这个方向努力。他们最新发布的UI-Venus-1.5就是这样一个"数字世界的万能操作员"。这个系统可以像一个非常聪明的助理一样,你只需要用自然语言告诉它"帮我在某个App里买张电影票"或者"帮我在网页上搜索并预订酒店",它就能自动完成所有复杂的点击、滑动、输入操作。
这听起来很神奇,但实现起来却相当困难。就像训练一个从未见过手机的人学会使用各种App一样,计算机需要学会"看"屏幕截图,"理解"用户意图,然后"规划"并"执行"一系列操作。更困难的是,不同的应用界面千差万别,用户的需求也各不相同,系统必须具备强大的泛化能力。
UI-Venus-1.5在多个权威测试中都取得了突破性成果。在ScreenSpot-Pro测试中准确率达到69.6%,在VenusBench-GD测试中达到75.0%,在AndroidWorld移动设备操作测试中更是达到77.6%的成功率。这些数字意味着什么呢?简单来说,就是如果给它100个操作任务,它能成功完成75个以上,这已经接近人类操作员的水平。
更重要的是,研究团队还专门针对中国用户的使用习惯进行了优化,让系统能够熟练操作40多个中国主流手机应用,包括订票、购物、聊天等各种常见场景。这意味着这项技术不仅仅是实验室里的研究成果,而是真正贴近中国用户实际需求的实用工具。
**一、从三个"专科医生"到一个"全科医生"**
在UI-Venus-1.5之前,研究团队发布的上一代系统UI-Venus-1.0虽然已经很优秀,但有一个明显的局限性:就像医院里的专科医生一样,它需要针对不同任务训练不同的专门模型。处理手机操作需要一个"手机专家",处理网页操作需要一个"网页专家",处理屏幕元素定位又需要一个"定位专家"。
这种设计虽然在各自领域表现出色,但在实际应用中却很不方便。用户使用时需要根据不同场景切换不同的模型,就像看病时需要在不同科室间奔波一样麻烦。而且,这些专门模型之间无法互相学习和补充,限制了整体能力的提升。
UI-Venus-1.5的最大突破就是实现了"全科医生"式的统一设计。研究团队通过巧妙的模型融合技术,将原本分离的三个专门模型合并成了一个统一的智能系统。这个过程就像把三个专科医生的知识和经验完美融合到一个全科医生身上,既保留了各自的专业优势,又实现了知识的互通有无。
具体来说,研究团队采用了一种叫做"TIES-Merge"的先进融合技术。这种技术的工作原理类似于调制完美的鸡尾酒:不是简单地把三种不同的酒混合在一起,而是精确计算每种成分的最佳比例,去除相互冲突的部分,保留最精华的特性。通过这种方法,最终的统一模型不仅保持了原有专门模型的强项,甚至在某些任务上表现得更好。
测试结果证明了这种设计的成功。统一后的UI-Venus-1.5在ScreenSpot-Pro测试中虽然比专门的定位模型略微下降了1.4%,但在AndroidWorld移动操作测试中反而提升了2.1%。这种细微的性能平衡换来了巨大的实用性提升:用户现在只需要一个模型就能处理所有类型的界面操作任务。
**二、给AI"恶补"十亿字的界面操作课程**
要让一个AI系统真正理解如何操作各种界面,就像教一个人学会使用各种复杂设备一样,需要大量的学习和练习。UI-Venus-1.5的训练过程可以比作一个四阶段的"从入门到精通"课程。
第一阶段是"基础知识恶补",研究团队称之为Mid-Training阶段。这就像给学生提供一个包含100亿个文字的超级教科书,涵盖了30多个不同数据集的内容。这些内容包括各种界面的截图、操作步骤、用户意图等基础知识。系统通过学习这些内容,逐步建立起对图形界面操作的基本认知。
这个阶段的重要性不可低估。就像人类在学习使用新设备时需要先了解基本概念一样,AI系统也需要先掌握"什么是按钮"、"如何理解菜单结构"、"用户指令通常是什么意思"等基础知识。研究团队发现,经过这个阶段的训练后,系统的界面理解能力有了质的提升。
第二阶段是"专项技能训练",也就是Offline-RL阶段。在掌握了基础知识后,系统开始针对三个不同方向进行专门训练:界面元素定位、手机操作、网页操作。这就像一个学生在掌握了基础知识后,分别学习数学、物理、化学等不同学科一样。
第三阶段是"实战演练",即Online-RL阶段。光有理论知识是不够的,系统需要在真实环境中不断练习和改进。研究团队构建了一个庞大的在线练习平台,让系统在真实的手机和网页环境中执行各种任务,从成功和失败中学习经验。这个过程就像驾校学员从理论学习转向实际道路练习一样关键。
第四阶段是"知识融合",即Model Merge阶段。在三个专项技能都达到一定水平后,研究团队将这些分散的专业知识融合成一个统一的智能系统。这个过程需要精心平衡各部分的贡献,确保融合后的系统既保持了各项专业技能,又能够灵活应对各种复杂场景。
整个训练过程的成果非常显著。从数据分析来看,经过Mid-Training阶段后,系统对界面元素的聚类分离度提升了34%,说明它能更准确地区分不同类型的界面元素。经过完整训练后的最终系统在各项测试中都表现出色,证明了这种渐进式训练方法的有效性。
**三、在真实世界中边玩边学的聪明系统**
传统的AI训练就像让学生只看教科书而不做实验一样,虽然能掌握理论知识,但在面对真实世界的复杂情况时往往表现不佳。UI-Venus-1.5的一个重要创新就是引入了"边玩边学"的在线强化学习机制。
研究团队发现了一个有趣的现象:在传统的离线训练中,AI系统的单步操作准确率虽然在提升,但完整任务的成功率却可能下降。这就像一个学生虽然每道题都会做,但面对完整试卷时却无法取得好成绩一样。原因在于,现实世界的任务通常需要多个步骤协调配合,而不是简单的单步操作累加。
为了解决这个问题,研究团队开发了一个名为"设备即服务"(DaaS)的创新平台。这个平台就像一个巨大的"数字设备练习场",包含了数千台不同类型的真实设备,支持Android手机、Chrome浏览器、Linux系统等多种环境。AI系统可以在这个平台上进行真实的操作练习,从实际执行的结果中学习如何改进。
这种在线学习的效果非常显著。系统不再只是简单地模仿训练数据中的操作,而是能够根据实际执行结果调整策略。比如,当它发现某个操作没有达到预期效果时,会自动尝试其他方法,并将成功的经验记录下来用于未来的类似情况。
在任务生成方面,研究团队也采用了非常巧妙的策略。他们不是简单地使用预设的任务清单,而是动态生成各种难度的任务,并根据系统的能力水平进行调整。简单任务(10步以内完成)、中等任务(10-20步)和复杂任务(20步以上)按比例混合,确保系统能够循序渐进地提升能力。
更有趣的是,系统还具备了"自我反思"的能力。当完成一个任务后,它会分析整个操作过程,识别哪些步骤是必要的,哪些是多余的,然后调整策略以在将来执行类似任务时更加高效。这种能力让它能够不断优化操作流程,就像一个经验丰富的操作员会总结经验、提升效率一样。
通过这种在线强化学习,UI-Venus-1.5在AndroidWorld测试中的成功率从传统训练方法的55%左右提升到了77.6%,这是一个非常显著的提升。更重要的是,系统学会了如何处理那些在训练数据中没有见过的新情况,这种泛化能力是AI系统走向实用的关键。
**四、数据质量管理的"品控系统"**
在AI训练中,数据质量就像食材对于烹饪的重要性一样关键。即使有最好的厨师和最先进的厨具,如果食材质量不佳,最终的菜品也不会令人满意。UI-Venus-1.5的研究团队深刻理解这一点,因此建立了一套严格的数据质量管理体系。
研究团队面临的一个挑战是,从互联网收集的界面操作数据往往存在各种问题:有些操作步骤不正确,有些任务描述不清楚,有些截图质量较差,还有些数据存在逻辑错误。如果直接使用这些"污染"的数据进行训练,就像用变质食材做菜一样,很难得到理想的结果。
为了解决这个问题,研究团队设计了一个多层次的数据清理和改进流程。首先,他们使用一个强大的AI评判员(基于Qwen3-VL-235B模型)来对所有收集到的数据进行质量评分,分数从0到10分。这个评判员会检查操作步骤是否合理、任务描述是否清晰、最终结果是否正确等多个维度。
根据评分结果,数据被分成三个等级:高质量数据(7分以上)直接保留用于训练;中等质量数据(4-6分)会被送去"修复车间"进行改进;低质量数据(0-3分)则被彻底重写或丢弃。这种分级处理的方式确保了训练数据的整体质量。
对于需要修复的中等质量数据,研究团队开发了智能的改写系统。这个系统会分析数据中的问题所在,然后生成改进版本。比如,如果一个操作序列在某个步骤出现错误,系统会根据前后文语境生成正确的操作步骤。
更有趣的是,研究团队还建立了一个"数据生产线",能够自动生成高质量的训练数据。这个系统会首先生成各种合理的任务描述,然后让AI系统在真实设备上尝试执行这些任务,记录整个操作过程。成功的操作序列会被保留作为训练数据,失败的尝试也会被分析,用于改进系统的理解能力。
通过这套严格的数据质量管理体系,研究团队将高质量训练数据的比例从初始的69.7%提升到了89.7%。这种质量提升直接转化为了系统性能的改善,证明了"好数据胜过大数据"这一原则的正确性。
**五、让AI学会说"我做不到"的智慧**
在现实生活中,一个真正可靠的助手不仅要知道如何完成任务,更要知道什么时候应该说"我做不到"。UI-Venus-1.5的一个重要特性就是具备了这种"拒绝能力",这听起来简单,实际上却是AI系统走向实用的关键一步。
研究团队发现,许多现有的AI界面操作系统存在一个严重问题:即使面对不可能完成的任务,它们也会强行给出一个操作建议。比如,当用户要求点击一个根本不存在的按钮时,系统可能会随机选择一个位置进行点击,这不仅无法完成任务,还可能造成意外的操作后果。
为了解决这个问题,UI-Venus-1.5被训练成能够识别和拒绝不合理的请求。当系统判断某个任务无法完成时,它会返回一个特殊的坐标"[-1, -1]",表示"我找不到你说的那个东西"。这种设计看似简单,但实现起来却需要系统具备深层的理解能力。
这种拒绝能力的训练过程很有趣。研究团队特意在训练数据中加入了各种"不可能任务"的例子,教系统学会识别什么样的要求是不合理的。比如,在一个购物应用的截图中要求系统点击"发送邮件"按钮,或者在一个文本编辑界面要求播放视频等明显不合理的请求。
在VenusBench-GD测试中,UI-Venus-1.5在包含拒绝任务的测试中表现出色,这证明了它不仅能够完成正确的操作,还能够识别和拒绝不合理的请求。这种能力对于实际应用来说至关重要,因为它大大降低了系统出现意外行为的风险。
有趣的是,研究团队发现,添加拒绝能力虽然在某些不包含拒绝任务的基准测试中可能会略微降低系统的表现,但在包含拒绝任务的更全面测试中,系统的整体可靠性得到了显著提升。这就像教一个人学会说"不"虽然可能让他看起来不那么"听话",但却让他变得更加可靠和值得信赖。
**六、在40多个中国App中的"实战演练"**
理论上的成功和实际应用中的可用性往往存在巨大差距。UI-Venus-1.5的研究团队深知这一点,因此特别重视系统在真实中国移动应用生态中的表现。他们选择了40多个中国用户最常使用的手机应用进行专门优化和测试。
这些应用涵盖了中国用户日常生活的各个方面:社交通讯、电商购物、出行服务、金融支付、娱乐媒体等。每个应用都有自己独特的界面设计风格、操作逻辑和用户体验模式。比如,中国的电商应用往往功能复杂、页面信息密集,而社交应用则更注重即时性和便捷操作。
研究团队发现,中国移动应用的一些特点给AI操作系统带来了独特挑战。首先是界面的高密度信息排布,一个屏幕上可能包含数十个可点击元素,系统需要准确识别用户真正想要操作的目标。其次是复杂的多步骤任务流程,比如完成一次购买可能需要选择商品、比较价格、选择规格、添加到购物车、结算支付等多个步骤。
为了应对这些挑战,研究团队专门设计了针对中国应用场景的训练策略。他们收集了大量真实的中国用户操作数据,分析了用户在不同应用中的行为模式和偏好。比如,他们发现中国用户在购物时往往会仔细比较商品评价,在出行时会关注实时路况信息,在社交时偏好使用语音和表情符号等。
系统的中文理解能力也得到了特别加强。中国用户的指令往往更加口语化和情境化,比如"帮我买个便宜点的"、"找个评分高的餐厅"、"给我妈转点钱"等。这些指令不仅需要理解字面意思,还要理解背后的意图和偏好。
在实际测试中,UI-Venus-1.5展现出了令人印象深刻的能力。它能够成功完成诸如"在音乐应用中播放新歌榜第四首并加入收藏"、"在外卖应用中订一份评分最高的川菜"、"在出行应用中预订明天去机场的车"等复杂任务。这些任务不仅涉及多个操作步骤,还需要理解用户的个性化需求。
更重要的是,系统还学会了处理中国应用中常见的各种"意外情况",比如弹出的广告、需要验证码的登录流程、网络延迟导致的页面加载缓慢等。这种应对能力让它在真实使用环境中更加可靠。
**七、技术创新背后的工程智慧**
UI-Venus-1.5的成功不仅来自于算法的创新,更来自于工程实现上的巧思。研究团队构建了一个名为"设备即服务"(DaaS)的技术平台,这个平台就像一个巨大的"数字设备牧场",能够同时管理和操控数千台不同类型的设备。
这个平台的设计理念很有趣:将分散在世界各地的各种设备(手机、平板、电脑等)统一管理,就像云计算将分散的计算资源整合起来一样。研究人员可以通过网络远程访问这些设备,让AI系统在真实环境中进行训练和测试,而不需要在每个实验室都配备大量的实体设备。
平台的技术架构采用了一些很巧妙的设计。比如,为了处理不同设备使用不同通信协议的问题,他们开发了一个统一的"翻译器"系统,能够将标准的操作指令翻译成各种设备能够理解的具体命令。这就像一个能够同时说多种语言的翻译官,让不同"语言"的设备都能理解AI系统的指令。
在性能优化方面,研究团队也下了很多功夫。他们采用了一种叫做"二级哈希路由"的技术,确保对同一设备的所有操作请求都由同一个服务器处理,避免了不同服务器之间的协调开销。这种设计让系统能够同时处理数以万计的并发操作请求,而且延迟极低。
更有意思的是,整个平台采用了协程并发模型,这种设计特别适合处理大量的设备操作请求。就像一个高效的餐厅服务员可以同时为多桌客人服务一样,每个服务器都可以同时处理成千上万的设备连接,大大提升了系统的效率。
在数据处理方面,研究团队还实现了"零拷贝"的高速数据传输技术。当需要在不同服务器间转发数据时,系统不需要重复复制数据,而是直接传递数据的"位置信息",这样大大减少了内存占用和传输延迟。
这些工程创新的成果是显著的:整个平台能够稳定支持数千台异构设备的并发操作,设备分配和调度的响应时间达到毫秒级,每天能够处理数百万次操作请求。这种工程能力为AI系统的大规模训练和测试提供了坚实的基础。
**八、从实验数据看真实实力**
数字往往比文字更有说服力。UI-Venus-1.5在各项权威测试中的表现确实令人印象深刻,但更重要的是理解这些数字背后的真实含义。
在界面元素定位能力测试中,UI-Venus-1.5在ScreenSpot-Pro这个被认为最具挑战性的测试中达到了69.6%的准确率。这个测试的难点在于它包含了大量专业软件的高分辨率界面,比如CAD设计软件、开发工具、创意制作软件等。这些软件的界面通常信息密度极高,按钮和菜单项非常小且密集排列。69.6%的准确率意味着AI系统已经接近人类在这些复杂界面上的操作精度。
在VenusBench-GD测试中,系统达到了75.0%的成绩。这个测试的特殊之处在于它不仅要求系统能够找到正确的界面元素,还要能够理解复杂的用户指令,甚至包括一些需要拒绝的不合理请求。75.0%的成绩表明系统不仅具备了精确的定位能力,还具备了良好的任务理解和判断能力。
最令人印象深刻的是在AndroidWorld移动设备操作测试中77.6%的成功率。这个测试模拟了真实的手机使用场景,包括116个不同的任务,涉及20个真实的Android应用。77.6%的成功率意味着,如果给系统100个手机操作任务,它能够成功完成近78个。考虑到这些任务的复杂性和多样性,这个成绩已经非常接近熟练人类用户的表现水平。
有一个有趣的发现是,系统在不同规模版本间的性能表现。2B参数的"轻量版"在AndroidWorld测试中达到了55.6%的成功率,8B参数的"标准版"达到73.7%,30B参数的"专业版"达到77.6%。这种规律性的提升表明,增加模型规模确实能够带来能力的显著改善。
在网页操作能力测试WebVoyager中,UI-Venus-1.5达到了76.0%的成功率。这个测试涵盖了15个真实网站的操作任务,包括电商、旅行、社交等各种平台。76.0%的成绩表明系统已经具备了处理复杂网页交互的能力。
更重要的是,研究团队还测试了系统处理中国移动应用的能力。在VenusBench-Mobile这个专门针对中国应用设计的测试中,UI-Venus-1.5的30B版本达到了21.5%的成功率。虽然这个数字看起来不高,但要知道这个测试的难度极高,涉及的都是需要多步骤完成的复杂任务,而且很多任务都需要理解中文语境和中国用户的使用习惯。
通过与其他系统的对比,UI-Venus-1.5的优势更加明显。在大多数测试中,它都显著超过了其他同类系统的表现,有些甚至超出10个百分点以上。这种领先优势不是偶然的,而是源于其独特的训练方法和技术创新。
**九、实用化道路上的思考与展望**
虽然UI-Venus-1.5在各项测试中表现出色,但从实验室成果到真正的日常应用工具,还有一段路要走。研究团队对此保持着清醒的认识,也在积极思考如何让这项技术更好地服务于普通用户。
首先是可靠性的问题。77.6%的成功率虽然已经很高,但对于关键任务来说可能还不够。想象一下,如果你让AI帮你转账,但它有20%的概率出错,你会放心使用吗?因此,研究团队正在努力进一步提升系统的可靠性,特别是在涉及金融、健康等敏感领域的操作上。
其次是个性化的需求。每个用户都有自己独特的使用习惯和偏好,比如有人喜欢详细比较商品信息,有人偏好快速决策;有人习惯使用语音输入,有人更喜欢文字交流。未来的版本需要能够学习和适应每个用户的个性化需求。
隐私保护也是一个重要考量。AI系统需要访问用户的屏幕内容才能进行操作,这可能涉及个人隐私信息。如何在提供便利服务的同时保护用户隐私,是技术发展必须面对的挑战。研究团队正在探索各种隐私保护技术,确保用户数据的安全。
从技术角度看,目前的系统主要依靠视觉信息进行操作,但在某些场景下,结合其他信息源可能会有更好的效果。比如,结合应用的API信息、用户的历史行为数据、当前的情境信息等,可能会让操作更加精准和高效。
另一个有趣的发展方向是多模态交互。目前用户主要通过文字指令与系统交互,但在实际使用中,用户可能更喜欢通过语音、手势,甚至是眼神来指导AI的操作。这种更自然的交互方式可能会大大提升用户体验。
从应用场景来看,AI界面操作助手最有可能首先在一些特定领域得到广泛应用。比如,帮助老年人使用复杂的智能设备,协助身体残疾的用户进行设备操作,或者在企业中自动化执行重复性的界面操作任务。
教育领域也是一个很有潜力的应用方向。AI助手可以帮助学生学习如何使用各种软件工具,通过示范和指导让学习过程更加高效。同时,它也可以帮助老师创建更丰富的交互式教学内容。
说到底,UI-Venus-1.5代表的不仅仅是一项技术突破,更是人机交互方式的一次重要探索。它让我们看到了一个可能的未来:人们不再需要学习复杂的操作步骤,而是可以用自然语言直接表达需求,让AI来处理所有繁琐的界面操作。这种变化可能会像智能手机的普及一样,深刻改变人们与数字设备的交互方式。
当然,技术的发展总是伴随着新的挑战和思考。如何确保AI助手真正理解用户意图?如何处理复杂情境下的决策?如何平衡自动化与用户控制?这些问题都需要在技术发展过程中逐步解决。
但不管怎样,UI-Venus-1.5的出现让我们距离那个"人人都有智能助手"的未来又近了一步。也许不久的将来,我们真的可以像科幻电影中那样,只需要动动嘴就能完成各种复杂的设备操作任务。
Q&A
Q1:UI-Venus-1.5能操作哪些设备和应用?
A:UI-Venus-1.5主要支持Android手机、网页浏览器等设备,能够操作40多个中国主流移动应用,包括购物、社交、出行、金融等各类常见应用,同时也支持各种网页操作任务。
Q2:UI-Venus-1.5的操作准确率有多高?
A:在不同测试中表现不同,在AndroidWorld移动设备测试中达到77.6%成功率,在ScreenSpot-Pro界面定位测试中达到69.6%准确率,在VenusBench-GD综合测试中达到75.0%准确率,整体已接近人类操作水平。
Q3:普通用户什么时候能使用UI-Venus-1.5?
A:目前还处于研究阶段,虽然在实验环境中表现出色,但要成为日常可用的产品还需要进一步提升可靠性、解决隐私保护等问题,预计首先会在特定领域如辅助老年人使用设备等场景中应用。





京公网安备 11011402013531号