当前位置: 首页 » 资讯 » 新科技 » 正文

科技圈炸锅了!豆包手机助手引权限争议,但挡不住AI手机趋势?

IP属地 中国·北京 雷科技 时间:2025-12-04 22:19:07

一夜间,豆包手机助手变成「豆包手机,住手!」

前段时间,字节跳动豆包团队和中兴合作,发布了搭载豆包手机助手技术预览版的手机——努比亚 M153。在 M153 上,豆包团队基于其 GUI-Agent 的能力,打造了一系列「替用户操作手机」的功能,让我们有机会在 2025 年一览未来 AI 手机应该有的样子。



豆包手机助手

但很快,问题就出现了。有用户反馈称,豆包手机助手在某些金融 App 里会触发风险提示,指出手机当前开启了「屏幕共享」「无障碍」等服务,要求用户注意资金安全;部分 App 更是因触发风控直接停用了相关服务。

随后,微信确认了这一点,表示没有对豆包做任何特殊拦截,用户遇到的情况更像是触发了既有的通用风控策略。豆包方面随即下线了相关场景的操作能力,并对受影响用户开启解封流程,同时进一步公开说明其权限调用方式、数据处理方式和安全边界,重申不存在任何黑客行为或隐私侵入。

至于外界争议最多的 INJECT_EVENTS 权限,豆包也给出了正面回应:

INJECT_EVENTS 确实是系统级权限,技术实现依赖 Android 系统级权限,有更严格的使用限制。拥有该权限许可,相关产品才能跨屏、跨应用来模拟点击事件,完成用户操作手机的任务需求。
豆包手机助手需要用户主动授权,才可以调用该权限,使用操作手机功能。该权限的使用,我们也在权限清单中进行了明确的披露。据我们了解,目前行业的AI助手,均需要使用该权限(或与其类似的无障碍权限)才能提供操作手机的服务。

从雷科技的角度看,豆包这一解释确实合情合理;这种不避讳关键争议的做法,也值得肯定。但在雷科技看来,这场关于 AI 手机助手权限的讨论,虽然由风控误伤引发,但也是 AI 手机行业发展必将面临的问题;处于风暴中心的豆包,也只是把这个需要行业共同打磨的细节,提前带到了公众面前。

AI Agent 的三部曲

要理解这场争议背后的行业背景,我们必须先理解 AI 是怎么「用」手机 App 的。从技术的角度看,「AI 操作 App」可以拆解成两个步骤:

1. 让 AI 看懂 App;
2. 让 AI 操作 App。

但问题是,Android 系统原本从未设想过让「一个智能体来控制另一个 App」。为了让 AI 能从系统(而不是 App)的层面控制其他 App,手机行业提出了三种不同的「AI 操作」路线。

第一条路线是基于 App 无障碍标签和 Android 系统无障碍服务,打造的「模拟用户」操作路线。我们知道,现代智能手机都有无障碍服务,比如为视障群体准备的文字标签服务:开发者在开发 App 时,会为每一个按钮添加「无障碍标签」;手机开启无障碍读屏功能后,手机系统会读取「无障碍标签」并朗读对应内容,让视障用户知道当前选中的按钮的作用。



smartisan.com

AI Agent 只要读取 App 内部的标签结构,就能理解软件界面元素、知道每个按钮的作用;看懂 App 后,AI Agent 再利用无障碍服务的模拟触控功能(手机键精灵的同款原理),就能自主操作 App。

但我们知道,国内移动互联网发展日新月异,主流 App 每隔几周就要上线一个新功能,而无障碍标签往往是开发流程里最容易被忽略的步骤——很残酷的现实是,无障碍群体在互联网几乎没有声量。这导致某些页面、按钮可能根本没有标签,或是只有「按钮」「窗口」这种几乎没有意义的字样。面对这样的标签,即使再聪明的 AI 也无能为力。

既然糟糕的无障碍支持让 AI 搞不懂 App 结构,那为什么不让 AI 像人一样「直接看屏幕」呢?这也引出了 AI 交互的第二条路线:AI 通过系统提供的屏幕捕捉能力,实时获取手机屏幕当前的画面,然后用视觉大模型去理解画面中每个元素的功能含义。

理解当前屏幕内容后,AI Agent 会利用无障碍(模拟点击)或 INJECT_EVENTS (应用注入触发)来操作 App,把 AI 链路跑通。豆包手机助手此次引起的争议也在这个「INJECT_EVENTS」上。



豆包手机助手

刚刚提到,无障碍的点击本质是「AI 代点」,但无障碍并不能稳定覆盖所有交互方式,很多界面仍需要更底层的事件注入。在这一场景下,INJECT_EVENTS 不是「破解 App」,而是用一种更底层、更原生的交互模拟方式,让 AI 能在任何 App 上执行更完整的操作。就目前 Android 系统本身的发展情况来说,「豆包路线」也是现阶段 Android 体系里唯一能让 AI 真正操作 App 的路线。

但归根结底,刚刚提到的两条技术路线,本质仍是让 AI 模拟人的操作;而真正的 AI 手机,应该去掉低效的图形界面(GUI)中间层,让 AI 直接调用 App 的功能组件。在这种理念下,第三条路线——MCP 路线诞生了。

不了解 AI 的朋友对 MCP(Model Context Protocol,模型上下文协议)可能比较陌生。简单来说,MCP 是一种标准化的能力协议,它能「对齐」App 与 App 之间的功能,让 App 功能(组件)变成可被 AI 跨应用调用的模块。



modelcontextprotocol.io

举个例子,如果我们把点餐功能封装成「能力组件」,叫外卖时 AI 就不再需要靠图形或文字去理解商家菜单里的选项,可以直接从组件后台中找到「隆江猪脚饭」的选项并添加到购物车里,再调用支付的 MCP 模块直接完成支付。

「豆包路线」为什么更领先?

事实上,在雷科技看来,豆包选择的「GUI-Agent + INJECT_EVENTS」方案,确实也是现阶段 AI Agent 体验最好、最完善的技术路径。不同于读取无障碍标签的「路线一」,GUI-Agent 能充分发挥大模型在多模态方面的优势,吃到国内 AI 模型飞速迭代的技术红利。

和 MCP 路线相比,「豆包路线」也不需要苦等第三方 App 的 MCP 支持:要知道 MCP 允许 AI 绕过 App 的图形界面,意义等同于让 App 放弃自己的流量入口。即使我们都知道 MCP 方案必然成为主流,但 GUI 到 MCP 的转化注定是一个漫长的过程。可以肯定的是,大量 App 会在相当长的一段时间内维持传统形态,GUI-Agent 仍无法取代。

除此之外,豆包的 GUI-Agent 虽然被视为「过渡方案」,但它也提前为 MCP 时代打好地基。无论未来标准协议多么成熟,AI 想要可靠地完成任务,都必须先学会在真实 App 环境中运行,而其中的操作路径和数据传递算法只能从 GUI 操作里优化出来,而不是从 API 文档里学出来。

可以说,豆包通过 GUI-Agent 大规模积累的经验,必将成为豆包在 MCP 时代领先的关键。

MCP 才是 AI 手机的最优解?

当然了,就像刚刚提到的那样,尽管现阶段 MCP 生态的发展还处于初期阶段,GUI-Agent 依旧是 AI 手机的主流方案;但就像触屏手机用更丰富的交互方式取代按键手机、更通用的 USB-C 统一多种结构那样,可以肯定的是,体验更好、潜力更大的 MCP 方案,未来必然会取代 GUI-Agent 方案,成为 AI 时代的「默认路线」。

而随着「MCP 时代」的到来,AI 手机与 App 的线性关系也将发生改变:App 将直接向 AI 暴露结构化的能力组件,系统也能对每一次调用进行统一的权限管理,其安全性反而比现在的「屏幕捕捉+GUI Agent+替代点击」还要高。



豆包手机助手

与此同时,MCP 的开放性也让跨 App AI 协作成为可能。现阶段不同 App 之间的联动还离不开链接跳转、剪贴板数据寄存等「歪门邪道」,而在 MCP 时代,AI 可以在同一上下文窗口中调用不同 App 的能力,实现真正意义的「流程化」。

12 月 4 日,罗永浩在微博指出「技术革命是谁都拦不住的」,同时也对字节在 GUI-Agent 路线迈出的这一步点赞:「AI 助手一定会遍地开花,我们的生活也会完全离不开它,将来的人们会记住这历史性的一天。」



微博

就目前的情况来看,豆包手机助手已经让我们「预览」了未来 AI 手机的样子;而即将到来的 2026 年,AI 手机行业必然会加大在 GUI-Agent 赛道的投入,用实打实的市场需求推动 App 生态的 MCP 转型进程。

从这个角度来看,豆包手机助手,才是开启 AI 手机黄金时代的钥匙。

CES2026开幕在即!(1月6日-1月9日)
作为中国报道科技展会最悠久、最深入、最专业的新媒体,雷科技CES2026报道团正在进行紧张的前期筹备。届时雷科技将派出史上最大规模的CES报道团,并由雷科技创始人兼总编辑罗超带队,对CES2026进行一线、专业和立体报道,敬请期待!



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。