当前位置: 首页 » 资讯 » 新金融 » 正文

豆包“撕裂”AI手机

IP属地 中国·北京 定焦One 时间:2025-12-12 20:21:32



定焦One(dingjiaoone)原创

作者 | 王璐

编辑 | 魏佳

短短十来天,一台仅仅停留在“技术预览版”的豆包手机,搅动了整个AI手机赛道。

在首批工程机上线即被抢空、带动中兴股价涨停之后,这款手机又因“AI外挂”争议、被多个超级APP限制登录、高管连续发声等事件数度反转,迅速成为行业焦点。

严格来说,它并非一款正式意义上的“豆包手机”,更准确的说法是豆包与中兴旗下努比亚联合开发的AI手机“努比亚M153技术预览版工程机”,豆包手机助手作为工具被深度嵌入到操作系统中。也正是因为这种深度接入方式,既让它在真实应用场景中展现出超越传统语音助手的连续操作能力,也引爆了后续的一系列争议。

与争议并行的是它在二手市场的价格不断攀升,原价3499元一台的手机一度被炒到3.6万元,显示出市场在质疑与兴奋之间的撕裂情绪。

它的确功能强大,可以替网友在B站答题、在多邻国打卡以及跨平台比价下单,被网友称赞“像人一样玩手机”。罗永浩评价豆包手机具有开创性意义,周鸿祎预言将冲垮互联网大厂护城河。但它问题也不少,频繁“死机”、任务中断以及隐私担忧等吐槽,让大量用户保持观望。

事实上,大众对于豆包手机的关注已经远超产品本身,它背后是两条AI手机路线的正面碰撞:一条由传统手机厂商为代表,以“软硬一体”为特点的渐进式AI升级;另一条则是由大模型公司主导,通过系统级AI Agent重构移动操作系统的跳跃式路径。豆包手机属于后者,它撕开了行业潜在矛盾,试图打破传统APP封闭边界,触及互联网平台风控逻辑,也对主流手机厂商的生态优势构成压力。

争议还在继续,豆包手机会是昙花一现,还是推动整个AI手机加速重构?在新一轮竞争中,谁最有希望胜出?

手机厂商没做出来的AI手机,豆包做出来了

“AI手机”的概念最早被大规模提及是在2023下半年,三星、谷歌、OPPO、vivo、小米、荣耀等主流手机厂商几乎都在强调“接入大模型”“系统升级为AI OS”,仿佛不提AI就落伍了。

这些AI手机主要包含实时通话翻译、生成会议纪要、AI修图等基础AI功能,以及一些有限的跨应用操作,比如完成点单任务、智能整理文件等。但在热闹背后,更像是给一些旧功能贴上新标签,一度被评价为“概念有余、创新不足”。

豆包手机更加激进,它的跨应用操作不局限于点单,还支持线上购物、订票、学习软件打卡等众多场景,并且它能在操作过程中自主处理弹窗、跳过广告、规避支付陷阱。这种连续自主行为的复杂度高于行业现有能力。

不同AI手机在智能化程度上的差异,主要源于其技术技术路线的不同。Agent领域从业者宵逝向「定焦One」介绍,当前AI手机的实现路线主要分两种。

在2025年前,行业普遍采用的是传统方案,即手机厂商与APP开发者通过SDK接口(软件开发工具包)对接,让AI助手借助开放接口执行任务。但该方案高度依赖APP开放接口,一旦接口变更或未开放,AI将无法执行相应指令。早期语音助手如Siri、小爱同学均属此类。

第二条路线是今年以来各大厂商采用的主要方案,基于GUI Agent(图形用户界面智能体),由大模型直接识别屏幕内容、理解界面结构并模拟人类手势进行点击、滑动和输入。也就是说,大模型不再需要“调用SDK接口”,而是转为“直接识别屏幕并操作”,像用户一样操作手机。但这类方案通常需要获取手机系统级权限,典型代表是豆包手机。


豆包手机在自主操作背单词工具(视频为5倍速) 受访者提供


需要强调的是,GUI Agent并非全新技术,部分AI手机早已使用。比如荣耀MagicOS 9.0的YOYO智能体,通过此路线便可自主完成从打开外卖APP到结算的买咖啡流程。

因此,有从业者认为,豆包手机的技术并未实现突破性创新。网络安全专家曲子龙向「定焦One」指出,豆包手机的技术原理并不复杂,是基于视觉语言模型的方案,通过读取屏幕的权限,利用视觉语言模型识别屏幕内容,再进行指令操作。该方案在行业中已有实践。

不过,尽管技术路径相似,豆包手机在通用任务能力上表现更为突出,显示出一定技术实力。

宵逝在使用豆包手机的过程中发现,它能主动进行信息检索与召回、调用在训练阶段从未见过的的陌生APP,这是其他AI手机难以做到的。

比如,在面对“会议延迟是否影响接孩子”的复杂任务时,豆包可定位公司与学校位置,通过地图类应用查询路程时间,从而给出判断,在这一过程中,用户并没有指定APP,但豆包能自主分析并规划用何种APP操作任务。

相比之下,多数AI手机仍局限于预设场景。以荣耀YOYO为例,它可以完成点咖啡,但面对陌生任务时,会提示无法执行。

简而言之,豆包手机试图构建一个不依赖预设场景的通用智能体,其能力不仅限于执行固定流程的任务(比如代点咖啡),还可应对开放目标(比如规划一次预算内的旅行),这要求它能自主进入不同APP进行浏览、比价与决策。而当前大多数手机厂商的AI功能仍围绕有限场景的自动化展开。

因此,尽管同样基于GUI Agent路线,豆包手机在对面对复杂、开放任务的理解与执行能力时,更接近“真正的智能”,这正是它引发行业震动的根本原因。

大厂“封杀”,AI手机的仗要打起来了

豆包手机的路线展示了技术的可能性,也让冲突走到台前。它的“跨应用连续操作”能力,本质上是在突破现有移动生态的隐性边界,于是很快撞上了互联网巨头的防线。如今,微信、支付宝、淘宝等APP均对其自动化操作采取了技术性“封堵”,有的可登录但不可通过AI操作,有的直接限制登录。

冲突的核心在于,双方对操作权限的判定标准存在差异。

站在APP端的立场,其风控机制会持续监测用户行为特征,一旦察觉非人为操作,便会启动禁止登录的保护机制。微信本次限制豆包AI操作,正是出于这一原因。

曲子龙表示,豆包手机助手调用微信执行任务时,利用的INJECT_EVENTS权限(Android上允许应用向系统模拟用户输入事件的权限),被微信识别到这是一个模拟用户输入的事件,怀疑这不是一个正常操作。检测到异常后,微信将账号的登录状态回收,让用户重新登录。

他表示,在刚买来的努比亚M153上登录微信,本身就是在“非常用设备”下进行敏感操作。微信根据账号信誉值以及敏感操作的风险值判断,无论是注销登录状态亦或者冻结账户,都是一个很正常的风控手段。

但事件的另一方,抖音高管曾公开解释,此类操作本质上是设备持有者授权AI助手代为执行任务,而非外部攻击。

双方的界定差异,正是此次争议的根源。换言之,现有的APP应用强调“真人操作”,而系统级AI助手强调“用户授权下的人机协同”。这种分歧不仅是一个技术判定问题,还可能带来深远影响。它将决定着未来AI手机能否真正具备“系统级智能”,还是会被迫退回到轻量工具。

对于所有试图重新定义AI手机操作系统的玩家而言,这是第一道难题。除权限冲突之外,基于GUI Agent的技术路径,用户体验层也面临三项核心挑战:隐私安全、结果“幻觉”与执行效率。

首先,隐私安全是用户最关心的问题。核心疑虑在于,豆包手机在处理任务时,手机屏幕上的用户信息是否被持续上传至云端?是否存在泄露风险?


图源 / 豆包AI官方微博截图


宵逝指出,AI手机在执行任务时,通常需将当前页面状态等必要信息上传至云端进行推理,但一般不会全程、全量上传屏幕数据。主要原因在于全部上传成本太高,大模型的上下文长度与云端计算开销限制了全程录屏分析的模式。

对于是否会“24小时窥屏”,宵逝通过手机功耗表现进行了侧面验证。

“如果视觉语言模型持续进行全屏分析,手机将迅速发烫、耗电剧增。”但他在使用过程中发现,实际情况并非如此,“在执行任务时,豆包手机会发热,但待机状态时基本正常。”因此他更倾向于“按需触发”,并对特定界面(如悬浮窗)设有访问过滤。

至于当豆包手机遭受外部攻击时,用户是否会面临账号盗用风险,宵逝觉得无需过度紧张。

“AI的每次操作实质是工具调用,开发者通常会在工具层设置风控,保证安全性。比如,在最终支付环节会中断自动流程,弹窗交由用户手动确认。虽然AI的决策或许不可全信,但执行支付等操作的授权代码是明确且受控的。”不过,他也补充,相较本地推理占比更高的传统AI手机方案,依赖云端推理的路径,安全性相对更低。

但这并不是一项无法解决的问题,曲子龙认为,平衡隐私安全的关键在于终端芯片的算力。“当手机芯片算力足够大,所有任务都在本地执行,隐私担忧将得到极大缓解。”

其次是“幻觉”问题,即AI错误理解用户意图或执行错误操作。

比如,有用户在使用豆包手机时发现,AI未能按照自身需求筛选出“热度数据最高”的歌曲。宵逝也有相同感受,他让豆包购买一支普通牙刷,豆包却将此前加购的电动牙刷一并勾选,导致支付环节的金额多了100元。

这类问题短期难以彻底解决,行业共识是,在现有技术条件下,追求大模型给到100%的准确率并不现实。

最后是执行效率。网友们普遍反映,豆包手机在完成跨应用比价、下单的复杂任务时,需要耗时数分钟、远慢于人工操作。

宵逝解释,这主要是因为AI需等待界面元素完全加载稳定后,才能进行识别与下一步操作,而人类用户可以凭经验进行预判和快速交互。

此外,由于主流应用的技术限制,豆包手机在许多高频场景中无法工作,这也极大地限制了其实际可用范围。

豆包手机所面临的这场“封杀”,不是单一产品的功能博弈,而是新旧规则的碰撞。下一步是行业对抗,还是规则重写,仍悬而未决。

AI手机会成为谁的机会?

尽管当前AI手机仍面临不少挑战,但可以肯定的是,这一赛道正成为科技公司争夺AI时代“超级入口”的核心战场。

所谓的“超级入口”,关系着企业在下一轮产业格局中的地位。在传统互联网时代,入口由浏览器、搜索引擎与超级APP主导;在大模型时代,入口将从“用户主动点开”转向让智能体自动代办,用户不再逐个打开应用,只用向智能体提出需求,由智能体实现跨应用操作。谁掌握入口,谁就掌握着用户注意力、数据流动的主导权。新的入口一旦形成,后来者将很难再获得主导权。

过去几年,AI硬件不断出现。例如,AI眼镜或AI耳机在便携和听觉交互上见长,智能汽车提供了独特的空间与算力载体,通用机器人代表着更远的未来,但无论是处理复杂任务、使用场景,还是技术成熟度,这些设备都存在局限,难以承担起入口的角色。

相比之下,手机拥有庞大的用户基数、极高的日常使用频次以及成熟的软硬件生态,具备独特的综合优势,成为AI时代最现实的超级入口载体。

尽管战略地位明确,但当前市场上大多数“AI手机”并未带来颠覆性体验,整体仍处于探索期。

仅靠视觉语言模型实时解析并可操作任意第三方App的GUI Agent路线,尚达不到消费级大规模落地的成熟度,主流厂商对此态度谨慎。豆包手机通过融合多模态大模型与系统级权限的技术路径,又面临技术创新与平台规则、生态兼容和安全边界的冲突。

但豆包手机的出现是一个标志,多位受访者认为,它不仅提升了讨论热度,也迫使各大科技公司重新审视AI手机布局。从各家的能力储备来看,可以划分成几个梯队。


图源 / unsplash


第一梯队是垂直整合能力极强的系统级厂商,主要包括苹果、谷歌、华为、三星。

这四家的核心优势在于,控制着从芯片、操作系统到应用分发平台的完整全栈架构,有能力通过系统更新和开发规范,定义AI与应用交互的新标准,构建一个可控、安全且可持续的底层框架。但较大的组织体量和对生态安全的谨慎态度也使得它们推进步伐相对稳健,短期内不太可能走到最前沿。

第二梯队是拥有大模型与服务生态的软实力企业,比如微软、OpenAI、字节跳动等。

这一类公司在大模型能力和AI算法层面具备核心竞争力,其战略很可能是“以软赋硬”,通过和硬件厂商合作的方式,将自身模型和服务集成到各类设备中,而不是自己做手机。但一方面需要找到合适的合作伙伴,另一方面需要解决操作权限的问题。

第三梯队是具备规模优势与硬件经验的终端制造商,包括小米、OPPO、vivo、荣耀等。

它们在硬件设计、供应链管理和销售渠道上具备优势,最重要的是,对市场需求反应很快,可以快速将AI功能下沉到中端甚至入门级机型,吸引庞大的老用户群体,让AI手机快速普及。

从整个格局看,无论最终胜出者是谁,都必须在开放生态与安全控制之间寻找到新的平衡。这场博弈还远没有停止,手机厂商会继续加码,AI手机的演进速度也将进一步加快。

*题图来源于豆包AI官方微博截图。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。