当前位置: 首页 » 资讯 » 新科技 » 正文

Agent时代的入口之争,豆包和千问各入一门

IP属地 中国·北京 编辑:王婷 新立场 时间:2026-04-23 12:39:25
千问顺水推舟,豆包近水楼台

新立场

工具在使用者手中时才成为工具。海德格尔的这段话,今天用来理解AI硬件同样贴切。

问题在于,大模型这只手伸出来的时候,用户究竟愿意把它握在掌心里(手机),还是架在鼻梁上(眼镜),亦或是让它一直贴耳倾听(耳机)?

据《Z Finance》独家报道,字节跳动内部决定暂停豆包AI眼镜项目。想要理解这场选择,需要先回答一个更基础的问题:大模型公司为什么要做硬件?

据《晚点LatePost》的报道,火山引擎豆包大模型日均调用量已超过120万亿Token,半年增长4倍。国家数据局的数据显示,中国日均Token消耗量在一年半内增长约300倍。黄仁勋在GTC 2026的舞台上说,Token将是未来数字世界最核心的大宗商品。

但Token消耗的暴涨,反而掩盖了一个更根本的问题,即这些Token从哪里被触发,通过什么界面进入用户的生活?

过去两年,这个问题的答案是手机屏幕和对话框。OpenClaw的爆火将Agent从开发者工具推向大众用户,直接推高了对随时随地触发AI执行这一能力的需求密度。当大模型的竞争从生成式问答转向执行任务,执行链路就需要一个更靠近用户身体的物理锚点。

豆包选择的落点是操作系统,以操作系统级合作模式切入AI手机赛道,通过与手机厂商在系统层面合作,获得识别屏幕UI元素、模拟人工操作的核心权限;千问选择的是眼镜,千问AI眼镜上线首批AI办事能力后,支持话费充值、扫码骑车、停车缴费、语音点外卖。这些功能的共同特征是,AI开始在真实世界里把事情做完。

两条路径的本质,是两家公司对同一个问题给出的不同工程答案:究竟改由谁来做Agent执行链路的物理接口。

两种优势的两种延伸

大模型公司做硬件,实际上是在回答一个从Token经济学中衍生出来的问题。

过去两年的AI竞争,核心战场在模型能力和价格。价格战把Token单价从三年前的高点压低了约300倍。但单价的崩塌没有让AI支出变得可预测,原因很简单:Agent类应用让单次任务的Token消耗从普通对话的几十倍起跳。据腾讯科技报道,亚太区电商技术公司Branch8的6人团队,启用Claude Code第一个月花了2400美元,经过八周密集优化才勉强降到680美元。Token支出管理本身已经变成了一项需要专门技能的工作。

这个成本结构,在源头上改写了很多AI产品的竞争逻辑。谁掌握了Agent的触发入口,谁就掌握了Token消耗的源头。而触发入口的密度,取决于设备离用户有多近、启动摩擦力有多低。这是豆包和千问同时转向硬件的真实驱动力:在Token消耗链路的最前端建立一个物理节点。

千问AI眼镜的团队跟踪了一个指标用户交互轮次,即AI帮助用户完成事项的频率。夸克眼镜S1上线后,用户交互数对比第三方手机AI助手应用提升了约6倍。戴在脸上的AI之所以被调用得更频繁,原因在于感知始终在线、启动摩擦力趋近于零。

对于Agent而言,这种持续在场的交互密度,意味着更丰富的上下文积累,也意味着更多执行任务的触发机会。

2026年4月,千问AI眼镜首次OTA升级后上线了AI办事能力,通过接入淘宝闪购、支付宝,支持话费充值、扫码骑车、停车缴费、语音点外卖。产品定义由此发生转移:AI从回答问题,变成了把事情办完。

豆包确定的路径同样深入,只是方向不同。去年12月,豆包AI手机助手以操作系统级合作模式进入AI手机赛道,通过与手机厂商在系统层面合作,获得识别屏幕UI元素、模拟人工操作的核心权限。

实测显示,比价肯德基套餐并下单发送截图这一涉及三个应用、十二步手动操作的任务,豆包可在后台自动完成,仅支付环节需人工介入,全程耗时较人工操作缩短72%。

千问的选择,出发点同样清晰。阿里的应用生态中,话费充值、外卖点单、停车缴费,这些淘宝、支付宝的既有能力可以直接接入Agent执行链路,通过眼镜重新封装成AI原生交互形态。对于没有这套生态底座的公司,眼镜只是一个戴在脸上的语音助手;对阿里来说,眼镜是打通已有应用、建立新型触点的现实节点。

豆包深入手机操作系统,是在自己的流量分发能力地带建立Agent入口。千问押注可穿戴设备矩阵,是在把阿里的应用生态重新封装成AI原生交互形态。

把时间线拉长来看,今天产品发得多惊艳、销量跑得多猛,其实都决定不了终局。两年后,当Agent像网络一样融进工作流,唯一的护城河只有一条:用户习惯了从哪个入口触发它。

端侧推理如何改变成本结构

硬件入口的竞争,最终会回到一个更基础的问题上:Token从哪里来,到哪里去,谁来付账。

Token的价格是透明的,但Token里装了多少智力,用户无从得知。4月,AMD AI战略总监Stella Laurenzo基于6852个Claude Code会话的分析显示,从今年2月下旬开始,Claude Opus 4.6的推理深度大幅下降,腾讯科技也报道,每次代码编辑前的文件阅读次数从6.6骤降至2.0,降幅约70%。

这些改变没有在任何显著位置通知用户,大量开发者是在代码质量明显下降之后才开始怀疑模型是不是变笨了。

更隐蔽的是缓存命中率对实际成本的影响。一位开发者对Claude Code一周数据的追踪显示,正常情况下91%的Token来自缓存命中,缓存命中价格只有标准输入价格的十分之一。如果缓存全部失效,Input成本会暴涨到原来的5.7倍。

这个成本结构,是端侧模型价值主张的核心依据之一。端侧推理一次性部署后,边际成本趋近于零,没有缓存命中率的不确定性,也没有云端峰值定价的波动。对于频繁触发Agent任务的硬件设备,这个优势会随使用密度的增加而持续放大。

谷歌DeepMind 4月发布的Gemma 4,重新划定了端侧模型的能力边界。其E2B和E4B模型推理时激活的有效参数量分别仅为20亿和40亿,在LiteRT-LM框架下,可在3秒内处理跨越两个独立技能的4000个输入Token;E2B与E4B原生支持函数调用,覆盖Agent工作流所需的核心推理路径。上下文窗口达128K Token,在不足1.5GB的内存占用下可以完成运行。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。