当前位置: 首页 » 资讯 » 新科技 » 正文

罗福莉:各位醒醒吧,该结束token虚假狂欢了

IP属地 中国·北京 硅星人 时间:2026-04-07 12:43:30


作者 | 董道力
邮箱 | dongdaoli@pingwest.com

这两天,所谓“Anthropic封禁OpenClaw”的报道铺天盖地,但事实上Anthropic 是停止了OpenClaw这种第三方产品直接通过Claude Pro等固定付费的订阅方式来调用能力的路径。

你真的想用Anthropic 的模型和产品,要么通过官方来使用这种订阅模式,要么可以使用按量充费的API额度,封禁是没有封禁,只是限制了调用和对应的“收费”方式。

相比于错误理解成“封禁”并第一时间联想到“过河拆桥”的一堆讨论,小米 MiMo 大模型负责人罗福莉的一篇长文是少有的对这个事情真正认真分析,并聊到点子上的。

她认为,Anthropic 的动作并不意外,此前我们一直在一场无法持续的虚假token消耗狂欢里,现在该醒醒了。


1

订阅制不适合第三方 Agent

罗福莉首先对 Claude Code 的订阅设计给出正面评价,认为这是业内少有的、认真对待算力分配问题的产品设计。其逻辑是:轻度用户用的少,补贴重度用户,总体均衡。

但她随即指出,这套逻辑有一个隐藏前提:用户用的必须是 Anthropic 自己的框架。一旦脱离 Claude Code,就会出问题。

她以 OpenClaw 作为案例,指出第三方 harness 同时破坏了两个层面的均衡。

第一层是请求次数。她在推文中写道:"我没办法严格计算第三方 harness 接入造成的损失,但我近距离看过 OpenClaw 的上下文管理,很糟糕。在单次用户查询里,它会触发多轮低价值工具调用,每轮作为独立 API 请求发出,每个请求携带的上下文窗口往往超过 100K tokens。实际请求次数是 Claude Code 原生框架的数倍。折算成 API 定价,真实成本大概是订阅价格的数十倍。"

简单说,同一件事,OpenClaw 要跑十趟,原生框架跑一趟。


第二个层面是缓存效率。她在评论区补充道:"更大的问题是,很多第三方 harness 在接近上下文长度限制时,每隔几步就压缩一次工具返回结果,导致 cache 命中率极低。"

Claude 的缓存机制依赖上下文前缀的一致性,前缀匹配,才能复用缓存、跳过重复计算。但每次压缩都会改写上下文内容,导致前缀失配,缓存作废,模型被迫重新全量读入。

两个问题叠在一起,把每一次查询的实际 token 消耗都推向极值。

OpenClaw 的用户几乎清一色是重度用户,而即便是轻度用户,通过 OpenClaw 发出的每一次请求,在成本结构上也等同于重度用户。

订阅制赖以成立的分布假设就此坍塌,补贴关系不复存在,Anthropic 单方面承担成本缺口。

就像健身房办卡,就是赌一些用户办了卡但不来,从而补贴天天去健身房用户的成本,而 OpenClaw 让每个用户 7x24 小时的都去高强度训练,健身房成本就下不来了。

1

短期阵痛,长期改善工程纪律

而对于用户的愤怒,罗福莉认为这个短痛是有用的。

她写道:"第三方 harness 还是可以调用 Claude,只是不能再搭订阅的便车了。短期内,这批用户会感受到成本冲击,轻松跳升数十倍。但这个压力,恰恰会推动这些 harness 去改进上下文管理、最大化 prompt cache 命中率、减少无效 token 消耗。痛苦最终会转化为工程纪律。"

订阅制的问题在于,它让 harness 开发者从来不需要为单次请求的 token 消耗负责。上下文管理差不要紧,cache 命中率低不要紧,反正成本由 Anthropic 的服务器悄悄吸收。

但一旦回到 API 计费,这个结构就变了。token 浪费会直接体现在账单上,"优化效率"从可做可不做,变成了有商业压力驱动的工程需求。

每个开发者单独决策时都倾向于多用,整体生态的调用质量因此持续恶化。计费结构的改变,是把外部性内部化的强制手段。


1

Tokens 价格战只会导致恶性循环

相比于感慨Anthropic 过河拆桥,抄袭OpenClaw后要用自己第一方工具收割用户的讨论,罗福莉提出了一个更加有点“皇帝新衣”味道的提醒:

今天单纯为了token消耗而狂欢,以及模型厂商们由此出发打的各种价格战,将难以为继。是时候醒醒了。

她写道:"我劝 LLM 公司不要在还没搞清楚 coding plan 怎么定价之前,就跟着降价内卷。低价卖 token、同时向第三方全面开放,对用户看起来很友好,但那是一个陷阱。Anthropic 刚从这个陷阱里走出来。如果用户在劣质 harness、不稳定推理服务、降配模型上反复碰壁,最终什么都没做成,用户体验和留存都不会好看。"

这个陷阱的机制是:大模型公司推出 coding plan 向第三方 harness 开放,和 Claude 一样会入不敷出。为了控制成本,平台只能降低算力或换用更便宜的低智模型。用户表面上有充足的额度,但什么都做不好,留存自然也不用说。

问题的根源在于计费结构。Coding Plan 本质上是按订阅周期加请求次数的粗放额度包,开发者买的是一段时间内的粗略使用权,感受不到单次请求的真实成本。

当第三方 harness 接入时,上下文管理粗放、冗余请求、低 cache 命中率造成的算力浪费,成本完全由平台默默吸收。

订阅制切断了用量与成本之间的信号传导,重度用户通过低效 harness 透支的算力,最终迫使平台要么封禁第三方,要么靠降速、限流、降配模型来止损,这正是 Anthropic 走到今天这一步的路径。


当然,罗福莉的另一个目的也是为她在小米做的尝试和方案“做广告”。

MiMo 的 Token Plan 走的是另一条路。MiMo 没有封掉第三方入口,而是改变了计费结构:按实际 token 消耗量配额,开发者购买以 Credit 为单位的 token 额度。

无论使用原生框架还是 OpenClaw 等第三方 harness,每一个浪费的 token 都直接从用户的额度包里扣。平台不再为低效 harness 买单,用得多付得多,用得糙成本高,"用量-成本"的关系重新透明起来。

她将这套逻辑定位为:不是不让用,而是让计费结构本身成为约束机制,推动生态向高效率方向演化。

低价订阅的问题不在于便宜本身,而在于它切断了信号传导。在定价逻辑没想清楚之前跟进,复制的可能不是 Anthropic 的优势,而是它刚刚踩过的坑。

1

竞争正式进入下一个阶段

罗福莉在推文最后把视野拉到了更大的框架上。

她写道:"全球算力的供给速度,已经追不上 Agent 场景下 token 消耗的增速。真正的出路不是更便宜的 token,而是协同进化,更高 token 效率的 agent harness,乘以更强大、更高效的模型。Anthropic 这次,不管主观意图是什么,客观上把整个生态,无论开源还是闭源,都推向了这个方向。Agent 时代不属于烧算力最多的人,而属于用算力最聪明的人。"


罗福莉在推文最后正是在挑战过去几年 AI 行业信奉的"算力竞赛"叙事。

主流逻辑一直是:算力更多,模型更强,成本更低,用户更多,形成正向飞轮。

但 Agent 场景打破了这个等式。当一次用户查询可以触发数十次 API 调用,每次携带超过 100K tokens 的上下文,算力消耗的增速就不再是线性的。单纯压低 token 价格,只会加速这个消耗,而不会改变其结构。

这意味着,下一轮竞争的核心指标,可能不再是"每 token 多便宜",而是"每 token 能完成多少有效工作"。谁先在这个维度上建立优势,谁就能在全球算力供给跟不上 Agent 需求增速的窗口期里,占据真正有利的位置。

Anthropic 这次调整,无论出于什么动机,都在客观上把整个生态推向了这个方向。

快把烧token变成某种爱好和社交展示资本的人们吐槽吐槽Anthropic 就罢了,对于各类Harness产品以及模型厂商们来说,这事真正的信号意义其实很强,如果还是想着趁乱靠免费量大管饱去接住一波流量用户,就太不合时宜了。

一个阶段性的狂欢是时候让位于在工程和基础设施设计上的真正重要的工作了。


点个爱心,再走 吧

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。