
4月4日,忍耐了许久的Anthropic,终于宣布切断了第三方客户端挂在Claude Pro/Max订阅账号的通路。
这一举动瞬间在开发者社区激起了轩然大波。不少习惯了通过OpenClaw和OpenCode等代理工具薅官方订阅羊毛的用户对此表示极为不满,毕竟,为数不多的几条通往国际顶级大模型的“低价高速”又少了一条。
两天之后,小米AI团队的罗福莉发布了一篇关于Mimo Token Plan的推文,批判了当前智能体行业中算力分配的乱象。

两家AI公司的彼此独立的商业动作,异口同声地揭示了一个不易发现的行业真相:
大模型正在从互联网免费午餐的幻觉中退场,回归作为稀缺能源的物理本质。
01
订阅制的崩塌
一个摆在眼前的事实是:算力的“大锅饭”,已经供不起爆发两个多月的智能体了。
在传统的SaaS时代,订阅制就是互联网公司商业文明的基石。
无论是著名的Netflix,还是以前几乎每个人电脑中都必须安装的Office 365,商业逻辑都是一样的:“用大多数人的闲置来补贴极少数的重度用户”。
但在如今的智能体时代,这个逻辑已经失效。
罗福莉在推文中隐含了一个深刻的洞察:在当前的算力成本下,低廉的token价格、高强度的使用频率和第三方代理的完全开放,构成了一个不可能三角。
对于几个月前的大语言模型,传统的对话式使用(Chatbot)受到人类输入和阅读的速度限制,单次会话的Token消耗基本存在一个明确的上限。
但Agent毫无征兆地彻底打破了这个博弈规则。
一个像OpenClaw这样的编程代理,想要执行任务就必须进行高频的环境感知和工具调用。
越复杂的任务,模型需要记住的内容就越多,在真实应用场景下,隐藏在每一次微小修改背后的,可能是超过上百万的token消耗。
如果把订阅制比作健身房的会员卡,过去的用户只是偶尔去运动一个小时打个卡。
但现在的智能体用户,就是带着一群大胃王去吃自助餐,而且每个人的胃都是无底洞。
按照目前Claude Opus 4.6的API价格,输入端5美元/百万token,输出端25美元/百万token,一个深度开发者通过第三方代理进行短短几个小时的重度编程,实际消耗的token价值可能轻而易举地消耗上百美元。
结论显而易见,Anthropic卖出一份几十或是上百美元的订阅,不仅不赚钱,甚至要亏损不少算力成本。
Anthropic在正式切断第三方接入之前,已经不止一次封禁各种渠道的外部订阅,而Google的Antigravity和OpenAI的Codex也同样有类似的操作。
本质上,这就是AI企业不约而同的一次商业化止损,防止订阅制被智能体带来的算力黑洞彻底吞噬。
国内的AI企业当然也不能幸免。
今年3月起,智谱、阿里、腾讯等企业推出的Coding Plan订阅服务陆续宣布大幅度涨价。
短短一周之内,和此前的外卖大战如出一辙的低价获客活动就草草落幕。
02
计费模式的演进
模型越变越强,用户越来越多,AI行业的计费逻辑也正在经历着从模糊到精确的演进,而这背后则是用户付费认知与厂商成本压力之间的博弈。
①明码标价的API
原生的API就是最初的工业级“电表”。
API从AI行业走入人们视野至今,一直都是最透明的计费方式,也是让普通用户最焦虑的方式。
它和每家每户的电表一样实时跳动,每一句“你是谁”都在扣费。
极其公平的计费方式,实际价格却触目惊心:

Anthropic被全球用户诟病的超高定价自然不必多说,但国内的AI巨头们发布的旗舰模型API价格也绝对说不上便宜。
价格门槛不仅阻碍了大规模的C端普及,B端用户也不得不仔细考量本地部署的经济效益。
但在AI企业相继推出订阅服务之前,这就是用户唯一能选择的付费方式。
也因此,开发者的每一次调用都伴随着极大的“算力焦虑”,这种焦虑也扼杀了AI本该带来的探索性尝试。而更多的用户,选择继续在网页中与AI免费交流。
②随处可见的Coding Plan
面对这种付费欲望极低的困境,Coding Plan成为了变现的良机。
虽然名称各有不同,但目前国内外主流大模型几乎全部推出了订阅制的Coding Plan,这也是付费认知和成本压力彼此妥协的最终产物。
它通过“每5小时1200次请求”这样的模糊规则,将算力包装成了一种类似宽带包月的服务。
随着Coding Agent的诞生,其价值逐步得以体现:它成功建立了一部分开发者用户的付费习惯。
这些程序员们成为了第一批吃螃蟹的人,他们开始在电脑上让AI帮着编写代码、运行、调试、修复bug,而不是通过复制粘贴的方式频繁切换窗口和网页中的AI进行交互。
不过,仅仅两个月之后,这种计费方式的局限性也暴露出来:不透明。
这1200次请求,可不是用户给AI发送消息的次数,而是调用模型的次数。
用户的1次提问,就会触发几次甚至几十次的模型调用。完成一个任务需要几次提问、几次模型调用?没人能说得清。
除此之外,厂商为了控制成本,往往要在后端进行精细的流量控制,甚至在压力过大时通过模型降级等方式来维持服务。
这种计费模式,最终直接导致了用户使用体验的断裂。对于专业开发者来说,一旦进入高强度的编程状态,要么是发现AI突然降智,要么是因为多次对话达到频率限制而不得不中断。
③小米发布的Token Plan
这是4天前小米刚刚推行的一套新的计费逻辑,也是罗福莉在推文中极力倡导的方案。
值得注意的是,发布当天晚上,腾讯也推出了同样的计费方式。
与Coding Plan不同的是,它不再使用以次数为限制的虚无缥缈的承诺,而是像手机流量包的配额制一样,明确告知用户一个周期内套餐中能够使用的token数量。
当然,罗福莉作为小米AI团队的代表,一篇推文的发布必然优先立足于小米的商业化利益。
与此同时,如果只看旗舰模型,小米的MiMo-V2-Pro能力和国内第一梯队的智谱、MiniMax、Kimi也拉不开太大的差距,但价格却并不“亲民”。定价表中“一杯咖啡”的价格,怕是给星巴克用户专门定制的。

但必须承认的是,这种计费方式是目前能够兼顾算力紧缺现状和商业利益的唯一解法,也是最符合货币经济运行规律的方式。
人们花钱购买生产资料,而产出的价值则取决于生产力。
AI服务被量化为可预测的成本,“提效”的压力也交还给了开发者。
一个月前被卖到脱销的Coding Plan已经告诉我们,在底层大语言模型的性能拉不开差距的情况下,一价定律在订阅服务上是成立的。
因此,可以预见,在4月接下来的几周内,Token Plan即将接管新的token计费战场。
至于小米的模型能力到底对不对得起定价,市场竞争最终会给出公平的答案。
03
技术层面的反思
高昂的API调用成本、限流限售的Coding Plan、再加上让token进一步涨价的Token Plan,算力紧缺的问题从来没有被根本解决,反而进一步笼罩了全球AI市场。
以前AI巨头们抱怨算力不够,是因为规模化定律(Scaling Law)始终在发挥作用。
在那个大语言模型跑分决定一切的年代(尽管就是几个月以前),想要推出具有竞争力的新一代旗舰模型,算法、算力和数据就必须有所突破
显然,相比起算法,算力和数据的堆砌在工程上与投入呈明显的正相关关系,只要有更好的数据和更多的芯片,模型就必然会更强大。
但Agent时代,规模化定律虽然仍在生效,但效果已经不如先前显著。
如今的算力缺口,从训练阶段转移到了推理阶段,而Vibe Coding技术和以OpenClaw为代表的代理程序可谓是罪魁祸首。
就像我之前的观点一样,OpenClaw等一众桌面代理的出现创造了前所未有的伪需求。
而推理阶段中出现很大一部分算力缺口,就是因为其Agent框架设计粗糙,人为制造出了大量毫无必要且效能低下的交互。
SGLang的核心贡献者赵晨阳在4月6日发布的一篇文章中,把这种现象成为“用消防水龙头浇花”。
而起因是因为他在观测现有的Agent框架实际产生的请求模式时,发现缓存命中率(Cache Hit Rate)惨不忍睹。
这与罗福莉推文中提到的问题完全一致:目前的第三方Agent框架在上下文管理上表现得极其“懒惰”。
为了在复杂任务中不会因为遗忘信息而脱离应用场景,Agent往往会在每一轮对话中都重新发送一次全量且未经优化的上下文。
而在接近上下文窗口的上限时,大约每3步就会“破坏性”地压缩一次工具响应信息。
这种行为在工程角度来看最为直观和简便,但几乎让为推理引擎设计的提示词缓存机制变得无效。
赵晨阳的描述很符合目前AI行业软硬件发展的现状:
硬件工程师拼命把HBM做大,推理引擎工程师拼命优化KV Cache内存布局,然后上层Agent框架以一种愚蠢的请求方式将资源挥霍殆尽。
这就是各种Claw爆火的匪夷所思之处和商业逻辑:
模型能力不足→靠Agent框架增加token消耗来弥补→token销量增加→厂商涨价
自工业革命以来,这套运行逻辑不符合任何技术演进的过程。
这就好比有人设计了一辆极度费油、甚至一边开一边漏油的破车,驾驶者不仅没能跑的更远,反而因为浪费了大量燃油而推高油价。
而现实已经证明,这种依靠低效堆砌换来的繁荣必然是虚假的:
3月上旬安装龙虾成为净赚几百元的生意;
3月中旬AI企业开始免费给用户安装龙虾;
3月下旬上门卸载龙虾再次成为净赚几百元的生意;
4月龙虾在普通用户中无人问津。
罗福莉推文中说的一句话值得所有开发者牢记:
痛苦最终会转化为工程纪律。
只有Token变贵到人们不能挥霍的程度,开发者才会有动力去思考:
如何用更少的Token完成更多的任务。
04
算力不再是“免费午餐”
人们总是在说,AI,或者说token,未来将会成为水和电一样的生活基本资源。
于是,AI行业内也普遍形成了一个共识,未来token的成本将会被打到一个极低的水平。
但现实也如此吗?
至少目前的趋势,是token在越来越贵。
国内受限于芯片出口限制,算力必须作为“省着花”的存量资源;国外受限于电力基建和电网功能,算力变成了有上限的增量资源。
在这种既需要算力加强基础模型性能,又需要算力满足爆发的推理需求的环境下,算力的供不应求已经不仅是AI企业需要考虑的问题,全球的AI用户也必须承担一部分经济成本的压力。
也因此,Coding Plan几周前的价格战无需任何叫停的声音就已经销声匿迹。
按照火山引擎总裁谭待所说,国内智能体用户的体量只有百万级,而这已经能让各大AI企业在短短一周之内接连涨价订阅服务,核心原因仍然是:
其中存在大量快速消耗token但产出价值极低的伪需求。当算力以大锅饭的形式供给大众时,这些伪需求就会快速挤占公共资源。
于是,“精准配给制”理所应当地出现了。
Google的Gemini API增加了付费优先级,小米和腾讯推出了价格更高的token订阅服务,本质上都是在通过价格手段进行资源的最优配置。
按token使用量计费,正是要让更具价值的token分配给能创造出更多价值的人。
而这场算力经济的变局,迟早要深刻影响每一个AI用户的日常。
在过去的二十年里,软件工程的主旋律一直是“用空间换时间”和“用硬件换开发效率”。
但在Agent时代,算力被抽象为token,颠覆了这套逻辑并成为了最昂贵的变量。
未来的AI用户,可能不会再有0门槛使用AI完成生产任务的机会,还必须做出一个艰难的二选一:
要么有钱购买高价值token,要么懂得算力预算管理。
也就是说,对于绝大部分人们,在使用AI时都必须有清醒的认知,并准确判断一项任务值得调用什么水平的模型,甚至是一段上下文如何进行更有效地摘要和每一次工具调用是否是冗余的操作。
或许不容易意识到,但我们已经被迫进入了一个算力精算的时代。
不仅是开发者,每一个AI用户都必须站在推理引擎、模型能力和业务价值的十字路口做出权衡。
低效的用户依靠暴力堆砌token,在频繁的改错和吵架中耗尽额度,最终和拒绝使用AI的人并无两样。
而高效的用户学会设计出更好的提示词架构,用更聪明的调度方式让模型在更短的上下文中给出答案。
这场由Anthropic切断第三方渠道引发的讨论,已经给所有人敲响了警钟:
算力红利接近枯竭,算力纪律已经降临。
我们必须接受高价值token正在变得昂贵而稀缺的现实,而且只能在这个现实中寻找新的工程最优解。
罗福莉在推文的最后给出了一句结论:
Agent时代不属于烧算力最凶猛的人,而属于利用算力最聪明的人。
提高生产力的关键,绝不是规定每个员工一个月必须要用掉多少token这种滑稽的做法,而是如何把单位算力的智商产出比提升一个数量级,这才是Agent时代的入场券。
至于通用人工智能(AGI),在现有的底层模型能力和Agent算法框架水平下,还只是春秋大梦。





京公网安备 11011402013531号