当前位置: 首页 » 资讯 » 新科技 » 正文

Harness、林俊旸、万亿美金赛道和 Anthropic 的手掌心

IP属地 中国·北京 硅星人 时间:2026-03-29 14:19:49


Agent 时代的 Infra,机会和想象力比“龙虾”大得多。

2026 年 3 月,AI 行业里最热的词不是任何一个模型的名字,而是一个听起来跟 AI 毫无关系的英文单词:Harness。

它的本义是马具。缰绳、笼头、鞍具,那一整套套在马身上的东西。

如果换作动词,它的意思应该是"驾驭"。

你不会说 harness a calculator(驾驭一台计算器),但你会说 harness the wind(驾驭风),harness a horse(驾驭马)。用这个词的人,不管有意还是无意,都在承认一件事:他面对的不是一个被动的工具,而是一种有力量、有自主性的存在。他不是在"使用"它,是在"驾驭"它。

这个词正在成为 AI Agent 时代最核心的产业概念。

围绕它,正在生长出一个万亿美金规模的基础设施层。而这个基础设施层的规则制定者,也呼之欲出。


Harness is the New Infra

Harness 在 AI 语境里有两条演化线索。

第一条是修辞层的。"Harness AI"作为一个泛用表达,在科技行业流传已久,意思无非是"驾驭 AI 的能力"。

第二条更重要,是技术层的。2025 年底,Anthropic 开始用"harness"描述围绕 AI Agent 搭建的那套基础设施——上下文管理、工具调用、记忆、护栏、编排。Claude Agent SDK 的官方定义就是"a general-purpose agent harness"。

2026 年初,HashiCorp 联合创始人 Mitchell Hashimoto 把"AI Harness"作为一个正式概念提出,"Harness Engineering"作为一个新的工程实践领域迅速扩散。

但真正让这个词值得被认真对待的,不是它的流行,而是它精确地描述了人和 AI 之间正在形成的一种新关系:共生式的不对称协作

人提供意图、判断和方向。AI 提供能力、速度和规模。

Harness 同时承认了能力的不对称和权威的不对称,而且这两种不对称是反向的——AI 的能力可能远超驾驭者,但驾驭者拥有最终的方向决定权。

马比人跑得快得多、力量大得多,但去哪儿,是人说了算。

人需要驾驭比自己强大的 AI。 这大概是 Anthropic 选择这个词时——不管有意还是无意——最精准的一层表达。

而 Harness 这个词,确实也挺"Anthropic"(人类),有点儿以人为本的意思。

有人说: Harness is the New Datasets。

这句话的直觉很灵敏,但结论不准确。当基座模型趋同时,Harness 的质量确实成了决定 Agent 好坏的关键变量,就像数据质量能决定一款基座模型的生死一样。

但 Datasets(数据集) 和 Harness 的存在方式根本不同:Datasets 在技术架构中占据单一位置,即训练阶段的输入;但 Harness 不是一个具体的层,而是一个栈,是层的组合。

上下文工程和记忆是存储层,工具接入是网络层,编排是容器层,护栏是安全层,评估是可观测层,技能封装是中间件。每一层都能长出独立的公司、标准和商业模式。这跟云计算 Infra 的栈式结构完全同构。

从这个意义上说,Harness is the New Infra,它不是模型预训练的 infra,而是建构 Agent 的 infra,让 Agent 具备自主性,同时严格遵循人的指令、确保安全和遵守规则的 infra。

Harness 本身不是新的 Datasets,但 Harness 的良性运转会为 Agent 生成好的 datasets,并建立数据飞轮。当一个 harness 积累了足够多的用户行为数据和领域知识,它就不只是外挂的系统设计了,它开始拥有数据的属性:越用越好、越用越难替换。

由此可以推出一个几乎可以当定义用的等式:

基座模型 + Harness = Agent。

基座模型提供原始能力——推理、生成、理解。但它是静态的、被动的、无方向的。它什么都能做,所以它什么都不是。Harness 提供结构、方向和约束,把无限的可能性收束成有限的、有目的的行动。两者结合的瞬间,AI 从一个被询问的对象变成了一个去行动的主体。

同一匹马,套上不同的装具,能拉车、能载人、能耕田、能比赛。Harness 的设计决定了 Agent 的形态和用途。


林俊旸的 Pitch Deck

2026 年 3 月 26 日,Qwen 团队前技术负责人林俊旸(Junyang Lin)在 X 上发了一篇长文,标题是 "From 'Reasoning' Thinking to 'Agentic' Thinking"。两日内,70 万阅读,2800 个赞,677 次转发。

三周前,3 月 4 日,他刚从阿里巴巴离职。三周后,他写了一篇系统性的行业判断文章。


文章的核心论点是:AI 正在从"想得更久"转向"为了行动而想"。

Reasoning Thinking(推理思考)本质是静态独白——模型在封闭空间里生成越来越长的推理链,试图用更多文本弥补缺乏与环境交互的不足。而 Agentic Thinking 是在与环境交互的过程中持续推进任务。训练对象经历了三级跳:从训练模型,到训练 Agent,到训练系统。

这不是空谈。他用 Qwen 自己的实战教训来佐证:合并 thinking(思考) 和 instruct(指令) 模式比想象中难得多。两种行为的数据分布和优化目标根本性地互相拉扯——instruct 追求简洁、快速、格式合规,thinking 追求花更多 token 探索替代路径。Qwen3 尝试合并后,又拆回了独立线。

这个教训指向一个更深的洞察:Instruct 是前 Agent 时代的 Harness 替代品。

Instruct 通过 SFT 和 RLHF 把行为规范"烧"进模型权重——这等于是把缰绳缝进了马的肌肉里。它在一问一答的时代够用。但到了 Agent 时代,模型要自主运行、调用工具、持续决策,行为空间爆炸式膨胀,不可能把所有约束都训进权重里。控制的重心必须从模型内部转移到模型外部。

Instruct 的能力边界被 Agent 范式击穿了,Harness 是必然演化。

林俊旸在文中四次提到"harness",递进关系非常清晰:

从"agent 运行的外部环境",到"一个独立的工程实践——harness engineering",再到"训练对象的一部分——agent and the harness around it"。

他的文章从训练侧证明了一件事:Harness 不仅是 Agent 运行时的基础设施,也是 Agent 训练时的基础设施。

在 Agentic RL 的闭环里,Agent 在 Harness 中运行,环境产生反馈信号,反馈驱动 RL 更新策略,策略改变 Agent 行为。拿掉 Harness,不是 Agent 变慢的问题,是训练根本跑不起来的问题。

而且他明确提出:Agentic RL 的最大瓶颈不是算法、不是模型架构,而是环境质量和 rollout 基础设施。制约 Agent 进化的卡点在 Infra 层。

感谢俊旸,替我补充了"Harness is the New Infra" 这个论证缺失的一半。

Harness 是 Agent 运行时不可或缺的基础设施(infra),这是前文的一个断言。而俊旸的这篇文章告诉我们:Harness 也是 Agent 训练时的 Infra。在 Agentic RL 的闭环里,环境产生反馈信号,反馈驱动策略更新,策略改变 Agent 行为,Agent 行为又触发新的环境反馈。

一个在训练和推理两端都不可或缺的系统层,才是真正意义上的 infra,也就是 Harness。

林俊旸在文章里说了一句意味深长的话:"环境构建正在从副项目变成一个真正的创业品类"。

"环境构建"并不等同于 Harness,而是 Harness 的一个子集,但又是一个重要的子集。"环境"主要对应 Harness 架构中工具接入和评估反馈——特指 Agent 训练时与之交互的那个世界:代码执行沙箱、浏览器模拟器、测试用例集、API 模拟层。它的核心功能是产生反馈信号,让 Agentic RL 有东西可以优化。它有点像是 Agent 训练和搭建的容器、benchmark 和 Hugging Face。

环境是 Agent 训练时的操场,Harness 是 Agent 跑起来时的全套装备。 操场是装备的一部分,但不是全部。

不过,当一个开源模型的前技术负责人开始为 Harness 的某一个子模块单独定义创业品类,这件事本身就是一个信号——它说明这个栈已经足够复杂、足够有价值,开始像真正的 Infra 栈一样分层长出独立的商业实体了。

而在一篇学术味很浓的长文里定义了一个创业赛道。如果你觉得这还不算是林俊旸创业的pitch deck,那你就别做 VC 了。


万亿美金的创业赛道

如果林俊旸真的去做 Agent 训练环境基础设施——那个他亲手定义为"真正的创业品类"的方向——他面对的是 Harness 这块蛋糕的哪层?这层蛋糕又有多大?

Harness 内部是一个完整的多层架构,可以拆成七个核心模块:上下文工程、记忆系统、工具接入、技能封装、护栏与权限、评估与反馈、编排与状态管理。

除了工具接入层(MCP),每一层都有创业公司在跑。

上下文与记忆层有 Cognee(€750 万融资)和 Interloom($1650 万种子轮,Sequoia 参投)。

工具接入层被 MCP 协议标准化了——月 SDK 下载量 9700 万,Anthropic、OpenAI、Google、Microsoft、Amazon 全部接入了,没有太多创业公司。

安全接入层冒出了 Runlayer($1100 万,Khosla 领投),护栏与合规有 Guardrails AI、Vigilant AI、Runtime、Alter。评估与可观测性最热,Arize AI 拿了 $7000 万 C 轮,客户包括 Uber 和 PepsiCo,Langfuse 成了开源社区标准。

编排层则呈现了"三强"格局:LangGraph、CrewAI($1800 万融资,60% 财富 500 强在用)和微软 Agent framework,其中两家是创业公司。而 Skills 封装层的创业公司多以垂直行业赛道的 Agent 产品呈现,它的标杆是 Harvey——法律 AI,$110 亿估值,$10 亿累计融资,ARR $1.9 亿,以及 Abridge,医疗——AI,$53 亿估值。

训练环境层处于最早期,约 20 家种子期公司,Wing VC 预测到 2030 年整合为 3-5 家。

但不是每个模块都是好赛道。

判断赛道还坏,核心判断标准是:这个模块解决的是"模型能力问题"还是"系统设计问题"。

前者会被基座模型吞掉——上下文窗口从 128K 扩到 1M 再到更大,今天精巧的压缩策略,可能明天就没用了。

而系统设计层的模块则有持久价值——比如工具接入,它是生态位问题;安全护栏是合规问题;评估是独立性问题,这些不是模型变强就能消解的。

它们的退出路径也截然不同。工具接入和技能封装离模型太近,模型厂有极强动机收编——Anthropic 做 MCP 和 Skills,OpenAI 做 Plugins 和 GPTs,都是在吞这两层。

在这两个方向创业,天花板是被收购。护栏合规和评估可观测性正好相反,它们天然需要第三方独立性。银行不会信任 Anthropic 自己的合规审计工具,就像你不会让被审计方自己出审计报告。独立性不是商业策略,是产品价值本身。 前者是好的收购标的,后者是好的 IPO 标的。

它们都属于 Harness,Agent 的 Infra。那 Harness 赛道的总盘子有多大?

自下而上,按七个子赛道的估值空间加总,到 2030 年独立创业公司的估值总和约 $5000-8000 亿。其中技能封装与垂直知识最大($2500-3500 亿),护栏与合规增速最快(CAGR 65.8%,从 2024 年 $7 亿到 2034 年预测 $1099 亿,Agent 越自主,缰绳的价格越贵),训练环境最早期但确定性最高。

AI Agent 整体市场 2030 年预测 $500-1000 亿收入,Harness 作为 Infra 层约占 40-50%,按 SaaS/Infra 的 10-15x PS 倍数折算,估值空间是可以的吻合。

近万亿美元的创业赛道。

如果把模型厂内嵌的 Harness 收入也算进来,整体 Harness 基础设施层的估值空间在 $2.5-3.8 万亿。大约相当于今天整个云计算 Infra 层的市值总和。

那么回到林俊旸,他如果真的切入训练环境与 RL 基础设施这个 Harness 子赛道,它面对的是一个目前只有约 20 家种子期公司、但到 2030 年估值空间 $200-500 亿的市场。Wing VC 预测这个赛道最终会整合为 3-5 家头部。

以他 Qwen 前技术负责人的身份,如果在硅谷,种子轮估值可能在 $2-5 亿之间。市场给的不是公司估值,是对人的定价。林俊旸已经不需要写 BP了,那篇推文就足够了。而如果在中国拿美元基金,估值$5000万起底,$ 1亿不无可能。人民币?那再说吧。


Anthropic 的手掌心

现在需要回答一个真正重要的问题:Harness 这个万亿美金的基础设施层,是谁在定义规则?

让我们看看以下残酷的事实:

MCP 是 Anthropic 推的标准协议。Claude Code 是 Anthropic 造的 harness 产品,年化收入 $25 亿。Agent SDK 是 Anthropic 建的开发者入口。Skills 系统是 Anthropic 设计的。甚至"harness"这个词在 AI Agent 语境里的流行,最大的推手就是 Anthropic。

更深层的原因是商业模式。

OpenAI 的核心叙事是"最强模型",收入主要来自 ChatGPT 订阅,Anthropic 彻底不做多模态和世界模型,但它被越来越多的人认为是最强模型。Claude 的卖点不是跑分第一,而是"最适合 Agent 工作流的模型"——更可靠、更可控、更适合长时间自主运行。

这个定位意味着 Anthropic 的竞争力不仅来自模型,更来自模型周围那套 Harness 的质量。每一层 Harness 的完善,都在加宽它的护城河。Harness 生态的繁荣直接等于 Anthropic 的商业利益。

这解释了为什么 OpenAI 从 2023 年就开始尝试建生态——Plugins、GPTs、GPT Store,然而都没做起来,而 Anthropic 的 MCP 2024 年底才推出,晚了一年半,却成了事实标准。

它背后根本原因是:OpenAI 建的是应用生态,Anthropic 建的是基础设施生态。

OpenAI 的 GPT Store 是 App Store 的逻辑——我有最大的用户基数,你来我这里开店。但当模型本身什么都能做的时候,应用就没有存在必要。GPTs 没有差异化壁垒,因为底层能力和 ChatGPT 本身是同一个东西。

而Anthropic 的 MCP 不是应用商店,是协议商店。它不邀请开发者来 Claude 上开店,而是定义一套连接标准,所有工具和所有模型都可以用。这是 HTTP 的逻辑,而不是 App Store 的逻辑

而协议越开放,生态里控制力越强。现在,所有人都用 MCP,而 MCP 是 Anthropic 设计的,它不需要锁定用户,它锁定的是开发者的心智和工具链。

在资本层面。Anthropic 和早期投资人 Menlo Ventures 成立了 $1 亿的 Anthology Fund,一年投了 30 多家 harness 方向的创业公司。结构很聪明:Menlo 出钱,Anthropic 不参与基金经济利益,但给每家被投公司 $25,000 的模型 credits,并开放首席产品官 Mike Krieger 和总裁 Daniela Amodei 参与 demo day。

Anthropic 一分钱不出,锁定了 30 多家创业公司到 Claude 生态,同时获取最前沿的需求信号。这是一个无成本期权。

不过,我们想过没有:为什么在 Agentic AI 时代,Anthropic 的协议生态,比 OpenAI 的应用生态更重要?

因为 Agent 不是传统意义上的"应用"。传统 App 的交互接口是固定的、有限的——用户叫车,App 按预设流程调 API、匹配司机、算路线。Agent 不一样,它自己决定调什么工具、以什么顺序、在什么时候。交互接口是无限的、动态的。而且 Agent 和 Agent 之间也需要协作——编排者调度专业 Agent,专业 Agent 调度子 Agent,这是分布式系统的协同问题。

当交互接口是固定的,你可以逐个对接;当交互接口是无限的,你只能定义标准。

TCP/IP 让任意两台计算机通信,HTTP 让任意客户端访问任意服务器,MCP 让任意 Agent 调用任意工具。应用生态的基本单元是"产品",协议生态的基本单元是"连接"。在 Agentic 时代,连接的数量和质量决定一切。

所有 Harness 创业者都在翻跟斗。林俊旸如果真的去做训练环境基础设施,那个他亲手在文章里定义为"真正的创业品类"的方向,他的产品最终大概率也要接入 Claude 生态;或者在中国建立起一个平行的生态。因为 Anthropic 定义了协议、建了 SDK、铺了生态基金、占了开发者心智。

可能,只有中国 Agent 创业者有可能跳出 Anthropic 的手掌心,这是不可抗力。

文| 骆轶航和他的 Claude Cowork

点个爱心,再走 吧

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。