当前位置: 首页 » 资讯 » 新科技 » 正文

90%被大模型吃掉,AI Agent的困局

IP属地 中国·北京 编辑:吴俊 光锥智能 时间:2025-07-18 22:08:32

文|魏琳华

编|王一粟

“90%的Agent会被大模型吃掉。”

7月15日,金沙江创投主管合伙人朱啸虎一如既往地语出惊人,这次炮轰的是近一年AI圈最炙手可热的Agent。

在“Agent之年”进程过半的时候,最近传来的似乎却多是悲观的判断和信息。就在上周,Manus总部迁移至新加坡、国内裁员80人以及放弃国内版本上线的一系列动态,也让大众开始讨论起,Manus到底怎么了?

背后有身为美元基金的BenchMark领投、底层模型包含Gemini、Claude等一系列海外模型,加之曾陷入缺算力资源的传闻,Manus的出走,已经印证为形势所迫的转移和调整,而非经营失败导致的撤退。

但围绕以Manus为首的通用Agent,它们头顶的乌云尚未散去:一边是Manus、Genspark们收入变现的下滑,另一边是用户活跃度的下跌。

这种局面,揭示了当下通用Agent赛道的核心问题:在技术热潮和资本狂欢过后,产品尚未找到能让广大C端用户持续“忠诚”并为之付费的杀手级应用场景,只能被偶尔拿来做个半成品PPT、找几份报告。

通用Agent市场,正在被模型能力的溢出蚕食,也被垂类Agent抢走份额。

转战海外,Manus们怎么了?

通用Agent,陷入了一个尴尬的境地。

在几个月的时间里,通用Agent诞生时的惊艳不复存在:放在企业里,它无法和垂类Agent的精准比肩;拿到个人手上,它又没有找到更戳中用户需求的场景。

模型能力的提升,先对Agent们“砍了一刀”。

随着大模型能力的飞速发展,模型本身正在变得越来越“Agent化”,随着模型性能的溢出,用户可以直接调用模型来完成任务。

以目前进展更快的AI代码为例,Anthropic的Claude、谷歌的Gemini系列模型,模型本身的编码能力就在随着更新提升,其自研的编码工具(如Claude Code)不仅能给实现自主编程,优化种种产品体验之外,它的Max会员模式还支持用户随意调用自家模型,即使是每百万输出tokens收费75美元的Opus 4,单月200美元同样支持不限量使用。

对比Manus最贵的Pro会员每月199美元的付费模式,价格虽然接近,但Manus的最高档会员依旧是以积分制消费,Pro会员单月能获得每日赠送的积分+单月19900积分+限时19900积分,靠任务消耗积分制来服务。按照单个任务100积分估算,一天使用次数也就在10次左右。

制约Manus的成本问题,转嫁到用户身上,就是不可消除的高订阅价。

当模型本身就能提供接近Agent的体验时,用户会自然倾向于直接使用更便宜、更便捷的模型API或对话界面,而非额外付费使用一个功能重叠的通用Agent产品。这导致一部分市场份额被能力日益强大的基础模型直接“吃掉”。

面向用户来说,对比垂类Agent,通用Agent在企业端的应用效果不佳,从效率/成果衡量,都无法达到“数字员工”的高度。

朱啸虎说“90%的Agent市场会被吃掉”,但他所在的金沙江创投也参与了AI Agent项目融资,只是相比于通用Agent,他更看好能真正跑出效率和实际落地的产品。

金沙江投资的Head AI(原Aha Lab),就是一家靠AI Agent做自动化营销的公司,现在升级为AI营销产品。用创始人的话来说,只需告诉 Head 你的预算和网站,它就能自动搞定达人营销、联盟营销和 Cold Email——一个人解决一个市场部。

对于企业用户而言,准确度和成本是核心诉求。但通用Agent目前还无法与针对特定场景优化的垂类Agent相提并论。

如果把一样的任务交给通用Agent和企业内部的垂类Agent去做,前者只能靠搜索引擎结合需求给出结果,而后者则会连接到企业内部搭建好的知识库,根据内部信息贴合需求输出,相当于后者身上“绑”了个更充足的资料库,结果不言而喻。

企业在引入新技术时,对成本和风险的控制要求极高。通用Agent通常基于庞大而复杂的“黑盒”模型,其决策过程不透明,且输出结果存在一定的随机性(即“幻觉”问题)。对准确度要求更高的企业,显然无法接受通用Agent不稳定的输出质量。

一位Agent开发者告诉光锥智能,企业通常需要将Agent与内部知识库、业务流程系统深度集成,部分简单的工作则会通过工作流来确保任务准确执行。

夹在大模型和垂类Agent之间,通用Agent被两者各自瓜分走了一大块蛋糕。

没场景、待进化

Agent才走了个开头

在“用不起来”的情况下,用户对通用Agent热情也不复当初。

这也导致,以Manus们为代表的C端通用Agent正在面临增长放缓、甚至倒退的困境。

虽然从商业化上来说,通用Agent确实展现了足够吸金的一面。以Manus、Genspark等通用Agent为代表,近几个月的变现成绩证明了这个赛道的潜力:非凡产研数据显示,今年5月,Manus已经达到936万美元ARR(年化收入),Genspark更是在发布45天的情况下,达到3600万美元ARR。

但在短期的流量上涨过后,通用Agent产品们或多或少地出现了访问量和收入下降的情况。

6月,Manus访问量为1781万,和3月发布即登顶的访问量2376万相比,已经下跌25%;Genspark的访问量也处在来回浮动的状态,6月访问量为842万次,下降8%,昆仑万维天工超级智能体下降3.7%。

同样是在6月,两个商业化表现突出的产品Manus和Genspark出现不同程度的收入下跌。据非凡产研数据,Manus当月MRR(月度收入)为254万美金,环比下跌超过50%;Genspark当月MRR为295万美金,环比下跌13.58%。

上述数据说明,在一时的热度过后 ,通用Agent类产品的使用体验并没有能让用户持续付费的吸引力。同时,用户体验的频次也在减弱。

究其原因,还是因为Manus们没有找到足够让用户为之持续付费的Killer(杀手级)场景。

目前,市场上多数通用Agent都在卷几个固定的方向:做PPT、多模态能力、写报告(Deep Research),多聚焦于和办公强相关的场景。但对于用户来说,这些定位还难以让用户持续付费。

在没有找到确切的应用方向前,通用Agent赛道已经有一批公司先靠产品下水测试,意图先抢占市场。

变现和流量不稳定的情况下,大厂对自研Agent的精力投入有限,一般还是采取“两手抓”的模式,在开发自家Agent产品之外,目前更多地在推广自家Agent开发平台。比如阿里、字节和百度,推广平台的同时发福利、组织Agent开发比赛,聚焦开发者生态搭建。

市场似乎已经默认,通用Agent是小厂玩不起的生意。

可以看到,在国内市场,除去Manus和GensPark零星几家创业公司,多数通用Agent的开发公司都是手握自研大模型的公司:

其中,大厂不仅有模型,背后还有自家云做支援。通用Agent既是产品,也是他们作为B端平台,通过C端产品展示能力的一面镜子,以此招徕更多开发者。

大模型创业公司则本着“模型即Agent”的思路,更多在模型层就针对Agent对RL(强化学习)、长文本等需求钻研模型,才有了通用Agent产品。

国内通用Agent玩家的收费模式,也比出海的方式更卷。以百度、字节为代表的大厂有能力公开测试,免费提供服务。如MiniMax、天工智能体等则以限量使用或是购买积分使用的方式开放。和大厂免费不限量的手段相比,国内通用Agent赛道注定会越来越卷,商业化变现是一条看不到收益的路。

从场景来看,DeepResearch式的深度研究功能是更多产品选择主攻的方向,对于文档类Agent来说,调用工具的复杂程度相对较低,且文本生成的成本更低,算是一个更有性价比的方向。

在开发深度研究功能的基础上,各家Agent开始在多模态能力和应用场景上发力。一方面,在生成的文档中插入图片、视频等多模态能力,另一方面,把目前和Agent契合的场景植入到通用Agent中,比如做PPT,几乎成了办公Agent的标配。

但无论是拿来做报告,再用图文锦上添花,还是用Agent做PPT,背后都无法解决Agent输出效果一般的问题。比如一份深度研究报告,Agent最容易出现的是对事实信息检索的错漏,比如无法厘清Agent概念从而推荐大模型产品。

进一步的问题是输出的信息价值不高。一份报告,零星只有3-4个信源,更多内容从网络筛选得来,往往只能得到模棱两可的“废话”。比如要它介绍大模型公司的生存挑战,它把开公司可能存在的问题都列个遍,既没有针对性,也不具备有价值的增量信息。

于是,企业开始探索更多Agent能匹配的场景,试图吸引更多用户参与。Agent也难免后续变成自家公司产品的“集合入口”,被公司用各种方式把自家产品能力整合进去,比如MiniMax融入了海螺生视频的能力,百度心响在场景中接入了原有的智能体对话等。

除了找不到贴合场景,当前Agent能力有限,效果不一,也难以让用户为之买单。

通用Agent执行任务一般是拆解任务,再按照步骤执行。越复杂的任务,就意味着Agent执行的过程更多,其中只要有任何一个步骤跑出的结果有问题,就会导致整体输出结果质量不佳。所以,对于复杂任务来说,当前Agent执行的稳定性不足。

比如,输出对一家公司的分析,就要从财报信息抓取、公司网页介绍到各大信源的分析点评,其中有任何一个环节结果出错,整体报告的分析质量就会大打折扣。

当下,一些Agent开发者正试图通过技术创新来突破这些瓶颈。

比如MiniMax把年初发布的新的线性注意力机制用到了新模型M1中,其智能体产品以M1模型为基座模型。这样的好处是大幅扩展了智能体能够承载的文本量,支持100万的上下文输入,针对法律文书这类需要大量文本分析的场景效果更好。

月之暗面则强调“模型即Agent”,其基座模型是月之暗面基于端到端自主强化学习技术训练的新一代 Agent 模型。其中,RL(强化学习)成为这个深度研究Agent的亮点。

多数业内人曾在和光锥智能交流中肯定RL之于Agent的重要性。相比传统的监督学习或预训练模型在特定任务上表现出色,但其泛化能力往往受限于训练数据的分布。当Agent需要处理的任务场景多样化、环境动态变化时,预设规则或仅依赖一次性推理的Agent难以适应。

比如,在处理一些需要多个流程完成的任务中,传统模式可能在任一个环节中出现推测问题,进而影响到最终结果,但RL则是靠大量试错和奖励机制来提升泛化能力,对于需要多个步骤处理的复杂任务,表现效果更好。

Kimi-Researcher主动针对矛盾信息的处理

可以说,RL能够大幅提升Agent的能力上限。

Kimi-Researcher研究员冯一尘分享,在Humanity's Last Exam(HLE,人类的最后一场考试,衡量AI在各学科难题上的测试)榜单上,=gent模型得分从最初的8.6%跃升至26.9%,相比OpenAI Deep Research团队在相关工作上从20分左右(o3)提升到26.6分的成果,进一步证明了强化学习在Agent训练上的巨大价值。

在技术的天花板还够高的情况下,后来者正在拔高Agent的能力标准。今日(7月18日),OpenAI发布的通用Agent产品ChatGPT Agent跑出了一个漂亮的效果,在HLE 测试表现上,取得了41.6%的新SOTA 成绩。

通过强化学习,Agent有望从简单的“工具调用器”进化为真正具备“自主学习”和“环境适应”能力的智能体。届时,通用Agent或许才能真正找到杀手级场景,并让用户心甘情愿地为其买单。

Agent的路还很长,只有靠技术突破和场景深耕,才能成为真正帮得上忙的AI助手。

标签: 模型 能力 用户 产品 场景 公司 问题 结果 企业 任务 深度 垂类 智能 无法 报告 信息 技术 百度 大厂 开发者 成本 模式 魏琳华 访问量 动态 新加坡 内容 情况 质量 效果 赛道 视频

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。