2025年,越来越多的人习惯让AI干活了。
刘茹是一名大学教师,今年,她每天都会找豆包App解答问题,尤其喜欢在国外逛博物馆时给豆包视频通话,让它实时讲解。工作上,她还用智能体开发平台扣子(Coze)搭建了一个科研助手智能体,让它参与生成研究方案等。
最近,刘茹的工具库又密集上新。11月中旬,谷歌(Google)发布Nano Banana Pro,能生成效果顶尖的视觉化信息图;阿里巴巴推出千问App,她认为很适合写办公材料;蚂蚁集团推出灵光App,她用文字描述出脑中灵感,就能迅速“手搓”出一个小应用或小游戏。
AI的干活能力日益精进的背后,是一个竞争激烈的全球大模型战场。北京时间11月18日上午,埃隆·马斯克(Elon Musk)旗下xAI发布Grok 4.1,紧接着,19日凌晨,谷歌新推出的Gemini 3 Pro。12月1日,DeepSeek发布DeepSeek-V3.2,在公开的推理类基准测试中达到GPT-5水平,略低于Gemini 3 Pro。
从普通人的工具包到科技巨头的竞技场,城头何以频换大王旗?
![]()
越来越多的人运用AI完成一些工作。图/视觉中国
“觉醒”的大厂
11月中下旬,AI战场的平静骤然打破:谷歌与阿里几乎同时向市场投下“重磅炸弹”。
北京时间11月19日,谷歌接连发布Gemini 3系列模型,同步上线Gemini 3 Pro预览版。据谷歌技术报告,在一系列广泛认可的核心基准测试中,Gemini 3 Pro的表现都优于GPT-5.1和Claude Sonnet 4.5,包括推理、多模态、代理工具使用、多语言性能和长上下文等。2天后,谷歌又推出基于Gemini 3 Pro打造的图像生成模型Nano Banana Pro。
这让谷歌完成了一次全方位“屠榜”。AI模型评测平台LM Arena因其盲测机制和Elon评分系统受到业内认可,其评测分数显示,截至目前,Gemini 3 Pro位列文本、视觉、搜索能力榜单首位;Nano Banana Pro和谷歌今年10月推出的Veo 3.1又分别占据了图像生成类、视频生成类榜单的首位。
此前很长一段时间里,谷歌陷在行业由OpenAI领跑的被动局面里,被业界评价为“沉睡的巨头”,如今后发制人,攻防形势逆转。除技术领先,Gemini 3 Pro还被集成进谷歌搜索的AI 概览功能和企业平台Vertex AI,能迅速向全球数十亿用户普及。
地球的另一端,阿里也在“觉醒”。11月17日,阿里宣布千问App正式公测上线,对所有用户免费开放,这标志着阿里确立了AI超级入口,全面进军C端(消费级)市场。上线一周后,千问下载量突破1000万。达成这一目标,DeepSeek在今年初用了约20天。
千问在发布后密集更新。12月3日,千问接入学习大模型Qwen3-Learning,新增拍照答疑、作业批改两大功能。办公功能也进一步细化,以AI写作为例,用户可以选择论文、诗句、高情商回复等30余种场景,指定仿写、润色、扩写等6种目标。
11月18日,蚂蚁集团推出灵光App。灵光特别强调了创意生产的低门槛,用户输入一句话,“闪应用”功能最快能用30秒生成一个小应用或游戏。上线两周后,灵光累计生成了330万个“闪应用”。
阿里在C端的野心有些“姗姗来迟”。毕竟,早在今年2月“DeepSeek风暴”席卷后,字节跳动的豆包、腾讯的元宝就开启了市场争夺战。据Quest Mobile数据,今年9月,豆包和元宝已分别达成1.72亿、3286万的月活跃用户规模。
过去,阿里主要凭借通义千问(Qwen)模型家族在B端(企业级)市场建立优势,模型和产品多以“通义”为名。此次明确将原生App更名“千问”,标志着阿里的技术优势与品牌战略完成关键整合。
谈及千问的“技术底气”,阿里千问相关负责人表示,今年9月,阿里云发布Qwen3-Max模型,基于通义大模型,该模型是最新的参数规模超万亿的旗舰模型,多模态能力和推理能力较此前有了很大提升。“阿里的大模型经过了3年的发展,才使得打造一款真正好用的AI助手成为可能。”
“过去半年,国内C端大模型的竞争异常激烈。这带来了压力,也为我们提供了很多提升产品和体验的外部视角。”他对《中国新闻周刊》表示,市场从“技术演示期”快速进入了“体验竞争期”,用户对AI助手的期待值被迅速拉高。
“用户希望AI能真正成为提升效率、解决问题的实用工具。”上述负责人表示,C端产品竞争最终比拼的是能力和体验,一个合格的AI助手需要具备解决用户真实需求的办事能力,背后有真实的生态服务支撑,并做到体验顺畅、操作简洁。
大厂争夺AI超级入口的本质是生态之争。千问正计划接入地图、外卖、订票、办公、学习、购物、健康等生活场景,并将在未来实现跨业务的任务执行与信息查询,这依赖于阿里在电商、支付、生活服务、云计算等领域积累的生态资产。
近日,战火再度升级。12月1日,字节联合中兴通讯推出一款搭载豆包手机助手的AI手机,拟实现跨应用自动操作能力。由于“触发了常规安全机制”,微信将使用豆包操作的账号判定为环境异常,限制其访问。阿里系应用通过频繁弹出人机验证、触发闪退和登录拦截等应对这一自动化操作。
谷歌和阿里的“觉醒”只是序幕。技术、产品与商业的三重考验横亘于新的大模型战场上,任何一处赛点都可能是反超或逆转的关键。
![]()
![]()
![]()
![]()
图/视觉中国
中国模型“上桌”
据悉,千问海外版也即将上线,以ChatGPT为全面竞争对手。2025年,中国大模型在技术性能方面实现了关键跃升,为出海提供了底气。
据AI评测机构Artificial Analysis数据,今年1月,仅有1个中国模型进入其评定的全球模型综合排名15强榜单,其余均为美国模型;到11月,中国模型则共占据5席。
在全球开源生态中,中国大模型地位的攀升更为突出。12月初,大模型API聚合平台OpenRouter和风投机构a16z联合发布《基于OpenRouter的100万亿词元(Token)实证研究》,其中指出,自2025年年中开始,全球的开源生态结束了由DeepSeek一家垄断的局面,竞争态势多元化,词元使用(Token Volume)均匀地分布在5—7个模型之间。
去年11月至今年11月,在开源模型中,DeepSeek系列模型使用了最多的词元,达14.37万亿;其次是阿里的Qwen系列,达5.59万亿。再加上MiniMax(稀宇科技)、Z.ai(智谱)、Moonshot AI(月之暗面)的数据,中国开源模型的总使用量达23.32万亿,占前10名总使用量的71.1%。
报告还指出,今年,开源模型已成为创意角色扮演、编程辅助等特定场景的首选。在部分周内,中国开源模型的使用量一度达到全球总使用量的近三成。简体中文成为全球第二大交互语言,占总使用量的近5%。
中国开源模型吸引了越来越多的全球工作者,尤其是在硅谷。例如,今年6月,亚马逊新组建具身智能部门,其开发团队宣布以Qwen3.0为基础模型,结合DeepSeek蒸馏技术打造具身智能底座模型。
10月,美国公司爱彼迎(Airbnb)CEO布莱恩·切斯基(Brian Chesky)公开谈论了技术团队的选择。据彭博社报道,爱彼迎于5月向美国用户推出AI客服智能体,由13种AI模型构建,包括OpenAI、阿里、谷歌及其他开源模型。“我们在很大程度上依赖阿里的 Qwen模型,既出色又高效,成本还低。我们也使用 OpenAI 最新模型,但通常在生产中使用有限,因为还有更快、更便宜的模型。”切斯基说。
NBC采访了超15位AI行业资深人士,他们表示,过去一年中,许多中国系统不仅接入成本更低、定制化程度更高,且性能已足以满足多种使用场景的需求。
“通常,我们先用闭源模型实现某个功能,然后发现它太贵或太慢,于是会问:有什么办法能让它更快、更便宜?这通常意味着用等效的开源模型替代闭源模型,然后在我们自己的基础设施上运行。”AI搜索初创公司Exa的机器学习负责人迈克尔·发恩(Michael Fine)说。
不过,美国顶尖模型仍然在性能上保持领先,且以闭源为主。金融机构高盛在11月28日发布的一则研报中指出,美国基础文本和多模态模型在每次更新中持续保持领先地位,通常情况下,中国模型会在接下来的3—6个月内缩小差距,进行另一次升级更新。
零一万物CEO、创新工场董事长李开复对《中国新闻周刊》说,如果坚持闭源,中国公司“很难打败美国”。两年前,顶尖闭源模型和开源模型之间的“技术时间差”很大,现在已缩小到半年左右。未来,开源模型、开源免费的应用,将大大帮助中国模型和软件打开全球市场。不过,他也表达了担忧。美国公司付费购买企业级产品的意愿更高,能够促进应用、模型公司之间的良性循环,中国公司尚未建立起这一循环,相对滞后。
IDC中国人工智能研究总监卢言霞也提醒道:“性价比仍然是中国大模型出海的核心优势。目前,全球头部用户具有付费能力,技术与竞争格局尚未完全成熟,靠低价取胜的策略能否长久取胜,仍是未知数。”
美国巨头的“烧钱”规模也更庞大。据高盛研报,2022—2024年,美国五大云服务商亚马逊、微软、谷歌、meta和甲骨文的历史资本支出达1570亿—2560亿美元,2025—2027年的预测支出将增至4380亿—6850亿美元。在中国,阿里、字节、腾讯和百度在过去三年共支出80亿—360亿美元,后三年预计支出590亿—750亿美元。
![]()
![]()
![]()
上图:2025年11月6日,2025年世界互联网大会“领先科技奖”在浙江嘉兴乌镇揭晓,阿里通义千问大模型获奖。图/新华
中图:2024年12月18日,2024火山引擎冬季FORCE原动大会期间的豆包图生图模型、文生图模型展区。图/IC
下图:2025年7月29日,2025世界人工智能大会上的可灵AI文生图、文生视频展区。图/IC
更会“干活”的AI
全球大模型竞争持续提速的同时,底层技术的竞争焦点也发生转移。
“大语言模型的竞争已步入相对成熟和收敛的阶段,可以预见在数据使用方面会面临越来越多的约束,模型性能提升的速率也明显放缓。”北京智源人工智能研究院院长王仲远对《中国新闻周刊》分析,全世界仍有海量图像、音频、视频、3D及传感器数据等多模态数据尚未被有效地开发训练,多模态模型成为新的核心战场,即如何在一个模型内实现跨模态的理解与生成。
今年下半年,多模态领域竞争提速。在LM Arena平台的文生图、图片编辑榜中,谷歌Nano Banana Pro领跑,来自德国初创公司的flux模型以及腾讯、字节、阿里、OpenAI的最新模型居其后;在文生视频、图生视频榜中,谷歌Veo-3.1领跑,来自OpenAI、阿里、快手和字节的最新模型,还有中国创业公司MiniMax的海螺2.3、生数科技的Vidu Q2居其后。
以视频生成领域为例。“今年,视频生成模型在画面美学质量、镜头运动、理解复杂物理规律等方面都刷新了上限。”MiniMax副总裁时惜之告诉《中国新闻周刊》。她表示,AGI(通用人工智能)的交互应是多模态的,团队正计划尽快推出一个多模态融合的模型,对标OpenAI的Sora 2和谷歌的Veo 3。
行业的另一个竞争焦点在于智能体能力(Agentic AI),指的是模型主动规划、调用工具、执行多步任务,并在一定程度上自主决策、与环境互动的能力。“在这种范式下,AI的角色不再局限于问答助手,而是升级为‘你定目标,我来完成’的执行伙伴。”峰瑞资本投资合伙人陈石表示。
据IDC统计,2025年,在行业企业中,已有近两成客户开始采用智能体平台。其中,当下落地较多的应用场景有智能办公助手、智能客服、对话式AI、市场营销等。
以灵光App为例,记者向灵光提出了“帮我设计一个日常监督饮食摄入的应用”的指令。运行过程显示,灵光首先定义了“饮食监督”的价值,确定应用核心指标、数据采集路径和反馈机制,接着构建了应用的交互框架、结构框架,再注入交互与计算逻辑,验证了关键路径后,它完成应用部署并验证可用性。最终,记者能在应用中选择用餐类型和食物,实时记录食物的营养成分数据。
今年,学界和产业界还提出了一个新的智能范式——世界模型(World Model)。过去几年,随着具身智能、智能驾驶等技术快速演进,除了理解文本、生成内容,AI还需要具备对真实世界感知和推理的能力。
今年10月底,智源研究院发布开源多模态世界模型“悟界·Emu3.5”,提出了世界大模型的一种构建路径。Emu3.5展现的世界模型核心能力包括连贯地推演长时程的视觉叙事、在虚拟探索中保持时空一致性,甚至为开放世界中的具身智能体规划行动。
王仲远指出,世界模型的核心是完成下一状态的预测(Next-State Prediction),传统大语言模型停留于对下一词元的预测(Next- Token Prediction)。“目前,世界模型的定义和技术路线都没有形成共识,中国和美国的研究都处于极早期阶段。”他说。
![]()
在大模型竞技场,无论大厂还是创业公司,都很难有永恒的领先优势。图/视觉中国
行业洗牌持续
在大模型竞技场,玩家间的“攻防易形”是一种常态。无论大厂还是创业公司,都没有永恒的领先优势。
即便是OpenAI也难以高枕无忧。今年7—10月,谷歌的月活跃用户规模从4.5亿增至6.5亿。10月底,据Similar Web数据,Gemini在桌面和移动端的单次平均使用时长达7.2分钟,首次超越了ChatGPT的6分钟。
OpenAI内部已拉响警报。在10月的一份内部备忘录中,CEO山姆·奥特曼(Sam Altman)提示员工,谷歌近期的进展“可能会给公司带来一些暂时性的经济阻力”。Gemini 3 Pro发布后,12月伊始,奥特曼宣布公司进入最高紧急状态,要求员工暂停广告、AI代理等多项非核心项目,将所有人力、算力与预算资源重新聚焦于ChatGPT的升级。近日,有消息人士披露OpenAI计划在12月第二周提前发布GPT-5.2,以追平差距。
这一幕似曾相识。今年1月底,DeepSeek凭借性能、成本优势和开源策略引爆全球关注,并在春节后迅速推动AI技术在国内各产业界落地。早在去年1月,MiniMax就发布了国内首个MoE大模型abab6,与DeepSeek架构一致。但当DeepSeek-R1掀起新一轮推理模型浪潮,MiniMax掉队了。据MiniMax创始人兼CEO闫俊杰回忆,在老家过春节时,几乎所有人,包括他的姥姥都问他:“你知道DeepSeek吗?”
闫俊杰深受触动。“为什么我们本来应该做到最好、最擅长的东西,反而容易出很大的问题?是因为降低了要求,还是没有思考更深呢?或许我们在一些选择上不够坚定。”他说。
后来,MiniMax内部也纠正了一个误区:大家原本以为用户越多,模型能力提升越快,实际上,更好的模型才可以导向更好的应用。“我们更加坚定了技术驱动的决心,专注提升模型的全球竞争力,再通过产品设计将模型的智能传递给用户。”时惜之说。
今年,零一万物和百川智能相继宣布退出通用大模型竞争。前者全面转向为企业提供AI解决方案和“超级员工”Agent服务,后者选择聚焦于医疗垂类模型。“AI六小虎”仅剩4席,各家公司内部都有管理层离职。
另一方面,创业公司还需应对大厂的降维打击。11月5日,阿里巴巴董事会主席蔡崇信在香港大学接受访谈时表示,阿里“不从AI本身赚钱”,而是主要通过提供支撑AI运行的云基础设施实现盈利。据阿里最新发布的2025年第二季度财报,7—9月,阿里云智能集团本季度收入达398.2亿元,同比增长34%,创近三年增速新高。
创业公司的生存命题恰恰是如何“从AI本身赚钱”,面临多重压力。首当其冲的是资金环境收缩。据IT桔子信息,今年下半年,MiniMax和月之暗面分别完成一笔3亿与6亿美元的融资,估值均约40亿美元。融资规模较2024年收缩近半。
李开复也认为,创业公司每年都要承担比前一年多几倍的基础设施成本,才有可能做出更好的底层模型,加上持续开源,将面临非常严峻的商业化考问。
但小型创业公司要想在基础模型上取得突破性进展变得异常困难。与此同时,大量的创业公司集中在相似的应用领域,如智能客服、内容生成、图像处理等,提供的服务高度同质化,缺乏真正的技术壁垒。
巨大的投入并未带来普遍盈利,很多AIGC应用仍处于烧钱亏损状态。行业分析机构QuestMobile数据显示,曾以“黑马”姿态席卷全球的DeepSeek,其月均下载量从2025年第一季度的8111.3万骤降至第二季度的2258.9万,降幅达72.2%;国际半导体研究机构Semianalysis的监测则显示,其用户使用率从年初的7.5%滑落至年中的3%。从行业整体来看,根据CB Insights统计,当前全球有498只AI独角兽(即估值在10亿美元以上的未上市公司),但这些AI初创公司当中,大部分未实现正向现金流。
“假如豆包是一个创业公司的产品,它已经花上了一个天文数字去得到用户了。”李开复说,“相比之下,大厂仍然有实力投入基础模型的研发,并将投入成本分摊到数十亿用户的身上。”李开复甚至预测,中国基座大模型最终大概率会收敛至3家主要公司——DeepSeek、阿里巴巴和字节跳动。他的判断依据是“企业是否愿意且能够持久投入,并拥有足够的创新人才密度”。
(文中刘茹为化名)
记者:王诗涵(wangshihan@chinanews.com)
编辑:闵杰





京公网安备 11011402013531号