继去年底发布新论文之后,1月12日晚,DeepSeek又上新一篇署名梁文峰的论文。这篇论文聚焦大模型的条件记忆模块, DeepSeek在结论中认为这将成为下一代稀疏大模型不可或缺的核心建模原语。此前有爆料称,DeepSeek下一代大模型将在春节前后发布,业内猜测这或是下一代模型DeepSeek V4的研究路线图。
近期在中关村国际创新中心的AGI-Next前沿峰会上,被称为“基模四杰”的月之暗面创始人兼CEO杨植麟、阿里巴巴Qwen技术负责人林俊旸、腾讯首席AI科学家姚顺雨和清华大学教授、智谱创始人兼首席科学家唐杰也对下一代模型的范式和重点进行了探讨。AI行业先锋密集发声,或能窥见2026年中国大模型发展的方向和趋势。
![]()
大模型发展将如何分化?
进入2026年,已有两家大模型企业完成上市,与此同时,各家都在押注不同的领域。接下来中国的模型会分化成哪些方向?
姚顺雨此前为OpenAI著名研究者,专注于将大型语言模型从理论研究推向实际应用,特别是AI Agent的开发。2025年底,腾讯升级大模型研发架构,新成立AI Infra部、AI Data部、数据计算平台部,全面强化其大模型的研发体系与核心能力。姚顺雨出任“CEO/总裁办公室”首席AI科学家,向腾讯总裁刘炽平汇报;他同时兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报。
姚顺雨认为,To C和To B明显发生了分化。首先在To C端,大部分人多数时候其实不需要用到这么强的智能。“可能今天用ChatGPT和去年相比,写抽象代数或者去解伽罗瓦理论的能力变强了,但是大部分人感受不到。大部分人尤其在中国,更多像在用搜索引擎的加强版。”
但在To B端,智能越高很多时候就代表生产力越高、可以赚的钱越多。所以To B大部分时候很多人愿意用最强的模型。“起码美国人会愿意花溢价去用最好的模型。因为可能他的年薪是20万美元,他每天要做10个任务,那一个像Opus 4.5这样非常强的模型,它可能10个任务里做对八九个,差的模型可能做对五六个。问题是你不知道这五六个是哪五六个,就要花很多额外精力去监控。所以在To B这个市场上,强的模型和稍微差点的模型,分化会变得越来越明显。”
另外,姚顺雨认为,以往的发展趋势“垂直整合”以及“模型和应用分层”也开始出现分化。“过去大家会认为当企业有垂直整合的能力,就肯定会做得更好,但今天来看不一定。首先,模型层和应用层需要的能力不一样,尤其是对于To B或者说生产力场景,更大的预训练(Pre-training)还是一个非常关键的事情,但这个事情对于产品公司确实很难做。但想要把一个特别好的模型用好,或者说让模型有溢出能力,也需要在应用侧或者说在环境侧做很多相应的事情。”
他总结称,在To C应用垂直整合还是成立的,无论是ChatGPT还是豆包,模型和产品是非常强耦合去紧密迭代。但对于To B来说趋势似乎是相反的。模型变得越来越强,但也同样会有更多应用层的东西想要去利用这样的好模型,在不同的生产力环节发挥作用。
姚顺雨还谈到自己在腾讯做哪些事情。他表示,腾讯还是一个To C基因更强的公司。所以会思考如何让今天的大模型或者说AI的发展能够给用户提供更多价值。但同时我们也不断发现,很多瓶颈可能在To C端不是缺更大的模型、更强的强化学习或更强的奖励模型,很多时候需要的可能是额外的上下文和环境。
“比如说我想问‘我今天该去吃什么’。其实你今天问ChatGPT 和你去年问、或者明天问,这个事情可能体验都会很差。因为想要变好,不是说你需要更大的模型、更强的预训练,这个问题的瓶颈可能是你需要更多额外的输入,或者说上下文。比如说如果它知道‘啊今天我其实特别冷,我需要吃点暖和的’,反而会给用户带来很多额外的价值。”姚顺雨举了这样一个例子。
To B方面,姚顺雨说腾讯目前会思考先服务好自己。“创业公司做Coding和大公司做Coding(编程)的一个区别是,大公司本身已经有很多应用场景、各种各样需要生产力变得更好的地方。如果我们模型能够在这些地方做得更好,不仅模型会有自己独特的优势,更关键一点是,对于真实世界的更多样化的场景数据的捕捉,会是一个很有意思的事情。”
唐杰则认为,智谱是第一个做出来Chat产品的企业,但这一仗从DeepSeek出来之后就结束了。在DeepSeek出来后,智谱押注的下一个方向是Coding。
谁将成为下一代范式的推手?
过去十年,OpenAI先后推动了两个重要范式:一是以预训练为核心的通用模型范式,二是以对齐、推理和强化学习为代表的能力增强范式。下一代范式会是什么?谁将成为下一代范式的推手?
姚顺雨认为,新范式的瓶颈不是方法论,而是数据或者说任务。但同时他认为,自主学习是新范式的前提。“我觉得这个事情已经在发生了,可能更像是一个渐变,而不像一个突变。比如现在ChatGPT利用用户数据拟合聊天风格,使它的感觉越来越好,今天Claude Code已经写了95%的代码,在帮它自己变得更好”。
姚顺雨认为,下一代范式最大的瓶颈可能是想象力。谈到下一代范式创新将会由哪个公司引领,姚顺雨依然认为是OpenAI的概率更大。
林俊旸也认为,下一代范式可能会落到自主学习上。另外他还补充,AI更强的主动性或许也是下一个范式。“这意味着,环境可能就是输入信号。比如说我现在这个AI,必须得有人类去给它提示词才能够启动它。那有没有可能环境就能提示它?它自己能自主思考,去做一些事情。”但林俊旸也表达了自己对模型拥有更强主动性的同时引发安全问题的担心。
如果自主学习真的会在2026年显露出成为下一代范式的信号,具体会在哪些任务上最先出现?林俊旸认为,在理解用户这件事情比如个性化上会更快出现。但问题在于,在信息推荐时代,个性化做得越好用户就会点击得更多、买得也更多。在AI时代个性化的衡量指标是什么?
唐杰认为,Scaling这样的规模定律仍然是有效的,只要继续扩大算力、数据与参数规模,模型能力依然会提升。但现在真正的瓶颈已经不在于有没有卡,而在于收益的效率是否值得。“一方面我们需要Scaling Up,就像我刚才说的‘反正最笨的办法就是Scaling’,因为Scaling我们肯定有收益,这是一个工程做法。但我们也应该定一个(标准)叫‘智能的效率’,即用多少的投入能获得智能的增量。”
杨植麟在演讲阶段也提到了Token效率问题。他提到从2019年至今,大模型始终遵循同一条基本逻辑:即通过Scaling Law将更多算力、数据和参数转化为更低的消耗、更高的智能水平。但这一逻辑的前提是Token可以被无限消耗。
但现实并非如此,当预训练Token被吃完,模型能达到的智能上限也到了,这意味着,问题不再只是“用多少Token”,而是每一个Token能换来多少有效智能。
正因如此,过去一年,月之暗面几乎将所有核心工作都压在token效率上,即用更少的Token,做到更低的消耗。在K2模型中,他们尝试引入新的优化器与架构设计,通过提升Token效率,使模型在“用一半数据达到相同效果”的意义上,获得等价于一次Scaling的收益。
智能体2026年如何发展?
拾象科技创始人李广密观察到,最近大家对于2026年还有一个很大的预期,即Agent现在可以在后台比如推理3~5个小时,做人类1~2天的工作量,2026年是否有希望做人类正常工作一周到两周的工作量。如果一个Agent可以自动化人一天或者一周的工作流,2026年真有可能是Agent“创造经济价值”的关键一年。
姚顺雨认为,生产力的Agent才刚刚开始。现在可能除了模型之外有两个瓶颈,一是部署的问题。他提到,即使今天模型不再变好、所有的模型训练全部停止,但如果把这些模型部署到世界上各种各样的公司,它可能还是能带来今天的10倍或者100倍的收益,或者说可能对GDP产生5%~10%的影响。但今天,模型的影响还远远不到1%。
另外在环境上,姚顺雨认为人和人的差距在拉大,会使用AI工具的人在替代那些不会使用的人。他认为现在中国能做的一个最有意义的事情是更好的教育,教大家怎么更好地去使用像Claude Code或者ChatGPT这样的产品。
林俊旸认为,接下来因为自我进化和主动学习Agent可以做到更厉害。“现在Agent其实已经开始越来越变得‘托管式”’,而不是说我要不断来来回回交互的形式。从这个角度上来说,它对模型的要求其实是很高的,模型就是Agent,Agent就是这个产品本身。如果它们都是一体化的话,那么今天做基础模型本身其实也就是在做这个产品。如果不断提升模型能力的上限,包括Test-time Scaling能做上去的话,确实能够做到这个事情。”
另外林俊旸也提到,他认为Agent与环境也强相关。“有没有可能我们未来AI 环境能复杂到可能是真实人类世界的环境,指挥机器人去做实验,去加快效率?如果能达到这一个点,可能才是我想象当中 Agent 能够做人类很长时间的活,而不是说仅仅是在电脑中写个文件。我觉得接下来三年到五年的时间,可能这个事情会更有意思。这个又要跟具身智能结合在一起。”
唐杰则认为,未来有几个因素会决定Agent走势。一是Agent能解决的事情价值有多大,而是解决这件事情要花多少成本。三是做应用的速度有多快。“如果你说我有个时间窗,我能够拉开半年的时间窗,迅速把应用满足了,半年以后,要么迭代,要么怎么着,反正能往前走。说白了大模型时代到现在,更多的是在拼速度、拼时间。”
中美AI路径差异
在唐杰、姚顺雨、林俊旸等人的讨论中,一个反复被讨论的话题是:中美大模型之间的演进路径有何差异,这一差异的背后原因是什么?
姚顺雨认为,关键点其实在于中国的算力瓶颈能不能突破、包括光刻机和软件生态等产能能不能突破。另外一个问题是,除了To C能不能有更成熟或者更好的To B市场,或者有没有机会在国际的商业环境去竞争。“今天我们看到很多做生产力或者做To B的模型,还是会诞生在美国,因为支付意愿更强,To B的文化更好。中国国内做这个事情很难,所以大家都会选择出海或者做国际化。”
姚顺雨说自己观察到,中美之间的差异在于,在中国大家还是更喜欢做确定性的事情,“比如今天预训练已经被证明可以做出来了。这事情其实也非常难做,有很多技术问题要解决。但是只要一旦被证明能做出来,我们都很有信心几个月或者一段时间内就把这个东西搞清楚。但是如果今天要让一个人去探索一个比如长期记忆或者持续学习,大家不知道怎么做,能不能做起来。那这个我觉得还是比较困难。”
另外他还观察到,在中国大家对于刷榜或者数字会看得更重一些。但像海外Anthropic、国内DeepSeek这样的企业,可能没有那么关注榜单的数字,会更注重什么是正确的、体验感到底好不好。
林俊旸提到,目前美国的算力可能整体比中国大1~2个数量级,但不管是OpenAI还是 Anthropic大量的算力其实都是投入到下一代的研究当中去。但国内今天相对来说捉襟见肘,光交付可能就已经占据了绝大部分的算力,这会是一个比较大的差异。
另外一个需要思考的点是,从软硬结合的角度,是不是真的有可能端到端地做出来。“我特别记得在2021年的时候,当时我们在做大模型。阿里做了芯片,来找我说:能不能预测一下三年之后这个模型是不是Transformer架构?三年之后模型是不是多模态?为什么是三年呢?他说我们需要三年的时间才能流片。我当时回答是:三年之后,我在不在阿里巴巴,我都不知道。但最后我今天还在阿里巴巴,然后他果然还是Transformer,还是多模态,我就非常懊悔为什么当时没有催他去做。”
另外,林俊旸也提到了冒险精神。他表示,在冒险精神上,中国可能还需要改变的是教育,现在团队里面有很多00后,大家的冒险精神也是在增强的。
采写:南都N视频记者 林文琪





京公网安备 11011402013531号