![]()
智谱创始人唐杰
雷递网 乐天 1月11日
最近一段时间,大模型行业非常热闹,智谱AI和minimax相继上市,月之暗面KIMI获5亿美元融资,整个行业也从原来的概念,转向了商业化落地。
在智谱AI上市后几天后,智谱AI创始人、清华教授唐杰就做了一场公开演讲,唐杰在演讲中表示,今年可能是AI for Science的一个爆发年,因为很多能力大大提升,大家可以做更多的事情。
唐杰称,2026年智谱AI会专注做几件事:
1,Scaling可能还会继续做下去,但Scaling已知的是不断加数据、不断探索上限。
2,技术创新。会做全新的模型架构创新,解决超长上下文,还有更高效的知识压缩问题,以及会实现知识记忆和持续学习。
3,多模态感统,今年是一个热点和重点。因为有了这个能力,才使得AI可以实现进入像机器里面的长任务、长时效任务。
当完成长任务,AI就实现了一个工种,AI变成跟人一样,可以帮助人实现。只有这样,AI才能实现具身,才能进入物理世界。
![]()
据悉,智谱被称为中国版OpenAI,本周四在港股上市,募资净额为41.73亿港元,成为了全球大模型第一股,截至目前,智谱AI市值近700亿港元。
以下是唐杰演讲实录:
唐杰:我的题目是“让机器像人一样思考”,当年我第一次提出来的时候,张钹院士是反对我的,说你不能老说让机器像人一样思考,但是我加了一个引号,所以现在可能允许我加引号说了。
我们从2019年开始在思考,我们能不能做到让机器像人一样真正在有可能的一点点的思考,所以2019年我们从清华成果转化,当时在学校的大力支持下,我们成立了智谱这么一家公司,我现在在智谱做首席科学家。
做研究要像喝咖啡一样上瘾
我在清华大概有20年,我2006年毕业,到今年正好20年。其实我一直在做的事情,我总结了一下也就两个事,第一,当年做了AMiner系统;第二,现在在做的大模型。
我一直有一个观点,我自己受影响也比较大,我把它叫做像咖啡一样的精神来做事情,其实那个事情跟今天在座的一位嘉宾非常相关,就是杨强教授,我记得我刚毕业的时候去港科大,去过的人都知道港科大就是一栋楼,会议室在里面、教室在里面、实验室也在里面、咖啡厅也在里面,吃饭的、打篮球的,都在这一栋楼里面。
当时我们老能碰到,有一次在咖啡厅碰到以后,我就说这两天咖啡喝的非常多,是不是要戒一戒,要不然对身体不好,杨老师第一句话是说“对,应该戒一戒”,然后他说也不对,如果我们做研究能像你喝咖啡上瘾,是不是我们研究就做的非常好了?
当时喝咖啡上瘾这个事情一下子对我触动非常大,而且从2008年影响我到现在,也就是做事情可能就是要专注,一直做下去。
这一次正好有幸碰到AGI这个事情,正好是需要长期投入、长期做的一件事,它不是短平快,今天我做了,明天就能开花结果,后天就结束了,它非常长期,恰恰值得来投入。
大模型智能水平大幅提升
我们实验室2019年的时候当时在图神经网络、知识图谱方面,其实我们在国际上做的还行,但当时我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型所以所有的人开始启动了大模型相关的研究。到今天做了一点点事情。
![]()
大家也知道全球化,其实这张图是在2025年2月份,在整个大模型发展史上,我们把它叫智能水平,这个智能水平已经大大提高了,从早期的2020年,其实我们看到一些很简单的像MMU和QA的一些问题,当时已经很不错了,到今天基本可以做到非常满分的程度。慢慢地,从最早期一些简单的问题,到了2021、2022年开始做一些数学题、一些需要推理,也就是加减乘除才能做对的,这时候我们可以看到模型通过后训练,慢慢地,现在也把这些问题补齐了,而且能力也大大提高。
![]()
再到2023、2024年,大家看到模型的发展从原来的只是一些知识记忆,到简单的数学推理,到更复杂的,甚至可以做一些研究生的问题,甚至开始回答一些我们真实世界的,比如说SWE bench里面,其实已经做了很多真实世界的编程问题,这时候我们可以看到模型的能力,智能水平越来越复杂,就像人成长一样,一开始我们在小学里面多看书,慢慢地做数学题,慢慢到了初高中,我们回答一些研究生的复杂推理问题。再到毕业之后,我们开始完成工作上的一些问题,更难的一些问题。
到今年大家可以看到,HLE也就是人类终极测试,这个任务里面特别难,如果大家去看HLE里面,甚至有些问题连谷歌也找不到,比如说世界上某一个鸟的某一个耻骨的某一个什么,连谷歌也找不到这个页面,所以需要这个模型泛化出来,这时候该怎么做?现在也没有答案,但大家可以看到,它的能力在2025年快速得到提升。
希望通过Scaling让大模型有更强的泛化能力
另外一方面,我们可以看到这个模型,什么叫从Scaling到泛化?我们人一直都希望机器有泛化能力,我教它一点点,它就能举一反三,其实就和人一样,我们在教一个小孩子的时候,我们总希望教小孩子三个问题,他就会第四个、会第十个,甚至连原来没教过的也会,这时候我们怎么来做?
直到今天,我们的目标是希望通过Scaling让它有更强的泛化能力,但是直到今天它的泛化能力还有待大大的提高,我们在不同的层面在提高它。最早期的时候我们用Transfomer训一个模型,把所有的知识记忆下来,我们训的数据越多,我们训的算力也多,它的长时知识的记忆能力越强,也就是说它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理,于是你要问一个问题,中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。
![]()
第二层是把这个模型进行对齐和推理,让这个模型有更复杂的推理能力以及理解我们的意图,我们需要持续的Scaling SFT,甚至强化学习。通过人类大量的数据反馈,我们在Scaling反馈数据,让这个模型可以变的更聪明、变的更准确。今年是RLVR(可验证奖励强化学习)爆发年,今年我们通过可验证的强化学习,原来为什么这个事情很难做呢?因为原来我们通过人类反馈,我们只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一,但如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。
这里面难题的难题,大家一听就知道,说可验证是什么意思?比如说可验证,数学也许可以验证、编程可能可以验证,但更广泛的,比如我们说做了一个网页,这个网页好不好看,这时候可能就不大好验证了,它需要人来判断。
于是,我们现在可验证的RLVR面临的问题是什么?原来可验证的场景也许逐渐地不够用了,我们能不能到一些半自动可以验证,甚至不可验证的一些场景里面,让这个模型变的更加通用,这是我们面临的一个挑战。
未来机器慢慢地开始在物理世界做一些真实的任务,这些真实的任务,我们怎么来构建智能体的环境?这是面临的更多的一些挑战。大家可以看到这几年AI在沿着这几个方面,不仅仅是简单的Transfomer,其实整个AI已经变成了一个大的系统、一个智能化的系统。
从原来更多的是数理化的一些推理,从简单的小学、初中、高中到更复杂的GPQA理化生的复杂问题,到更难的甚至是一些奥赛金牌的问题,到今年大家可以看到HLE非常高难度的智能评测基准,现在在开始进行快速的提升。另外一方面在真实的环境下,像今天很多人都在说代码能力特别强,而且能完成很多真实的代码,但事实上在2021年代码模型也存在。
当时还跟俊旸、Kimi植麟有很多合作,当时也做出了很多这种模型,其实当时的Coding模型也可以编程,但当时的编程能力远远不如现在,甚至当时编十个程序也许对一个,但现在可能编一个程序,很多时候能自然的跑通,而且是一个非常复杂的任务,到今天我们现在已经开始用代码来帮助高级的工程师完成更复杂的一些任务。
DeepSeek解决了Chat时代问题
大家可能会问,是不是智能越来越强,我们直接把模型不停地训就行了?
其实也不是,大家知道2025年初发生了什么,2025年初DeepSeek出来,很多时候叫横空出世,我觉得这个词用的挺好的,真是叫横空出世,可能对我们研究界、对产业界,甚至对很多人都是,因为大家原来在这个学术界、产业界都没有料到DeepSeek会突然出来,而且确实性能很强,而且一下子瓤绕很多人感到很震撼。
后来我们在2025年初时在想一个问题,也许在DeepSeek这种范式下,把这种Chat时代基本上差不多算是解决了,也就是说我们做的再好,也许在Chat的问题上可能做到最后跟DeepSeek差不多,或许我们在上面再个性化一点,变成有情感的Chat,或者再复杂一点。但是总的来讲,这个范式可能基本上到这快到头了,剩下更多的反而是工程和技术上的问题。
原来是Chat 现在做事了,新的范式开启
当时我们面临这么一个选择,我们怎么让AI下一步朝向哪个方向发展?我们当时的想法也许新的范式是让每个人能够用AI做一件事情,这可能是下一个范式,原来是Chat,现在是真的做事了,所以新的范式开启了。
还面临的选择,因为这个范式开启,有很多种开启方法,大家还记得年初的时候,我记得有两个问题,一个是简单的编程,做Coding、做Agent,第二是我们可以用AI来帮我们做研究,类似于DeepResearch,甚至写一个复杂的研究报告。这两条思路可能还不大一样,这也是一个选择的结果,一方面是做Thinking,我们加上一些Coding的场景,另外一方面可能要跟环境交互,让这个模型变的更加交互、更加生动,怎么来做?
后来我们选了左边这条路,我们让它有Thinking能力,但是我们也没有放弃右边,我们大概在7月28号做了一件事情,相对来讲还比较成功的,把Coding、Agentic、Reasoning能力整合在一起了,整合在一起可能也没那么容易,原来一般来讲大家做模型的时候,Coding相对来讲可能单独拿出去做,Coding变成Coding,推理变成推理,甚至有时候会数学变成数学,但这种做法往往会损失掉其他的能力。
所以我们当时是把这三个能力基本上合在一起,让三个能力都相对比较平衡,在7月28号我们发布了4.5版本,这个版本在当时用12个Benchmark,我们在智能体、推理、代码上,基本上跑出来还算比较不错的一个结果,所有的模型,我们在国内,包括今天千问和Kimi,其实都是你追我赶,有时候这个在前面,有时候这个在前面,在当时那一天,我们排在前面。
但是很快我们就把这个4.5开放出来让大家用,大家拿去编程吧,我们现在这个能力还挺不错的,既然我们选择了Coding和Agent,它就能做很多编程任务,我们就让它来编这种非常复杂的一些场景,结果发现用户跟我们反馈说,比如说我们要编一个植物大战僵尸,这个模型编不出来,因为真实的环境下往往非常复杂,这个游戏是用一个Promoment自动生成的,包括整个游戏就可以玩,用户可以点击怎么来得分,选择什么样的植物以及怎么来打僵尸,僵尸从右边走过来,包括界面、包括后台的逻辑,全部是用这个程序自动一句话写出来的。
这时候4.5在这个场景下做不出来,出了很多Bug,怎么回事?后来我们发现在真实的编程环境下,它里面有很多问题,比如说在上面这种编辑环境下有很多问题需要解决,这时候恰恰利用到RLVR可验证的强化学习环境,于是我们在这里面搜集到大量的编程环境,通过编程环境作为强化,再加上一些SFT数据,使得这一块可以两方交互,把这个模型的效果提高。
另外一方面,我们在Web方面也做了一些工作,把Web的一些能力也利用Web环境,加上一些反馈,加上环境可验证。总的来讲是通过可验证来探索,于是我们当时在SWE Bench上得到了很不错的分,包括最近我们也得到了很不错的分。
基于Github数据自动化构建 Coding Agent环境
但这个模型的跑分是跑分,进入主模型又是一个非常大的挑战,很多人都有一个Benchmark,说我这个Benchmark分很高,但是真正这个能力进入主模型的还面临更多的一些挑战,而且在真实的体感中,用户体感还不一定效果好。
![]()
另外一个挑战,既然有这么多大量的RL任务,怎么把它全部统一训练在一起,因为不同的任务的长度都不一样,时间长度也不一样,所以我们当时开发了一个全异步的训练强化学习框架,怎样使得它异步的开始跑起来,这是我们在今年开源的另外一个框架里面的一个工作。这也使得Agent和Coding能力得到了很多的提升,最终的结果,我们最近发布的4.7,相比原来的4.6和4.5在Agent和Coding方面大大提升。
在体感方面更重要,为什么?因为你真的把Coding模型开放出去以后,用户用的跟你的跑分还不完全一样,今天可能是他自己的程序,我这个程序可能在我这个数据上做一个排序算法,效果好不好,体感好不好,他用的是这个结果,用的不是分值有多高,所以在真实的跑分下,我们也进行了详细的评测,这个评测完全是人工来做的,找了非常多编程高手来做评测。当然这里面还没有解决,还面临很多问题要解决。
最后我们把这些能力整合到一起,2025年底我们在Artificial Analysis榜单上跑出了一个还不错的分,得到了还可以的分。
另一方面,我们又随着进一步发展,你要把这个问题在Agent环境下真的让它大规模用起来,大家可以看作Agent最基础的能力,什么叫最基础的能力?编程嘛,计算机编完程以后,它就可以执行,相当于Agent里面的一个action或者两个action,但如果你要做的更复杂,左边是Claude发布的computer use,中间是豆包手机,邮编是Manus做的异步超长的任务。
假如你要让这个机器帮你做几十步、上百步的任务,甚至你说“请帮我搜集一下今天关于清华大学在小红书上所有的讨论,讨论完以后,关于某某的全部整理出来,给我生成相关的文档”,这时候AI得在一天监控小红书,它是自动的、完全异步,你不可能把手机打开盯着它,它是异步的,它是个非常复杂的任务,这样非常复杂的任务,总而言之,可以把刚才的问题变成一个Deivce use,也就是在整个设备上我们怎么来做。
这里面更大的一个挑战,有些人说是不是更多的是采数据?其实更大的问题是很多应用根本就没有数据,全部是code,全部是冷启动,这时候该怎么办?
当然我们更希望我们通过这些数据能够一下子泛化出去,所以最早的确实是我们采了大量的数据,上千个数据,我们来进行整合,包括SFT,包括在特定领域的强化,使得它在某些领域上可以把效果做的不错,但是更多的时候你会发现原来的iphone use都是点按钮,但是更多的时候AI交互不是人,我们原来都把AI当作一个人,说AI能不能帮我们操作手机,但是你要想一下,其实这个AI不需要操作手机,更多的是API,但是现在你又不可能把手机变成纯API的系统,没有这个按钮了,所以这时候该怎么办?
我们采用混合的方式,把API跟GUI两个混在一起,对AI比较友好的时候采用API的方式,有时候对人友好的时候,让AI模拟人来做GUI的操作方式,于是把这两个整合在一起,我们在大量的环境里面抽取到大量的数据,并进行全异步的强化学习,这样就把整个东西给整合在一起,使得这个AI有一定的泛化能力。我刚刚说有一定的泛化能力,原因是说直到今天这个泛化能力都还差的很多、都还差的很远,但是它有一定的泛化能力了。
更重要的是我们怎么克服冷启动带来的一些问题,比如如果说我们的数据不够,我们通过强化学习有可能把它带入一个限制,这个强化学习到最后,它整个学到以后,这个模型就像钻牛角尖一样,它就认死理,说我就要这样,效果一下就跑偏了。这时候怎么把它拉回来?
于是我们把SFT在中间穿插了一步,也就使得这个模型强化一段时间,再做一些SFT,再强化一点,变成一个交替的,使得它有一定的容错能力和有一定把它拉回来的能力,变成可扩展的训练算法。在移动环境下,我们使得效果在安卓里面取得不错的提升。
另外在多任务的大模型强调学习上,我们也做了一定工作,在算法上主要采用多轮的强化学习,工程上本质上就是Scaling,让它更大规模的往下。
今年我们大概在12月份的时候开源了AutoGLM,把里面所有的东西都开源。大家注意我们开源的这个模型是9B模型,不是一个超级大的模型,原因是9B可以在人机交互里面动作特别快,执行速度特别快,如果特别大的话,它的执行速度就会很慢,所以我们开源了一个9B的模型,这个模型一开源,当时一下子就获得了两万多个star,而且三天就拿了一万多个star,还算不错。
![]()
这是一个例子,比如说我们下周要去长春玩,帮我们总结一下当前页面推荐的一些景点,然后到地图上收藏这几个景点,包括查看票价,再去12306订一张10点钟从北京去长春的高铁票,把相关信息整理好给我。
这个模型在后台会执行40步,它会调用不同的APP,把不同的APP打开,然后输入相关的信息,相关查询、执行,整个操作40步执行完之后,把所有的东西全部给你。相当于这个AI做了一个类似于你的秘书的事情,整个全部执行下来。
更重要的是在所有的Deivce-use里面有几个榜单,包括OSWorld、Browser use、Mobile use相关的一些Bench,我们都取得了很不错的(效果)。其实你可以把这个模型想象成用了很多Agent数据在训,我们在9B的模型上用了很多Agent数据在训,其实它把原来的很多语言能力、推理能力可能会降低,也就是说它不再是纯通用的模型,它可能在Agent方面能力比较强,但是在其他方面可能会减弱,于是给我们带来一个新的问题,在未来这种超大规模的Agent模型上怎么来使得它不要降低,这变成一个新的问题。
我们2025年也是GLM的开源年,我们大概从1月份到12月份开源了很多模型,包括语言模型、智能体模型,还有我们多模态的模型,GLM-4.6、4.6V、4.5V等相关的一些模型。
而且更重要的是我们可以看到中国开源模型在2025年做的贡献,这里蓝色的是开源的模型,黑色的是闭源的模型。我们可以看到Artificial Analysis 上面,蓝色的前五基本上全部是中国的模型,也就是我们中国在开源大模型上做出了很多贡献。我们可以看到相比2025年初,也就是2024年的时候,美国这边开源,包括Mate、LLM还占了绝对的优势。
随着一年的发展,中国慢慢地在前五,基本上现在变成中国的模型,右边的这个图是大模型的盲测榜单,也就是通过人工评测的结果,我把它截屏了过来。
2025年可能是多模态的适应年
![]()
下面一个问题,下一步我们还能继续Scaling吗?我们下一个AGI范式是什么?我们面临更多的一些挑战。
我们刚才做了一些开源,可能有些人会觉得很兴奋,觉得中国的大模型好像已经超过美国了,其实可能真正的答案是我们差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小,有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。
让机器参考人的学习范式,得到更多学习机会
下一步我们应该怎么做?我这里有一些简单的思考,我觉得从大模型整个发展史来讲,其实就是参考人脑认知的学习过程,从大模型最早的,要把世界长时知识全部背下来,就像小孩子,从小先看书,把所有的知识先背下来,然后慢慢地学会推理,学会数学题,学会更多的演绎、抽象。
对于未来来讲,也是同理,对于人脑的认知学习来讲,未来有哪些能力,现在大模型还没有,但是人远远超过我们。
第一,2025年可能是多模态的适应年。为什么这么讲?可能全球除了少量的几个模型,一下子吸引了很多年,包括我们在内的很多多模态的模型都没有引起很多人的关注。更多的大家在做文本的智能提升。
对于大模型来讲,怎么把大模态的信息收集起来,并且能够统一感知起来,也就是我们经常说的原生多模态模型,后来我想了想原生多模态模型和人的“感统”很相似,人的感统是我这边收集到一些视觉信息,还收集到一些声音的信息,还收集到一些感触的信息,我怎么把这些信息感统到一起,来感知一个东西,像我们人有些时候大脑会有些问题,很多时候是感统不够,感统失调会出现的问题。对于模型来讲,下一个多模态的感统能力怎么来做?
第二,模型现在的记忆能力和可持续性学习能力还不够。人有几级记忆系统,我们有短期记忆、工作记忆、长期记忆,甚至我之前我跟我们的同学、跟我们实验室的人聊天,我说好像一个人的长期记忆也并不代表知识,为什么?因为我们人类只有真的把这个知识记录下来,比如说对于我来讲,如果我的知识不能被记录在维基百科上,可能100年之后我也消亡了,我对这个世界也没有什么贡献,好像也不叫知识,好像在未来训人类大模型的时候,我的知识也没用,都变成噪音了。
咱们怎么把我们整个记忆系统从单个人的三级到整个人类的第四级记录下来,整个记忆系统是我们人类未来要给大模型构建起来的。
![]()
最后,反思和自我认知。其实现在模型已经有一定的反思能力,但未来自我认知是很难的问题,很多人在怀疑大模型有没有自我认知的能力,在座的也有很多基础模型实验室的专家,有些人是支持的,有些人是反对的,我是有一些支持的,我觉得这是有可能的,我们值得探索。
人类认知是双系统,系统一和系统二。系统一完成了95%的任务,比如说人类问一个问题,中国的首都是什么?大家的回答是系统一,因为你背下来了,或者你说你今晚晚上吃饭吗?你说吃,也是系统一,这些全部是系统一背下来了。只有更复杂的推理问题,比如说我今天晚上要请一个来自四川的朋友大吃一顿,去哪吃?这时候就变成系统二了,它就得琢磨这个四川的朋友是哪里来的,我们去哪大吃一顿,那就是系统二做的事情,系统二在我们日常中只占5%。对于大模型来讲同样的道理,在2020年我们画了这么一个图,我们当时是说参考人类的AI系统应该长什么样子,有人类的系统一、有人类的系统二,还有一个自学习。
当时为什么想了一个自学习呢?当时我是这么想的,首先系统一可以构建一个大模型,让它基于匹配就能回答,解决系统一的问题;系统二是可以加上一些知识融合,比如指令微调和思维链;第三是如果有些学过认知的,人脑在晚上睡觉的时候会无意识的自学习,如果人没有晚上睡觉不会变的更聪明,当时我们2020年的时候就说未来一定有AI的自学习机制、自学习思维链,但我们不知道怎么学习,就是先把问题抛出来。
对于系统来讲,我们在不断地Scaling,如果我们在不停的Scaling数据,这带来了智能上界的提升,同时我们还在Scaling推理,使得机器思考的时间越长,用更多的计算和更多的搜索来找到更准确的解。第三方面是我们在Scaling自学习环境,让这个机器有更多的机会跟外界基础,拿到更多的反馈。
所以通过这三个Scaling,我们可以让机器来参考人的学习范式,得到更多的学习机会。
Agent训练的核心:环境+奖励+训练任务
对于系统一来讲,如果已经有Transfomer了,是不是意味着我们只要加数据就完了,加更大的参数就完了?原来30T不够,是不是50T?50T不够就100T,到最后再加上参数从100B到1T到3T到5T甚至更大。但我们现在面临另外一个问题,什么问题?
Transfomer的计算复杂度是一个ON平方,使得我们在增大context的时候,显存的增大和推理效率能力会越来越低,这里面临很多问题,最近有一些新型模型,包括一些线性模型试图在用线性的方法,参考人脑是我用更小的脑容量能存更大的知识,甚至更本质的一个问题是有没有可能。
因为原来Transfomer越训越大,包括最早的时候,我们探讨的时候没有说我们非得把模型弄小,越来越大比较早。但最近我也在反思,我们能不能找到更好的知识压缩的方法,把知识压缩到更小的空间里面,这是一个新的问题。
这里面面临两个问题,第一个问题,工程上有没有办法?第二个问题,方法论有没有办法?所以最近包括很多人在探讨,我们大模型可能要回归到研究上来,不能像原来单纯的Scaling上, Scaling是一个很好的办法,但Scaling可能是最轻松的办法,是我们人类偷懒的一个办法,我们直接把Scaling Up上去,它就是一个偷懒的办法,但是更本质的方法,可能我们要找到新的东西。
第二个是新的Scaling范式。Scaling可能是一个非常重要的路径,但我们怎么找到一个新的范式,让这个机器可以Scaling的机会。读书是一个机会,跟人交流也是一种机会,我们要找到一种新的,让这个机器可以独立Scaling的方式,有些人会说我们加大数据,加大数据是我们人强加给它的,这个机器必须找到自己能通过、自己来定义一些奖励函数,自己来定义一些交互方法甚至训练任务来做Scaling,这是系统二来做的事情。
![]()
更重要的是我们有了刚才两个以后,还要完成更多真实场景下超长的任务,这块怎么来做?要让这个机器有像人一样PLAN规划,做一下,检查一下,再反馈一下,人是这样来工作的,机器有没有可能这么做?一个超长任务怎么完成?举个例子,我们今年已经有一点点文章出来,年初的时候跟我们团队的小伙伴说,年底你必须给我写一篇文章,但是没实现,最后也没做出来,反正到现在,大家知道在网上已经有一些文章开始尝试,这个idea也是模型生成的,实验也是模型做的,报告也是模型做的,最后可以做一个Wordshop,但事实上还没有做出来。
这里给出一个真实的超长环境下的任务例子。我们希望在这个基础上来定义未来AI会长什么样子,这是我们的一些思考。
早期在这个大模型之前,大部分机器学习都是F-X到Y的映射,我的学习一个函数,使得X样本可以映射到Y,大模型来了之后,我们把这个问题变成F-X到X的映射,可能映射的也不是严格的X,但我们是让它完全用自监督的学习来做多任务的自学习。
另外第二层,我们加上这些数据之后,让这些模型学习如何推理,如何激活底层的智能。
再往后,我们在教这个机器有自反思、自学习的能力,通过这个机器能够不断地自我批评,能够学习到哪些东西我应该做,哪些东西可以更优的来做。
到未来,我们还要教这个机器能学习到更多,比如说能学习到自我认知,让这个机器能对自己的行为,比如说AI生成了大量的内容可以自我解释,我为什么要生成这个内容,我是什么,我的目标是什么,在终极上也许有一天,AI也有意识。
我们大概有这么定义五层的思考。
从计算机的角度上,计算机不会定义这么复杂,在我看来计算机有三个能力:
第一,计算机的表示和计算。把数据表示出来,它可以做计算。
第二,编程。计算机只有编程是计算机跟外界的交互。
第三,本质上是搜索。
但是这几个能力叠加在一起,第一是有了表示和计算,可以使存储能力远超于人。第二是编程可以做出人类更复杂的一些逻辑。第三,搜索可以比人做的更快。这是计算机这三个能力叠加在一起,可能能带来所谓的“超级智能”,也许能超过人类的一些能力。
![]()
我突然想起2019年,这个PPT原来真的是跟阿里巴巴合作的时候,当时让我给出一页PPT,我当时给出了这一页PPT,就是AGI-Next 30,未来30年我们应该做什么。这个图是我截屏下来的,Next AI,我们说在2019年的时候,未来30年,我们应该做让机器有推理能力、有记忆能力、有意识,我们现在差不多在这里面做了一定的推理能力,大家应该都有一点点共识。记忆能力有一部分,但意识还没有,这是我们在努力的。
未来我们也在反思,如果用参考人脑认知,未来的AI可能会有什么是我、为什么是我,以及给这个模型构建意义系统,还有单个智能体的目标,以及整个智能体群体的目标,这样我们实现对未知的探索,有些人可能会说这个完全不可能,但是大家记住,我们人类的终极意义是我们在不断地探索未知的知识,我们越是觉得不可能的,恰恰也许就是我们未来AGI上路上要去探索的。
2026:专注+创新
2026年对我来说更重要的是要专注和做一些比较新的东西。
第一,我们要Scaling可能还会继续做下去,但Scaling已知的是我们不断加数据、不断探索上限。还有Scaling未知,就是我们不知道的新的范式是什么。
![]()
第二,技术创新。我们会做全新的模型架构创新,解决超长上下文,还有更高效的知识压缩问题,以及我们会实现知识记忆和持续学习,这两个方面加在一起,可能是未来实现让机器比人能力还强一点点的一个机会。
第三,多模态感统,今年是一个热点和重点。因为有了这个能力,我们才使得AI可以实现进入像机器里面的长任务、长时效任务,在我们人的工作环境里面,比如说手机里面、电脑里面,它可以完成我们的长任务。当完成我们的长任务,AI就实现了一个工种,AI变成跟我们人一样,可以帮助我们实现。只有这样,AI才能实现具身,才能进入物理世界。
我相信今年可能是AI for Science的一个爆发年,因为很多能力大大提升,我们可以做更多的事情。
雷递由媒体人雷建平创办,若转载请写明来源。





京公网安备 11011402013531号