当前位置: 首页 » 资讯 » 新科技 » 正文

前OpenAI 联合创始人发声:AI主流发展路线已经遇到瓶颈

IP属地 中国·北京 第一财经资讯 时间:2025-11-26 18:19:28

11 月 26 日,Safe Superintelligence(SSI)CEO伊利亚·苏茨克维(Ilya Sutskever)三万字访谈在AI圈刷屏了。苏茨克维在AI领域称得上信仰一样的人物,他的另一层身份是前OpenAI 联合创始人和首席科学家、GPT 系列的关键缔造者,被认为是AI先驱。

在离开OpenAI创业后,苏茨克维一直鲜有发声,他此次采访备受关注。在播客中苏茨克维谈到了对当前 AI 路径的判断、预训练范式有什么问题、AI为什么会在泛化上输给人类等等。


这次访谈最为关注的论点是,苏茨克维认为,目前主流的路线已经明显遇到瓶颈,AI的扩展(Scaling)时代已经终结。尽管他去年就曾预言“预训练的终结”,但这一次他更加明确:我们来到了研究的时代,从规模化扩展回到了研究范式本身。

苏茨克维提出,2012 年到2020年,是研究的时代。而2020 年到 2025 年,是规模化时代,但现在算力规模已经很大了,却不能持续带来更好的“扩展”,扩展与浪费算力之间的界线变得模糊。于是我们又回到了研究时代,“只是有了更大的计算机”。

在继续通向AGI的路途中,需要解决的根本问题是,大模型的泛化能力为什么会比人类差很多。

苏茨克维表示,当前模型令人困惑的地方在于,他们在各种评测上表现得很出色,而这些题目实际上也挺难,但另一方面它们也在某些情况下重复犯错,比如用AI去编程时,AI能解决复杂的问题,却也会有简单的Bug,在明知道Bug的存在时却不断引入新的Bug。他提出了两种可能的解释。

“比较异想天开的解释是,也许强化学习 (RL) 训练让模型变得有点过于一根筋和视野狭窄,过于缺乏意识,尽管这同时也让它们在其他方面更有意识。正因为如此,它们无法完成一些基本的事情。”

但另一个解释是,或许现在AI训练选择的数据太狭窄,相比做预训练 (pre-training) 时用上所有的数据,现在做强化学习训练时,会针对评测集去选择对应的数据。这有可能解释评测性能与实际现实世界性能之间的脱节。

苏茨克维举例表示,就像有学生要成为最好的竞赛程序员,所以他在该领域练习了 1万小时,解决了所有问题,背诵了所有证明技巧,成为顶尖选手之一,但他也不一定会在职业生涯中做得很好。

现在的模型就像这样的学生,“我们会说,模型应该擅长编程竞赛,让我们把有史以来所有的编程竞赛题都拿来。然后再做一些数据增强,现在你有了一个很好的竞赛程序员。”仅此而已。

此外,苏茨克维一直在按照人类的大脑来思考AI的进化方向,他认为,当下的AI或许缺少了人类的情绪,这可能是某种价值函数,能让AI更有方向感。

苏茨克维用了现实中脑损伤的案例来阐述他的观点:一个人因某种脑损伤丧失了情绪处理能力,不觉得悲伤和兴奋。他仍然善于表达,可以解决小谜题,但他在做任何决定时都变得极度糟糕,决定穿哪双袜子都要花好几个小时,会做出非常糟糕的财务决策。

苏茨克维的猜测是,人类的价值函数在某种重要的方面受到情绪的调节,这种调节是由进化硬编码的。也许这对于人类在这个世界上有效行动很重要,“简单的东西在非常广泛的情况下非常有用”。

我们能从预训练中得到这种属于人类的“价值函数”吗?苏茨克维目前也并不确定,“也许如果你足够擅长从预训练中挖掘一切,也能得到那个东西。”

值得一提的是,不只是苏茨克维,AI行业不少先驱也对当前的AI路线提出冷静的观点。

图灵奖得主、meta AI首席科学家杨立昆(Yann LeCun)在多个场合发表过对LLM技术路线的质疑。他认为,绝大多数同行致力于的大语言模型是死胡同,LLM由于其计算机制的限制,无法进行复杂的推理和规划,它们只是为了迎合训练数据的统计规律,根本无法让计算机真正超越人类智能。

相反,杨立昆认为,世界模型将成为人工智能架构的主流模型。世界模型通过摄取视觉信息来了解周围世界,学习方式类似动物幼崽或人类幼儿,而大语言模型则是基于海量文本数据库的预测模型。

杨立昆将于年底离开工作了12年的meta,并创建专注于世界模型的初创公司。他认为,如果未来五到十年里把“世界模型”的相关难题解决了,就有望构建真正智能的、能够规划和推理的AI系统。

和杨立昆一样,“AI教母”、斯坦福大学教授李飞飞也强调建立“世界模型”和空间智能的重要性。11 月 10 日,她发表长文提到,当前以大型语言模型为代表的AI虽然擅长处理抽象知识,却如同在“黑暗中行走”,缺乏对物理世界的真实理解。

李飞飞解释道,人类对世界的理解是整体性的,不仅关乎我们“看见了什么”,还包括事物在空间上的关系、它们的意义以及彼此的关联,而非仅仅依赖语言描述。为了赋予机器这种能力,我们需要构建一种全新的“世界模型”,一类能构建环境内部表征的 AI 系统,在她看来,这种模型要具备生成性、多模态性和交互性三种核心能力。

显然,对于AI的未来行业尚未达成共识。但可以肯定的是:单纯依靠堆算力、扩规模的阶段已经结束。行业必须重新思考,到底哪个范式才能真正引领我们走向AGI?

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新