OpenAI 正在重新聚焦其研究方向,将资源集中投入一项新的宏大目标。这家公司瞄准的是“AI 研究员”——一个完全自动化的、基于智能体的系统,能够独立处理复杂问题。OpenAI 表示,这个新目标将成为公司未来几年的“北极星”,它将把推理模型、智能体和可解释性方面的工作整合在一起。
并且,项目已经提上了日程。OpenAI 计划在 9 月前打造出“自主 AI 研究实习生”——一个能够独立承担少量特定研究问题的系统。该系统计划于 2028 年推出,这个 AI 实习生将是全自动多智能体研究系统的前身。OpenAI 称,它将能处理人类难以应对的复杂问题。
这些任务可能涉及数学和物理,比如提出新的证明或猜想,也可能涉及生物学和化学等生命科学,甚至是商业和政策难题。从理论来说,可以将任何能用文本、代码或白板草图表述的问题丢给这个工具,而这覆盖的范围非常广泛。
最近几年,OpenAI 被视为引领 AI 行业的风向标。它凭借大语言模型建立的早期主导地位,塑造了如今数亿人每天使用的技术。但是现在,它面临来自 Anthropic 和 Google DeepMind 等竞争对手的激烈挑战。OpenAI 接下来决定造什么,对它自己和 AI 的未来都很重要。
(麻省理工科技评论)
这个决定很大程度上取决于 OpenAI 的首席科学家雅库布·帕乔基(Jakub Pachocki),他负责制定公司的长期研究目标。帕乔基在 GPT-4 和推理模型的开发中都扮演了关键角色,前者是 2023 年发布的一款改变行业格局的大语言模型,后者是 2024 年首次出现的一项技术,如今已成为所有主流聊天机器人和智能体系统的基础。
在本周的独家专访中,帕乔基向《麻省理工科技评论》详细介绍了 OpenAI 的最新愿景。“我认为我们正在接近一个节点,届时模型将能够像人一样,以连贯的方式无限期地工作。”他说,“当然,你仍然需要人来掌控全局、设定目标。但我认为我们会达到一种状态——一个数据中心就相当于一整座研究实验室。”
通往“AI 研究员”的技术路径
事实上,这类宏大愿景并不新鲜。通过解决世界上最困难的问题来拯救世界,是所有顶尖 AI 公司的公开使命。德米斯·哈萨比斯(Demis Hassabis)2022 年就告诉过《麻省理工科技评论》,这是他创办 DeepMind 的初衷。Anthropic 的 CEO 达里奥·阿莫迪(Dario Amodei)说,他正在数据中心里打造一个“天才之国”。OpenAI 的 CEO 山姆·奥特曼(Sam Altman)想攻克癌症,对此帕乔基表示,OpenAI 现在已经具备了实现目标所需的大部分条件。
今年 1 月,OpenAI 发布了 Codex,一款基于智能体的应用,可在本地或云环境中生成并执行代码任务。它具有分析文档、生成图表、制作收件箱和社交媒体的每日摘要等功能。(其他公司也发布了类似工具,比如 Anthropic 的 Claude Code 和 Claude Cowork。)
OpenAI 称,公司大多数技术人员现在工作中都在使用 Codex。帕乔基认为,可以将 Codex 看作 AI 研究员的一个非常早期的版本,他预计 Codex 会有根本性的提升。
关键是让系统能在更长的时间内运行,同时减少对人类指导的依赖。“我们对自动化研究实习生的真正期待是,你可以把那些一个人需要花几天时间完成的任务交给它。”帕乔基说。
“很多人都对构建能进行更长周期科学研究的系统感到兴奋,”艾伦人工智能研究院的研究科学家道格·唐尼(Doug Downey)认为,这主要是受到代码智能体成功经验的驱动。“你能把相当复杂的编程任务交给 Codex 这样的工具,这非常有用,也令人印象深刻。与此同时,这也带来了一个更大的问题:我们是否能将这种能力拓展到编程之外,在更广泛的科学领域做到类似的事情?”
对帕乔基来说,答案显然是“能”。他认为,这只是沿着我们已有的路径继续往前走,全面能力的提升也会让模型在没有帮助的情况下工作更久。他以 2020 年 GPT-3 到 2023 年 GPT-4 的飞跃作为例子。他指出,GPT-4 在处理问题时的持续能力远超前代,即使没有专门训练也是如此。
推理模型带来了又一次飞跃。训练大语言模型逐步解题、在犯错或走入死胡同里时回溯,也让模型在更长时间段内的工作能力得到了提升。帕乔基相信,OpenAI 的推理模型还会继续进步。
与此同时,OpenAI 也在通过给系统喂入特定的复杂任务样本来训练它们更长时间地独立工作,比如数学和编程竞赛中的高难度题目。这些题目迫使模型学会追踪超长文本,将问题拆分成多个子任务并加以管理。
但他们的目的不是造出一个只会赢数学竞赛的模型。帕乔基说,这其实是在把技术推向真实世界之前,先验证它的可行性。“如果我们真的想做,我们可以造出一个出色的 AI 数学家。但这不是我们现在要优先做的事,因为到了你相信自己能做到的时候,有更紧迫的事情要做。我们现在更专注于在真实世界中有意义的研究。”
目前的工作方向是把 Codex 在编程方面的能力推广到通用问题解决上。“编程领域正在发生巨大的变化,”他说,“我们的工作方式和一年前完全不同了。没有人还在一直手动编辑代码。取而代之的是,你管理一组 Codex 智能体。”按照这个逻辑,如果 Codex 能解决编程问题,它就能解决任何问题。
加速拐点已经出现
过去几个月,OpenAI 确实取得了一些重要成果。在若干未解数学问题上,研究人员利用 GPT-5 系列模型(驱动 Codex 的大语言模型)发现了新解法,并在一些生物学、化学和物理学难题中突破了看似走不通的困境。
“看着这些模型提出大多数博士生至少要花好几周才能想到的点子,我预计这项技术在不久的将来会带来更多加速。”帕乔基说。
但帕乔基承认,事情还没有尘埃落定,他也理解为什么有些人仍然怀疑这项技术究竟能带来哪些变革。他认为,这取决于每个人的工作方式和需求。“我能理解有些人觉得它目前还不太有用。”他说。
他告诉《麻省理工科技评论》,一年前他甚至不用自动补全——这是生成式编程技术最基础的版本。“我对自己的代码非常挑剔,”他说,“能自己在 vim 里敲出来,我就自己敲。”(vim 是一款深受硬核程序员喜爱的文本编辑器,使用大量键盘快捷键而非鼠标来操作。)
但当他看到最新模型的表现后,想法改变了。他仍然不会把复杂的设计任务交出去,但当他只是想快速验证几个想法时,它是个省时利器。“一个周末就能让它跑完以前我需要花一周写代码才能做的实验。”他说。
“我还没觉得它到了可以放手让它主导整个设计的程度,”他补充道,“但当你看到它做出了一件需要花一周时间才能完成的事,这很难反驳。”
帕乔基的计划是把 Codex 这类工具现有的问题解决能力大幅增强,然后推广到各个科学领域。唐尼也认为自动化研究员的构想非常酷:“如果明天早上回来,发现智能体干了一堆活,有新结果可以看,那会非常令人兴奋。”
但他提醒,构建这样一个系统可能比帕乔基描述的要难。去年夏天,唐尼和同事们在一系列科学任务上测试了几个顶尖大语言模型。OpenAI 最新的模型 GPT-5 名列前茅,尽管它仍然会犯很多错误。
“如果你需要把多个任务串联在一起,连续做对好几个的概率往往会下降。”他说。唐尼承认这个领域进展很快,他还没有测试最新版本的 GPT-5(OpenAI 两周前发布了 GPT-5.4)。“所以那些结果可能已经过时了。”他说。
安全性与治理的关键未解问题
那么,一个在几乎没有人类监督的情况下能独立解决复杂问题的系统,可能带来哪些风险?帕乔基告诉《麻省理工科技评论》,OpenAI 内部一直在讨论这些风险。
“如果你相信 AI 即将显著加速研究,包括 AI 自身的研究,这对世界来说是一个巨大的变化,这是一件大事。”他告诉《麻省理工科技评论》,“而且,伴随着一些严肃的未解问题。如果它这么聪明、这么能干,能运行整个研究项目,万一它做了坏事呢?”
在帕乔基看来,这种情况可能以多种方式发生:系统可能失控,可能被黑客入侵,也可能只是误解了指令。
目前 OpenAI 应对这些问题的最主要技术手段,是训练推理模型在工作过程中分享它们正在做什么的细节。这种监控大语言模型的方法被称为“思维链监控”(chain-of-thought monitoring)。
简单来说,大语言模型在逐步执行任务时,会被训练在一种“草稿本”上记录自己正在做的事情。研究人员可以通过这些笔记,在一定程度上用于分析和评估模型行为。近日,OpenAI 发布了关于如何在内部使用思维链监控来研究 Codex 的新细节。
“一旦系统开始在大型数据中心里长时间自主运行,我认为思维链监控将成为我们真正依赖的东西。”帕乔基说。
其设想是用其他大语言模型来监控 AI 研究员的草稿本,在不良行为成为问题之前就识别到它,而不是试图从一开始就阻止不良行为的发生。人类对大语言模型的理解还不够深入,无法做到完全控制。
“我觉得要真正说‘好了,这个问题解决了’,还需要很长时间,”他说,“在你能真正信任这些系统之前,你肯定需要有限制措施。”帕乔基认为,强大的模型应该部署在沙箱环境中,与任何它们可能破坏或利用来造成伤害的东西隔离开。
现在,AI 工具已经被用于发起新型网络攻击,有人担心它们会被用来设计合成病原体作为生物武器。“这将是一件非常奇异的事情。这是一种在某些方面前所未有的高度集中的权力,”帕乔基说,“想象一下,你进入一个世界,一个数据中心就能完成 OpenAI 或 Google 能做的全部工作。过去需要大型组织才能完成的事情,现在几个人就够了。”他认为,这对各国政府来说是一个巨大的挑战。
但有些人会说,政府本身就是问题的一部分。比如,美国政府想在战场上使用 AI。Anthropic 与五角大楼最近的对峙表明,社会各界对于这项技术应该和不应该被如何使用远未达成共识,更不用说由谁来划定红线。在那场争端的紧接着,OpenAI 就站出来与五角大楼签了协议,取代了竞争对手。局面仍然混沌不明。
《麻省理工科技评论》就此追问帕乔基:是真的相信其他人能解决这些问题,还是作为未来的关键设计者,感受到了个人责任?“我确实感受到了个人责任,”他说,“但我不认为 OpenAI 仅凭自己就能解决这个问题,无论是把技术推向某个特定方向还是以某种特定方式设计产品。我们肯定需要政策制定者的大量参与。”
那么,我们现在身处何处?真的走在通往帕乔基所描绘的那种 AI 的道路上吗?“我在这个领域待了二十多年了,我已经不敢相信自己对某些能力到底还有多远的预判了。”他说。
OpenAI 的公开使命是确保通用 AI(一种假想的未来技术,许多 AI 乐观派相信它将能在大多数认知任务上与人类匹敌)造福全人类。OpenAI 计划通过率先造出它来实现这一目标。但帕乔基在与《麻省理工科技评论》的对话中只提到过一次 AGI,而且他很快就用“具有经济变革性的技术”这个说法进行了替代。
大语言模型和人脑不一样,他说:“它们在某些方面和人类表面上相似,因为它们基本上是在人类语言上训练的。但它们不是通过进化形成的,不像人类那样高效。”
“即使到 2028 年,我也不预期我们会得到在所有方面都和人一样聪明的系统。”他补充道,“我不认为它会发生,但我不认为那是绝对必要的。有趣的是,你不需要在所有方面都和人一样聪明,就能产生巨大的变革力量。”
原文链接:
https://www.technologyreview.com/2026/03/20/1134438/openai-is-throwing-everything-into-building-a-fully-automated-researcher/
排版:刘雅坤





京公网安备 11011402013531号