当前位置: 首页 » 资讯 » 新科技 » 正文

Meta重金招人押注“超级智能”,5大路径揭秘AI如何自我改进

IP属地 中国·北京 编辑:苏婉清 DeepTech深科技 时间:2025-08-08 10:23:08



上周,扎克伯格宣布,meta 的目标是实现超越人类智能的人工智能(AI)。为此,其试图以九位数天价薪酬为 meta 超智能实验室招揽顶尖研究者;同时计划专注于构建能够自我改进的 AI,这类系统能通过自我迭代持续提升性能水平。

自我改进的可能性使人工智能与其他革命性技术有所区分,比如 CRISPR 无法自行改进其对 DNA 序列的靶向能力,聚变反应堆也无法自行解决如何使该技术实现商业化的难题。但大型语言模型(LLM)可以优化其运行的计算机芯片,以更便宜、更高效的方式训练其他 LLM,甚至可能提出人工智能研究的原创性想法。

在扎克伯格看来,AI 自我改进或将缔造一个人类摆脱日常劳役、在卓越的人工伙伴协助下追求崇高理想的世界。

OpenAI、Anthropic 和谷歌都在其人工智能安全框架中提到了自我改进的 AI 研究,与化学武器和网络安全等更为熟悉的风险类别并列。但他们也提到,自我改进的 AI 研发亦能带来巨大收益。仅凭人类自身智慧,或许永远无法构想出能让 AI 最终攻克癌症与气候变化等世纪难题的创新方案。

目前人类智慧仍是 AI 进步的核心驱动力——若非如此,meta 也不会斥巨资招揽超智能实验室的研究者。

以下是 AI 实现自我改进的五大路径。



提升生产效率

“最重要的事情是编码辅助”。 一家人工智能研究非营利组织 Forethought 的高级研究助理 Tom Davidson 表示。

诸如 Claude Code 和 Cursor 这样辅助编码的工具在整个 AI 行业很受欢迎。谷歌首席执行官 Sundar Pichai 在 2024 年 10 月声称,该公司四分之一的新代码是由 AI 生成的,而 Anthropic 最近也记录了其员工使用 Claude Code 的多种方式。如果工程师因为这种编码辅助工具而提高了生产力,他们将能够更快地设计、测试和部署新的人工智能系统。

然而,这些工具带来的效率提升仍存在不确定性。如果工程师花费大量时间修正 AI 系统生成的错误代码,即便手动编写代码的时间减少,他们的整体工作量可能并未增加。

METR 近期的一项研究发现,开发者在使用 AI 编程助手时,完成任务所需时间延长了约 20%。不过该研究的联合负责人、METR 技术团队成员 Nate Rush 指出,该研究仅针对经验丰富的开发者处理大型代码库的情况,其结论可能不适用于编写实验脚本的 AI 研究者。

Rush 表示,在尖端 AI 实验室内部进行类似研究,或许能更清晰地揭示编程助手是否真正提升了前沿 AI 研究者的效率,但目前尚未开展此类研究。与此同时,仅凭软件工程师的主观感受并不可靠:METR 的研究对象认为 AI 编程工具提高了他们的效率,但实际上,这些工具反而显著拖慢了他们的工作进度。



基础设施优化

如果代码编写完成后需要等待数小时、数天甚至数周才能运行,那么快速编码的优势就会大打折扣。尤其是 LLM 的训练过程极其缓慢,最复杂的推理模型可能需要数分钟才能生成一个回答。斯坦福大学助理教授、DeepMind 高级科学家 Azalia Mirhoseini 指出,这些延迟是 AI 发展的主要瓶颈。“如果能加快 AI 的运行速度,我们就能实现更多创新 ”。

正因如此,Mirhoseini 一直利用 AI 优化 AI 芯片。早在 2021 年,她与谷歌的同事合作开发了一套非 LLM 的 AI 系统,能够决定计算机芯片上各组件的布局以优化效率。尽管其他一些研究者未能复现该研究结果,但 Mirhoseini 表示,Nature杂志对该论文进行了调查并确认其有效性;她还指出,谷歌已将该系统的设计用于多代定制 AI 芯片。

最近,Mirhoseini 开始运用 LLM 解决内核编写问题。内核是控制芯片中矩阵乘法等运算的低级函数。她发现,在某些情况下,即使是通用 LLM 编写的内核,其运行速度也能超越人类设计的版本。

在谷歌的其他部门,科学家们开发了一套名为 AlphaEvolve 的系统,用于优化公司 LLM 基础设施的多个环节。AlphaEvolve 设计了一种新的数据中心运行方案,为谷歌节省了 0.7% 的计算资源;此外,它还进一步优化了谷歌的定制芯片设计,并开发出一种新内核,将 Gemini 的训练速度提升了 1%。

这一提升看似微小,但对谷歌这样的巨头而言,意味着时间、资金和能源的巨大节省。AlphaEvolve 项目负责人、DeepMind 研究科学家 Matej Balog 表示,他和团队仅在 Gemini 整体训练流程的一小部分测试了该系统。如果更广泛地应用,可能会带来更多的节省。



自动化训练

LLM 需要大量数据,其训练在各个阶段均成本高昂。在某些特定领域(例如冷门编程语言),现实世界的数据过于稀缺,难以有效训练模型。基于人类反馈的强化学习(RLHF)技术——即由人类对 LLM 的响应进行评分,再根据评分训练模型——对于构建符合人类标准和偏好的模型至关重要,但获取人类反馈既缓慢又昂贵。

如今,LLM 正被越来越多地用于填补这些空白。如果提供足够的示例,LLM 可以在未经专门训练的领域生成可信的合成数据,随后被用于训练。这种方法正是 Anthropic 研究人员 2022 年提出的具有影响力的“宪法 AI”框架的核心——一个 LLM 根据另一个 LLM 的反馈被训练以减少其有害性。

对 AI 智能体而言,数据稀缺问题尤为严峻。高效的智能体需要能够执行多步骤计划来完成特定任务,但网络上成功的分步任务示例十分稀少,而依靠人类生成新示例成本极高。为突破这一限制,斯坦福大学的 Mirhoseini 与同事近期试点了一项技术:由 LLM 智能体针对给定问题生成可能的分步解决方案,再由 LLM 评判者验证每个步骤的有效性,最后基于这些步骤训练新的 LLM 智能体。



完善智能体设计

目前,LLM 尚未实现重大突破的领域,恰恰是其自身架构的设计。当今所有 LLM 都基于 2017 年由人类研究者提出的 Transformer 神经网络结构,此后该架构的重大改进同样出自人类之手。

但 LLM 智能体的崛起开辟了全新的设计疆域。智能体需要与外界交互的工具及使用规范,优化这些工具和指令对打造高效智能体至关重要。“人类尚未投入足够时间系统探索这些可能性,因此存在大量唾手可得的成果”,哥伦比亚大学教授、DeepMind 高级研究顾问 Jeff Clune 指出,“直接创建 AI 系统来摘取这些果实更为便捷。”

Clune 与初创公司 Sakana AI 的研究人员共同开发了名为“达尔文-哥德尔机”(Darwin-Gödel Machine)的系统:这种智能体能够迭代修改其提示词、工具及代码其他组件以提升任务表现。该系统不仅通过自我修改获得了更高任务评分,更在进化过程中发现了初始版本无法触及的改进方案——由此实现了真正的自我改进闭环。



推动科研突破

尽管 LLM 正在加速 LLM 研发流程的诸多环节,但人类在 AI 研究中的核心地位可能仍将持续相当长时间。许多专家指出,“科研品位”——即顶尖科学家甄别具有潜力的新研究课题与方向的能力——既是 AI 面临的特殊挑战,也是 AI 发展的关键要素。

但 Clune 认为,AI 攻克科研品位的难度可能低于部分研究者的预期。他与 Sakana AI 团队正在开发名为“AI 科学家”的端到端科研系统。该系统能够检索科学文献以自主确定研究课题,通过实验验证假设,并最终撰写研究成果报告。

今年早些时候,该系统曾撰写过一篇论文,提出并测试了一种旨在提升神经网络训练数据整合能力的新策略。在获得研讨会组织方同意后,该论文以匿名形式提交至机器学习领域顶级会议 ICML(国际机器学习大会)的附属研讨会。虽然最终该训练策略未能奏效,但论文仍获得评审高分并达到录用标准。

在另一次实验中,“AI 科学家”提出的研究思路后来被某位人类研究者在 X 平台上独立提出,并引发学界广泛关注。

“当前我们正处在‘AI 科学家’的 GPT-1 时刻”,Clune 表示,“不出数年,它就将写出被世界顶级同行评审会议和期刊录用的论文,并做出原创性科学发现。”



超级智能会到来吗?

在 AI 自我改进的热潮下,未来数月乃至数年,AI 对自身发展的贡献很可能呈倍数增长。按照扎克伯格的描述,这意味着在多个领域超越人类能力的超级智能模型已近在咫尺。但现实中,自我改进 AI 的影响远未成定局。

AlphaEvolve 虽加速了其核心 LLM 系统 Gemini 的训练,但 1% 的速度提升未必能显著改变谷歌的 AI 进展节奏。若 Gemini 每个后续版本都能再提升 1% 训练速度,这些加速效应将产生复合增长。超级智能支持者认为,这种情况下最终的“智能爆炸”不可避免。

但需要注意的是,创新会随时间推移而愈发困难。任何科学领域的早期阶段,突破往往来得快速而容易。有大量显而易见的实验可做、思路可循,且都未经尝试。但随着深度学习科学的成熟,每项额外改进都可能需要人类及其 AI 协作者付出更多努力。很可能当 AI 系统达到人类级研究能力时,人类或较弱 AI 早已摘尽“低垂的果实”。

另外,那些顶尖 AI 公司内部使用的模型很可能比公开发布的版本先进得多,仅凭观察 ChatGPT 等公开系统的能力,难以推断 OpenAI 内部的真实进展。

外部研究者正尽力应对——例如通过追踪 AI 整体发展节奏来判断是否在加速。METR 通过测量人类完成尖端 AI 自主完成任务所需的时间来监控其能力进步。他们发现,自 2019 年 GPT-2 发布以来,AI 能独立完成的任务时长每 7 个月翻倍。而 2024 年起,这个周期已缩短至 4 个月,暗示 AI 进展确实在加速。背后或许存在平淡的原因:顶尖 AI 实验室获得充足投资,可用于招募人才和购置硬件。但 AI 自我改进同样可能发挥作用

Forethought 研究员 Davidson 认为,有充分理由预期 AI 将显著加速自身发展。METR 的研究表明,“低垂果实”效应目前尚未拖慢人类研究者的步伐,或者说增加的投资有效抵消了任何放缓。如果 AI 能显著提升研究者效率,甚至承担部分研究工作,这种平衡将向加速研究倾斜。“我认为完全可以预期会出现 AI 加速发展的阶段,关键问题是这种加速能持续多久。”

1.https://www.meta.com/superintelligence/

2.https://www.technologyreview.com/2025/08/06/1121193/five-ways-that-ai-is-learning-to-improve-itself/

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新