当前位置: 首页 » 资讯 » 新科技 » 正文

6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码

IP属地 中国·北京 编辑:周伟 新智元 时间:2024-07-14 14:01:13

报道

编辑:桃子 乔杨

来自微软、MIT等机构的学者提出了一种创新的训练范式,攻破了大模型的推理缺陷。他们通过因果模型构建数据集,直接教模型学习公理,结果只有67M参数的微型Transformer竟能媲美GPT-4的推理能力。

「因果推理」绝对是当前GenAI热潮下的小众领域,但是它有一个大佬级的坚定支持者——Yann LeCun。

他在推特上的日常操作之一,就是炮轰Sora等生成模型,并为自己坚信的因果推理领域摇旗呐喊。

甚至,早在2019年VentureBeat的采访中,他就表达过这一观点:我们需要在深度学习模型中引入事件的因果关系,才能增强泛化能力,减少训练数据使用。

对于当前最流行的模型架构Transformer,我们能教它因果推理吗?

最近,来自微软MIT等机构的研究人员提出了一种训练大模型新范式——公理框架(Axiomatic framework)。

论文中,作者从头开始训练了6700万参数的模型,仅使用了简单的因果链作为训练数据。

令人惊讶的是,在推断复杂图表中的因果关系时,67M模型的表现超越了十亿级参数LLM,甚至可以与GPT-4相媲美。

论文地址:https://arxiv.org/abs/2407.07612v1

微软MIT等团队最新方法的提出,是受到了图灵奖得主Judea Pearl启发。

Pearl曾提出了结构化因果规则中的因果无关性公理,即直接通过符号化公理示例来教Transformer模型学习被动数据(passive data)。

这种方法不同于传统机器学习模型,使用由公理推导出的数据。

正如结果所示,通过公理训练,研究证明了Transformer模型可以学习因果,从而推断因果关系,并从相关性中识别因果性。

这暗示了,像GPT-4等大模型的训练,可以通过网络数据中的带噪声的公理化示例学习因果知识,而无需进行干预实验。

网友称赞道,「研究者的观点非常耐人寻味,因果推理一直是LLM的致命弱点,进一步发展这一领域,势在必行」。

「这类研究可能是通向半AGI的一条途径」。

研究背景

因果推理(causal reasoning)是一种推理过程,遵守有特定因果性的预定义公理或规则。

图灵奖得主Judea Pearl曾通过如下的「因果关系阶梯」(ladder of causation)定义了可能的因果推理类型。

通常因果推理所用的公理或规则并不会被直接引入,模型学习的只是数据。公理或规则作为归纳偏差被纳入模型,比如通过正则化、模型架构或变量选择等方式。

而这篇论文想要探讨的,就是模型能否从被动的符号演示中直接学习公理或规则。作者将这种方法称为「公理化训练」(axiomatic training)。

假设因果公理都可以以如下形式表示:<前提,假设,结果>,其中结果只有「是」和「否」两种形式。

这基本类似于亚里士多德提出的「三段论」格式,比如Judeal Pearl书中提出的「碰撞公理」(collider axiom)就可以表示为:

前提:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。