当前位置: 首页 » 资讯 » 新科技 » 正文

AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢!

IP属地 中国·北京 新智元 时间:2025-12-21 20:11:56


新智元报道

编辑:桃子

AI界「双神会」来了!一场NeurIPS 2025炉边谈话,AI教父Hinton和Jeff Dean同台,亲口爆料了AI革命「那些年」,还有更多鲜为人知的轶事。

NeurIPS 2025那场轰动一时的访谈,如今终于放出来了!

AI教父Hinton和DeepMind首席科学家Jeff Dean,两位AI圈关键人物,曾经合作多年的老友聚在一起。


现场,Hinton直接抛出了一个尖锐的问题——

谷歌是否后悔发表Transformer论文?

Jeff Dean给出了干脆的回应,「不后悔!因为它对世界产生了巨大的影响」。

不仅如此,Hinton还公开透露,自己关于Scaling的顿悟,源于Ilya的一场演讲。


在近1小时的对话中,两位大佬回顾了从ML早期突破,到当今塑造该领域的挑战、机遇等等。

他们还分享了,一些非常精彩的轶事——

从卧室运行AlexNet的两块GPU,到谷歌大脑(Google Brain)的早期岁月。

AI教父Scaling顿悟,来自Ilya

对话的开场,先从一个有趣的共同点开始:

两位Geoff和Jeff都对「反向传播」(backpropagation)着迷。

这一概念的论文虽在1986年于Nature正式发表,但其实早在1982年就已提出。


论文地址:https://www.nature.com/articles/323533a0

Jeff Dean回忆起自己的本科毕业论文——

1990年,他先修了并行算法课程,仅用一周时间接触神经网络,就被深深吸引。

于是,他向明尼苏达大学Vipin Kumar教授申请做荣誉论文,主题是「用于训练神经网络的并行算法」。

那时,Jeff Dean使用了一台32个处理器的超立方体计算机,原以为算力翻32倍,就能做出惊人的神经网络。


论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1

但现实,给了他一记教训。

在扩展处理器(算力)的同时,没有同步扩大模型规模。

他仅是把10个神经元的层,硬拆到32个处理器上,结果性能惨不忍睹。

Jeff Dean还发明了早期的两个概念:「数据并行」和「模型并行」(当时称之为「模式划分」)。

另一边,Hinton则分享了自己对算力觉醒的「迟到」。他表示,「自己本该在80年代末,就意识到算力的重要」。


当时,有两个世界级团队:一个是伯克利ICSI团队,另一个是剑桥团队。

他们用并行计算,构建出更好的语音声学模型,刷新业界SOTA,超越常规方式训出的神经网络的性能。

但由于模型规模扩大,编程和硬件复杂也会急剧上升,他们没有坚持下去。

直到2014年,听完Ilya Sutskever的报告,Hinton才彻底醒悟——

Scaling至关重要,并且这种趋势会一直持续下去。

AlexNet出世

ML一夜征服「图像识别」

接下来,对话的焦点转向了2012年AlexNet,那个AI大爆炸的时刻。

Hinton回忆道,Vlad Nair先用英伟达GPU在道路识别、航拍图像上大获成功,证明了「多层网络远胜单层」。


AlexNet便是一个8层的神经网络

当时,他申请这一项目的资助续期,却被评审驳回——

这个项目不值得资助,因为它不可能产生任何工业影响。

现场,Hinton笑称,我真想告诉他,这项技术去年贡献了美国股市80%的增长。

随后,学生Alex Krizhevsky在做「微型图像」的识别任务,当时用MNIST数据集训练。

但Alex尝试失败,Hinton发现权重衰减参数设错,纠正了这一问题。

当时,Ilya表示,「为什么不直接上ImageNet?这么大数据集肯定可以,我们得在Yann LeCun之前做」。

与此同时,LeCun也一直试图让实验室博士后和学生把卷积神经网络用到ImageNet上,但大家认为还有更重要的事要做。


于是,Ilya负责数据预处理,将图像统一成固定尺寸,结果效果非常出色。

Hinton调侃道,「接下来,我做了我这辈子最成功的一次管理决策」。

只要每周在ImageNet上提升1%的性能,允许Alex拖延写论文综述。

结果,一周一周不断成功迭代。


至于训练硬件,就是众所周知的「两块英伟达GTX 580 GPU」。

当时,Alex在自家的卧室里,用这两块GPU完成了AlexNet的训练。Hinton幽默地表示,「当然,GPU我们买单,电费Alex父母付,纯属为多伦多大学省钱」。


茶水间一次闲聊

催生「谷歌大脑」

差不多同一时间,在谷歌一个全新团队——谷歌大脑(Google Brain)正在酝酿而生。

Jeff Dean回忆,Google Brain雏形源于一次茶水间偶遇的闲聊

那天,Andrew Ng时任斯坦福教授(每周来谷歌一天),他们恰巧撞见。

Andrew提到,「自己的学生用神经网络,已经做出了不错的成果」。

这句话立即点醒了Jeff Dean,他想到——我们有的是海量CPU,为什么不训练超大神经网络?


于是,他们训练了一个系统,支持模型并行+数据并行,扩展到上千台机器上。

这个著名的实验:在1000万YouTube视频帧上无监督学习,让神经网络学会识别「猫」。

他们没有用卷积,而采用了「局部连接」的方式来做视觉,导致参数达20亿。

为了完成这次训练,他们用了16000个CPU核心。


Jeff表示,「我们已观察到,模型越大,效果越好。只不过,当时还没把它正式总结成Scaling Laws」。

我们甚至有句口头禅,某种意义上也挺像Scaling Laws:更大的模型、更多的数据、更多的算力。


也就是说,在AlexNet出世一年前,Google Brain早已验证了Scaling Laws。

64岁实习生,加入谷歌

2012年夏天,Andrew Ng转向了教育平台Coursera,因为他认为那才是未来。

于是,他便推荐了Hinton接棒。

有趣的是,Hinton本想做访问科学家,但必须满职6个月才可以开薪。

于是,64岁的Hinton,成为了谷歌的「实习生」。而且,还是Jeff Dean的实习生。


加入谷歌之后,Hinton还得和实习生们一起上培训课。

一个大房间里坐满了学生,有来自IIT的,也有来自清华的,总之是一大堆特别聪明的人。

培训第一天,讲师说「用你的LDAP和OTP登录」,Hinton当场就懵了,什么是LDAP?什么是OTP?

大概过了十分钟,他们决定:其中一个助教专门负责我。

其他学生都在四处张望,看着这个明显什么都不懂、而且年纪是他们三倍的人。说实话,有点尴尬。

更尬的是,午饭时间,Hinton还碰巧遇到了,此前教的一位本科学生。

直到入职的第二天,Jeff Dean和Hinton在Palo Alto越南餐厅初见。


赌场拍卖,谷歌必赢

AlexNet爆火后,多家公司都在争抢Hinton的团队。

但后来,他们发现,如果把自己包装成一家「公司」,其实可以拿到更多的钱。

「所以我们决定:我们要当『收购标的』」。

当时,Hinton成立了DNN Research,举办了一场拍卖会,谷歌、微软、百度等多家公司参与争夺。

有趣的是,地点定在了南太浩湖(South Lake Tahoe)的赌场。

楼下老虎机声音不断,楼上每次加价必须至少加100万。

Hinton透露,「但我其实心里早就决定了:谷歌必须赢」。


最核心的原因,便是那年夏天「实习生」的经历。

所以我们在拍卖快结束的时候,当那两拨人离开、看起来可能会让「不该赢的人」赢的时候,我们就直接把拍卖停了。


Google Brain早期合影

并入谷歌之后,Hinton参与了众多项目,现场他还分享了失败的案例——Capsules(胶囊网络)项目。

他投入「巨大的决心」,在这一项目上执着多年,尽管Jeff和Ilya劝阻,最终一无所获。

此外,Hinton在职期间也为谷歌做了一些有价值的工作,比如「模型蒸馏」(distillation)

大概在2014年,这篇论文提交到NeurIPS后,却被组委会拒稿。

审稿人完全不理解其想法,如今事实证明,它已成为LLM核心技术之一。


另外,Hinton和Abdelrahman Mohamed做了一个优秀的「语音声学模型」,决定将其推销给黑莓(BlackBerry),也遭对方拒绝——

因为我们有键盘

后来,Navdeep Jaitly在谷歌用GPU证明了其价值,大获成功。

从Transformer到Gemini

若要说Google Brain产出对世界影响最深远的一篇研究,当属Transformer!

Jeff Dean回忆道,Transformer灵感来源于Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」(seq2seq)工作。

它使用深层LSTM,在机器翻译上大获成功。但LSTM存在瓶颈,即顺序依赖和状态压缩。

如果你把所有状态都保存下来,然后对它们施加注意力(attention),那可能会是一个更好的方案。

事实上,在谷歌之外,已经有一些关于注意力机制的早期工作了。

注意力机制,早期由Bahdanau等人引入,保留了整个上下文。

后来,这一思想被整合到seq2seq中,最终演变成了Transformer:也就是保存所有状态,然后对其进行注意力计算。


Jeff Dean表示,这被证明非常优雅——

因为可以并行地计算所有状态,而不再受到严格的顺序依赖。

同时,还能回看所有经历过的状态,从而更好地理解你在解码什么;对于编码器模型来说,也意味着可以利用到更丰富的状态信息。

Hinton坦言,Transformer刚出来后,自己没太重视——因为大脑不会存储每一步向量,我更关心生物启发。

但论文一出就展现了,用少10到100倍的算力即可达到同等,甚至更好的效果。

这显然是一件大事。

然而内部视角,Transformer只是众多突破之一,并未被视为「鹤立鸡群」。

他表示,我甚至也不太确定它是不是「更重要」——它确实非常有用。

在ChatGPT之前,谷歌早已有了强大聊天机器人,但从搜索视角看,幻觉和事实性问题让它难以对外发布。

Jeff解释道,「搜索核心是准确」。

直到2023年,ChatGPT出世让谷歌瞬间傻眼。内部拉响了「红色警报」,Jeff 写了一页备忘录:

我们现在有点「自己犯傻」了。

因为我们早就知道,算力规模和训练好模型之间是强相关的:你能用的算力和数据越多,模型就越好。


而且,谷歌内部多个团队Google Brain、DeepMind、谷歌研究员都在这一领域做出了探索性尝试。

但问题是,我们把研究想法和人力切得太碎了,也把算力切得太碎了。

于是,一次内部大重组迅速完成,Google Brain+DeepMind=Google DeepMind

这直接催生了Gemini:合并团队、共享算力,打造出世界最强的多模态模型。

这时,Hinton打断问道,「谷歌是否后悔发表Transformer论文」?

Jeff坚定有力回答,「不会,因为它对世界产生了很好的影响」。


紧接着主持人又一回击,「从那之后谷歌就没怎么发表论文了?还是说这不是真的」?

Jeff澄清道,「我们仍发表论文,今年NeurIPS就有上百篇」。

对于那些主要在商业上最关键、尤其是面向「最大规模模型」的论文,我们会更谨慎一些。

公开发表是竞争优势,能吸引人才、获得社区反馈。 谷歌全栈护城河,坚不可破

最近几周,谷歌Gemini连发,让世界重新认识到谷歌的强大。尤其是,背后硬件优势——TPU。


Jeff Dean现场强调了硬件-模型「协同设计」(co-design)的优势——

谷歌研究人员与硬件团队紧密合作,提前去布局潜力方向,预测未来2-6年后的趋势。

甚至,他们用强化学习去优化芯片布局布线,并在多带TPU上应用。

这不仅提升了芯片质量,也加速了研发的流程。

下一个20年

在炉边对话压轴部分,主持人问了一个所有人最关心的问题——

AI领域接下来会往哪走?Transformer会被取代吗?20年后,世界会变成什么样?

Jeff Dean最兴奋的方向之一,Scaling注意力机制的触达范围,从百万Token到数万亿。

让模型直接访问所有科学论文、所有视频,而非将数万亿token塞进几千亿个权重里。

他承认,这当然需要硬件的创新,还需更节能、性价比更高的推理芯片。


Jeff Dean还指出,目前模型缺乏「持续学习」,即训练后固定不变。

MoE模型往往是一堆大小都一样的专家:分出去,再合回来,再分出去。这个结构说实话也不算太有意思。

未来,他们还将探索更动态、脑启发的架构。

对于20年后的预测,Hinton总结道——

如果有人真的造出来了,要么我们从此幸福快乐地生活下去,要么我们全部灭亡。


20年后到底会有什么影响,没人说得准,特别是对社会的影响。

很明显,很多工作会消失。但不清楚它会不会创造出足够的新工作来替代。

Jeff Dean则乐观于科学加速,「AI连接不同领域、自动化发现闭环,将让突破更快发生」。

他们两人一直认为,医疗与教育变革最剧烈。

Hinton最后补充道,「大模型压缩巨量知识,发现人类未见的共通性,它们会非常有创造力——抓到希腊文学与量子力学的远距离类比」。

参考资料:

https://x.com/JeffDean/status/2001389087924887822

https://www.youtube.com/watch?v=ue9MWfvMylE

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。