当前位置：首页 » 资讯 » 新科技 » 正文

AI教父Hinton首爆十年前拍卖：我早已内定谷歌必赢！

IP属地中国·北京 新智元 时间：2025-12-21 20:11:56

新智元报道
编辑：桃子
AI界「双神会」来了！一场NeurIPS 2025炉边谈话，AI教父Hinton和Jeff Dean同台，亲口爆料了AI革命「那些年」，还有更多鲜为人知的轶事。
NeurIPS 2025那场轰动一时的访谈，如今终于放出来了！
AI教父Hinton和DeepMind首席科学家Jeff Dean，两位AI圈关键人物，曾经合作多年的老友聚在一起。

现场，Hinton直接抛出了一个尖锐的问题——
谷歌是否后悔发表Transformer论文？
Jeff Dean给出了干脆的回应，「不后悔！因为它对世界产生了巨大的影响」。
不仅如此，Hinton还公开透露，自己关于Scaling的顿悟，源于Ilya的一场演讲。

在近1小时的对话中，两位大佬回顾了从ML早期突破，到当今塑造该领域的挑战、机遇等等。
他们还分享了，一些非常精彩的轶事——
从卧室运行AlexNet的两块GPU，到谷歌大脑（Google Brain）的早期岁月。
AI教父Scaling顿悟，来自Ilya
对话的开场，先从一个有趣的共同点开始：
两位Geoff和Jeff都对「反向传播」（backpropagation）着迷。
这一概念的论文虽在1986年于Nature正式发表，但其实早在1982年就已提出。

论文地址：https://www.nature.com/articles/323533a0
Jeff Dean回忆起自己的本科毕业论文——
1990年，他先修了并行算法课程，仅用一周时间接触神经网络，就被深深吸引。
于是，他向明尼苏达大学Vipin Kumar教授申请做荣誉论文，主题是「用于训练神经网络的并行算法」。
那时，Jeff Dean使用了一台32个处理器的超立方体计算机，原以为算力翻32倍，就能做出惊人的神经网络。

论文地址：https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1
但现实，给了他一记教训。
在扩展处理器（算力）的同时，没有同步扩大模型规模。
他仅是把10个神经元的层，硬拆到32个处理器上，结果性能惨不忍睹。
Jeff Dean还发明了早期的两个概念：「数据并行」和「模型并行」（当时称之为「模式划分」）。
另一边，Hinton则分享了自己对算力觉醒的「迟到」。他表示，「自己本该在80年代末，就意识到算力的重要」。

当时，有两个世界级团队：一个是伯克利ICSI团队，另一个是剑桥团队。
他们用并行计算，构建出更好的语音声学模型，刷新业界SOTA，超越常规方式训出的神经网络的性能。
但由于模型规模扩大，编程和硬件复杂也会急剧上升，他们没有坚持下去。
直到2014年，听完Ilya Sutskever的报告，Hinton才彻底醒悟——
Scaling至关重要，并且这种趋势会一直持续下去。
AlexNet出世
ML一夜征服「图像识别」
接下来，对话的焦点转向了2012年AlexNet，那个AI大爆炸的时刻。
Hinton回忆道，Vlad Nair先用英伟达GPU在道路识别、航拍图像上大获成功，证明了「多层网络远胜单层」。

AlexNet便是一个8层的神经网络
当时，他申请这一项目的资助续期，却被评审驳回——
这个项目不值得资助，因为它不可能产生任何工业影响。
现场，Hinton笑称，我真想告诉他，这项技术去年贡献了美国股市80%的增长。
随后，学生Alex Krizhevsky在做「微型图像」的识别任务，当时用MNIST数据集训练。
但Alex尝试失败，Hinton发现权重衰减参数设错，纠正了这一问题。
当时，Ilya表示，「为什么不直接上ImageNet？这么大数据集肯定可以，我们得在Yann LeCun之前做」。
与此同时，LeCun也一直试图让实验室博士后和学生把卷积神经网络用到ImageNet上，但大家认为还有更重要的事要做。

于是，Ilya负责数据预处理，将图像统一成固定尺寸，结果效果非常出色。
Hinton调侃道，「接下来，我做了我这辈子最成功的一次管理决策」。
只要每周在ImageNet上提升1%的性能，允许Alex拖延写论文综述。
结果，一周一周不断成功迭代。

至于训练硬件，就是众所周知的「两块英伟达GTX 580 GPU」。
当时，Alex在自家的卧室里，用这两块GPU完成了AlexNet的训练。Hinton幽默地表示，「当然，GPU我们买单，电费Alex父母付，纯属为多伦多大学省钱」。

茶水间一次闲聊
催生「谷歌大脑」
差不多同一时间，在谷歌一个全新团队——谷歌大脑（Google Brain）正在酝酿而生。
Jeff Dean回忆，Google Brain雏形源于一次茶水间偶遇的闲聊。
那天，Andrew Ng时任斯坦福教授（每周来谷歌一天），他们恰巧撞见。
Andrew提到，「自己的学生用神经网络，已经做出了不错的成果」。
这句话立即点醒了Jeff Dean，他想到——我们有的是海量CPU，为什么不训练超大神经网络？

于是，他们训练了一个系统，支持模型并行+数据并行，扩展到上千台机器上。
这个著名的实验：在1000万YouTube视频帧上无监督学习，让神经网络学会识别「猫」。
他们没有用卷积，而采用了「局部连接」的方式来做视觉，导致参数达20亿。
为了完成这次训练，他们用了16000个CPU核心。

Jeff表示，「我们已观察到，模型越大，效果越好。只不过，当时还没把它正式总结成Scaling Laws」。
我们甚至有句口头禅，某种意义上也挺像Scaling Laws：更大的模型、更多的数据、更多的算力。

也就是说，在AlexNet出世一年前，Google Brain早已验证了Scaling Laws。
64岁实习生，加入谷歌
2012年夏天，Andrew Ng转向了教育平台Coursera，因为他认为那才是未来。
于是，他便推荐了Hinton接棒。
有趣的是，Hinton本想做访问科学家，但必须满职6个月才可以开薪。
于是，64岁的Hinton，成为了谷歌的「实习生」。而且，还是Jeff Dean的实习生。

加入谷歌之后，Hinton还得和实习生们一起上培训课。
一个大房间里坐满了学生，有来自IIT的，也有来自清华的，总之是一大堆特别聪明的人。
培训第一天，讲师说「用你的LDAP和OTP登录」，Hinton当场就懵了，什么是LDAP？什么是OTP？
大概过了十分钟，他们决定：其中一个助教专门负责我。
其他学生都在四处张望，看着这个明显什么都不懂、而且年纪是他们三倍的人。说实话，有点尴尬。
更尬的是，午饭时间，Hinton还碰巧遇到了，此前教的一位本科学生。
直到入职的第二天，Jeff Dean和Hinton在Palo Alto越南餐厅初见。

赌场拍卖，谷歌必赢
AlexNet爆火后，多家公司都在争抢Hinton的团队。
但后来，他们发现，如果把自己包装成一家「公司」，其实可以拿到更多的钱。
「所以我们决定：我们要当『收购标的』」。
当时，Hinton成立了DNN Research，举办了一场拍卖会，谷歌、微软、百度等多家公司参与争夺。
有趣的是，地点定在了南太浩湖（South Lake Tahoe）的赌场。
楼下老虎机声音不断，楼上每次加价必须至少加100万。
Hinton透露，「但我其实心里早就决定了：谷歌必须赢」。

最核心的原因，便是那年夏天「实习生」的经历。
所以我们在拍卖快结束的时候，当那两拨人离开、看起来可能会让「不该赢的人」赢的时候，我们就直接把拍卖停了。

Google Brain早期合影
并入谷歌之后，Hinton参与了众多项目，现场他还分享了失败的案例——Capsules（胶囊网络）项目。
他投入「巨大的决心」，在这一项目上执着多年，尽管Jeff和Ilya劝阻，最终一无所获。
此外，Hinton在职期间也为谷歌做了一些有价值的工作，比如「模型蒸馏」（distillation）。
大概在2014年，这篇论文提交到NeurIPS后，却被组委会拒稿。
审稿人完全不理解其想法，如今事实证明，它已成为LLM核心技术之一。

另外，Hinton和Abdelrahman Mohamed做了一个优秀的「语音声学模型」，决定将其推销给黑莓（BlackBerry），也遭对方拒绝——
因为我们有键盘
后来，Navdeep Jaitly在谷歌用GPU证明了其价值，大获成功。
从Transformer到Gemini
若要说Google Brain产出对世界影响最深远的一篇研究，当属Transformer！
Jeff Dean回忆道，Transformer灵感来源于Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」（seq2seq）工作。
它使用深层LSTM，在机器翻译上大获成功。但LSTM存在瓶颈，即顺序依赖和状态压缩。
如果你把所有状态都保存下来，然后对它们施加注意力（attention），那可能会是一个更好的方案。
事实上，在谷歌之外，已经有一些关于注意力机制的早期工作了。
注意力机制，早期由Bahdanau等人引入，保留了整个上下文。
后来，这一思想被整合到seq2seq中，最终演变成了Transformer：也就是保存所有状态，然后对其进行注意力计算。

Jeff Dean表示，这被证明非常优雅——
因为可以并行地计算所有状态，而不再受到严格的顺序依赖。
同时，还能回看所有经历过的状态，从而更好地理解你在解码什么；对于编码器模型来说，也意味着可以利用到更丰富的状态信息。
Hinton坦言，Transformer刚出来后，自己没太重视——因为大脑不会存储每一步向量，我更关心生物启发。
但论文一出就展现了，用少10到100倍的算力即可达到同等，甚至更好的效果。
这显然是一件大事。
然而内部视角，Transformer只是众多突破之一，并未被视为「鹤立鸡群」。
他表示，我甚至也不太确定它是不是「更重要」——它确实非常有用。
在ChatGPT之前，谷歌早已有了强大聊天机器人，但从搜索视角看，幻觉和事实性问题让它难以对外发布。
Jeff解释道，「搜索核心是准确」。
直到2023年，ChatGPT出世让谷歌瞬间傻眼。内部拉响了「红色警报」，Jeff 写了一页备忘录：
我们现在有点「自己犯傻」了。
因为我们早就知道，算力规模和训练好模型之间是强相关的：你能用的算力和数据越多，模型就越好。

而且，谷歌内部多个团队Google Brain、DeepMind、谷歌研究员都在这一领域做出了探索性尝试。
但问题是，我们把研究想法和人力切得太碎了，也把算力切得太碎了。
于是，一次内部大重组迅速完成，Google Brain+DeepMind=Google DeepMind。
这直接催生了Gemini：合并团队、共享算力，打造出世界最强的多模态模型。
这时，Hinton打断问道，「谷歌是否后悔发表Transformer论文」？
Jeff坚定有力回答，「不会，因为它对世界产生了很好的影响」。

紧接着主持人又一回击，「从那之后谷歌就没怎么发表论文了？还是说这不是真的」？
Jeff澄清道，「我们仍发表论文，今年NeurIPS就有上百篇」。
对于那些主要在商业上最关键、尤其是面向「最大规模模型」的论文，我们会更谨慎一些。
公开发表是竞争优势，能吸引人才、获得社区反馈。谷歌全栈护城河，坚不可破
最近几周，谷歌Gemini连发，让世界重新认识到谷歌的强大。尤其是，背后硬件优势——TPU。

Jeff Dean现场强调了硬件-模型「协同设计」（co-design）的优势——
谷歌研究人员与硬件团队紧密合作，提前去布局潜力方向，预测未来2-6年后的趋势。
甚至，他们用强化学习去优化芯片布局布线，并在多带TPU上应用。
这不仅提升了芯片质量，也加速了研发的流程。
下一个20年
在炉边对话压轴部分，主持人问了一个所有人最关心的问题——
AI领域接下来会往哪走？Transformer会被取代吗？20年后，世界会变成什么样？
Jeff Dean最兴奋的方向之一，Scaling注意力机制的触达范围，从百万Token到数万亿。
让模型直接访问所有科学论文、所有视频，而非将数万亿token塞进几千亿个权重里。
他承认，这当然需要硬件的创新，还需更节能、性价比更高的推理芯片。

Jeff Dean还指出，目前模型缺乏「持续学习」，即训练后固定不变。
MoE模型往往是一堆大小都一样的专家：分出去，再合回来，再分出去。这个结构说实话也不算太有意思。
未来，他们还将探索更动态、脑启发的架构。
对于20年后的预测，Hinton总结道——
如果有人真的造出来了，要么我们从此幸福快乐地生活下去，要么我们全部灭亡。

20年后到底会有什么影响，没人说得准，特别是对社会的影响。
很明显，很多工作会消失。但不清楚它会不会创造出足够的新工作来替代。
Jeff Dean则乐观于科学加速，「AI连接不同领域、自动化发现闭环，将让突破更快发生」。
他们两人一直认为，医疗与教育变革最剧烈。
Hinton最后补充道，「大模型压缩巨量知识，发现人类未见的共通性，它们会非常有创造力——抓到希腊文学与量子力学的远距离类比」。
参考资料：
https://x.com/JeffDean/status/2001389087924887822
https://www.youtube.com/watch?v=ue9MWfvMylE
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标，锁定新智元极速推送！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

斯瓦尔巴群岛，下一个北极区域热点？

CounterPoint报告2025全球手机存量：8大品牌破2亿

分析师：苹果iPhone 18 Pro系列起售价将与前代持平

“让国产大飞机护航万家团圆路”（新春走基层）

啥样的车，更受市场欢迎？

看展，AI讲解员做“搭子”

全站最新

斯瓦尔巴群岛，下一个北极区域热点？

CounterPoint报告2025全球手机存量：8大品牌破2亿

分析师：苹果iPhone 18 Pro系列起售价将与前代持平

“让国产大飞机护航万家团圆路”（新春走基层）

热门推荐

Meta旗下子公司在与德国电信关于网络服务的上诉中败诉

三星GalaxyS26系列定档2月26日

特斯拉领导层最新变动，任命欧洲高管负责全球电动汽车销售

知情人士：Alphabet英镑债券发行获得创纪录的240亿英镑认购订单

福特汽车第四季度调整后息税前利润10.4亿美元，同比减少51%

五部门：2027年低空公共航路地面移动通信网覆盖率达90%以上

AI赋能招投标20个应用场景数智技术护航“阳光交易”

Strategy(MSTR.US)创始人塞勒“硬刚”空头：比特币跌90%也不抛售会通过再融资应对债务压力

斯瓦尔巴群岛，下一个北极区域热点？

CounterPoint报告2025全球手机存量：8大品牌破2亿

分析师：苹果iPhone 18 Pro系列起售价将与前代持平

“让国产大飞机护航万家团圆路”（新春走基层）

啥样的车，更受市场欢迎？

看展，AI讲解员做“搭子”

苹果即将移除iTunes愿望清单功能，提醒用户迁移内容