当前位置：首页 » 资讯 » 新科技 » 正文

思维链之父跳槽Meta，不只因为1亿美元！离开OpenAI前泄天机

IP属地中国·北京 编辑：冯璃月 时间：2025-07-18 10:29:25

编辑：KingHZ
离开OpenAI，只是为了meta天价薪资？Jason Wei离职博客，泄露天机：未来AI更令人向往！
硅谷人才争夺战，火热升级！
过去，是OpenAI从谷歌等公司吸引人才；现在，meta直接砸钱抢人。
顶尖AI人才的薪酬包可谓天价，1亿美元还是扎克伯格给的起步价！
思维链之父、华人AI科学家Jason Wei，就是从谷歌跳槽到OpenAI，刚刚又跳槽到meta。
在AI领域，Jason Wei非常高产。
根据谷歌学术统计，他有13篇被引次数超过1000的论文，合作者包括Jeff Dean、Quoc V. Le等知名AI研究员，参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。
离职消息被媒体爆出之前，他发表了两篇博客，或许能让我们看出他为何选择离开
意外的是，这些灵感都来自强化学习！
RL之人生启示
天生我材必有用
过去一年，他开始疯狂学习强化学习，几乎每时每刻都在思考强化学习。
RL里有个核心概念：永远尽量「on-policy」（同策略）：与其模仿他人的成功路径，不如采取行动，自己从环境中获取反馈，并不断学习。
当然，在一开始，模仿学习（imitation learning）非常必要，就像我们刚开始训练模型时，必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为，大家更倾向于放弃模仿，因为要最大化模型独特的优势，就只能依靠它自己的经验进行学习。
一个很典型的例子是：相比用人类写的思维链做监督微调，用RL训练语言模型解数学题效果更好。
人生也一样。
我们一开始靠「模仿」来成长，学校就是这个阶段，合情合理。
研究别人的成功之道，然后照抄。有时候确实有效，但时间一长就能意识到，模仿永远无法超越原版，因为每个人都有自己独特的优势。
强化学习告诉我们，如果想超越前人，必须走出自己的路，接受外部风险，也拥抱它可能给予的奖励。
他举两个他自己更享受、却相对小众的习惯：
读大量原始数据。
做消融实验，把系统拆开看每个部件的独立作用。
有一次收集数据集时，他花了几天把每条数据读一遍，然后给每个标注员写个性化反馈；数据质量随后飙升，他也对任务有了独到见解。
今年年初，他还专门花了一个月，把过去研究中「瞎搞」的决策逐条消融。虽然费了不少时间，但因此弄清了哪种RL真正好用，也收获了很多别人教不会的独特经验。
更重要的是，顺着自己的兴趣去做研究不仅更快乐，我也感觉自己正在打造一个更有特色、更属于自己的研究方向。
所以总结一下：模仿确实重要，而且是起步的必经之路。但一旦你站稳脚跟，想要超越别人，就得像强化学习那样on-policy，走自己的节奏，发挥你独有的优势与短板

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

沙特土豪的隐秘社交圈，成了被争夺的“金矿”

阿里巴巴前CEO张勇，5354万港元买下香港半山豪宅

Meta悔棋，大裁员600人

创业公司赚钱的路被Open AI堵死了？

MIT在分子内造出微型对撞机，首次窥探原子核内部磁力分布

“我为企业跑订单·统战溧行”直播电商专场对接活动成功举办

全站最新

沙特土豪的隐秘社交圈，成了被争夺的“金矿”

阿里巴巴前CEO张勇，5354万港元买下香港半山豪宅

Meta悔棋，大裁员600人

创业公司赚钱的路被Open AI堵死了？

热门推荐

沙特土豪的隐秘社交圈，成了被争夺的“金矿”

阿里巴巴前CEO张勇，5354万港元买下香港半山豪宅

Meta悔棋，大裁员600人

创业公司赚钱的路被Open AI堵死了？

MIT在分子内造出微型对撞机，首次窥探原子核内部磁力分布

“我为企业跑订单·统战溧行”直播电商专场对接活动成功举办

它来了，它和苏超一起来了！

事实不如微软所愿！Windows 10停止支持：反带动苹果Mac销量大增

苹果，突曝大消息！

AMD R5 7500X3D现身：入门级Zen4游戏处理器，预计 CES 2026 发布

维修专家怒批RTX 5090公版显卡设计：接口脆弱几乎无法修复

“吉林一号”卫星发布多张台湾岛高清卫星影像，台胞：这是中华民族的骄傲

保时捷利润暴跌99%

共享充电宝竟无3C认证？！

揭秘OpenAI 1.5万亿美元交易内幕：奥特曼核心圈子主导，绕开银行家和律师