当前位置：首页 » 资讯 » 新科技 » 正文

香港科大团队发现让深层网络"按部就班学习"的新方法

IP属地中国·北京 科技行者 时间：2026-03-17 21:54:43

当我们谈论人工智能的发展时，大多数人可能会觉得这是一个遥远而复杂的技术领域。但实际上，AI训练过程中遇到的许多问题，就像我们日常生活中遇到的学习难题一样简单易懂。这项由香港科技大学、萨里大学、香港大学和英伟达公司联合完成的研究，发表于2026年3月的一篇预印本论文（编号：arXiv:2603.05369v1），为我们揭示了一个看似简单却极其重要的发现：让AI模型像人类学习一样"循序渐进"，竟然能大幅提升学习效果。
回想我们自己的学习经历，无论是学习钢琴还是掌握一门外语，我们总是从基础开始，逐步深入。比如学钢琴时，我们先练习左手的基本和弦，等熟练后再加入右手旋律，最后才能演奏出完整的乐曲。如果一开始就要求双手并用演奏复杂曲目，结果往往是一团糟。
现代AI模型的结构就像一座高楼，由许多层"楼层"堆叠而成。每一层都像是一个专门的处理车间，负责理解和加工从前一层传递过来的信息。然而，传统的训练方式就像让所有楼层同时开工建设，这样虽然看似高效，实际上却容易造成混乱。底层的"地基"还没稳固，上层就开始施工，结果可想而知。
这个问题在AI领域被称为训练不稳定性。特别是当模型变得越来越深、越来越复杂时，这种不稳定性就像在薄冰上盖房子一样危险。模型可能在训练过程中突然"崩塌"，或者学习效率极其低下，就像一个班级里所有学生都在同时大声讨论不同问题，谁也听不清谁在说什么。
研究团队提出的解决方案被称为"渐进式残差预热"（Progressive Residual Warmup，简称ProRes）。这个名字听起来很技术化，但其核心思想却非常朴素：让AI模型的每一层都按照从浅到深的顺序，逐步参与到学习过程中来。
具体来说，这就像是给每一层都安装了一个"音量调节旋钮"。在训练开始时，最底层（也就是最基础的那一层）的旋钮开到最大，而越往上的层，旋钮就调得越小，甚至接近静音。随着训练的进行，这些旋钮逐渐从底层开始，一层一层地慢慢调大，直到所有层都达到正常音量。
这种做法的巧妙之处在于，它让模型的学习过程变得有序而可控。就像教一个孩子学习复杂的数学问题，我们先教他基本的加减法，等他熟练掌握后再教乘除法，最后才涉及代数和几何。每个阶段都建立在前一个阶段稳固的基础之上。
一、为什么传统训练方法会遇到困难
要理解这项研究的价值，我们先来看看传统AI训练方法存在什么问题。这就像了解为什么我们需要改进教学方法一样重要。
当前大多数AI模型都采用一种叫做"Transformer"的架构。这个词听起来很酷，但其实它就是一种特殊的信息处理方式。可以把它想象成一个巨大的图书馆，里面有很多层书架，每一层都有专门的图书管理员负责整理和传递信息。
在这个图书馆里，每当有新信息进来时，它会从第一层开始，层层向上传递。每一层的管理员都会对信息进行一些处理和加工，然后传给下一层。这种层层递进的处理方式，理论上应该能够处理非常复杂的信息。
然而，现实情况却没有这么理想。在传统的训练方法中，所有层的管理员从一开始就要全力工作。这就像让一个刚入职的新员工和资深专家同时处理同样复杂的任务。结果是什么呢？新员工手忙脚乱，不知道该怎么处理信息，而他们的混乱又会影响到后面的每一层。
更糟糕的是，由于所有层都在同时"学习"，底层还没有形成稳定的信息处理模式时，上层就已经开始根据这些不稳定的信息进行学习了。这就像在还没有打好地基的时候就开始盖二楼、三楼，整个建筑的稳定性可想而知。
研究团队发现，这种训练方式在模型变得更深（也就是有更多层）时问题会变得更加严重。原因很简单：层数越多，信息传递的链条就越长，任何一个环节的不稳定都会被放大和传递。这就像传话游戏，参与的人越多，最终的消息与原始消息的差别就越大。
此外，训练过程中还存在一个"抢夺资源"的问题。每一层都在努力调整自己的参数来提高整体性能，但由于它们的调整是同时进行的，经常会出现相互冲突的情况。这就像一个厨房里有太多厨师同时烹饪，结果不但没有提高效率，反而互相干扰，做出来的菜品质量下降。
二、"渐进式残差预热"的巧妙设计
面对这些问题，研究团队提出的解决方案既简单又巧妙。他们的核心思想是：与其让所有层同时开始学习，不如让它们按照从底层到顶层的顺序，逐步参与到学习过程中来。
这个方法的实施非常直观。研究人员给每一层都添加了一个数学上的"缩放因子"，可以把它理解为一个音量控制器。在训练开始时，第一层（最底层）的缩放因子是1，意味着它可以正常工作。第二层的缩放因子是0，意味着它暂时"静音"。随着训练的进行，第二层的缩放因子逐渐从0增加到1，然后第三层开始从0增加到1，以此类推。
这种设计的美妙之处在于它的渐进性。就像调节收音机的音量一样，每一层的"声音"都是慢慢调大的，而不是突然跳跃到最大音量。这确保了整个系统在任何时刻都保持相对稳定。
具体的时间安排也很有讲究。研究团队发现，每一层需要的"预热时间"应该与它在网络中的深度成正比。也就是说，越深的层需要等待越长的时间才开始参与学习。这就像建房子时，地基需要最先完工并充分固化，然后才能建一楼，一楼稳固后再建二楼，每一层都需要给前面的层留出足够的稳固时间。
为了验证这种方法的通用性，研究团队还测试了它在不同类型的AI架构上的效果。无论是目前最流行的Pre-LN架构，还是较早的Post-LN架构，甚至是一些专门针对深层网络设计的特殊架构，ProRes方法都表现出了一致的改进效果。这就像一个好的教学方法，无论是教数学、物理还是语言，都能显著提高学习效果。
三、三大核心原理支撑创新方法
研究团队的方法之所以如此有效，背后有三个重要的设计原理。理解这些原理，就像理解为什么某种教学方法特别有效一样重要。
第一个原理是"初始化时的身份行为"。这个概念听起来很抽象，但用一个简单的比喻就能说清楚。当我们刚开始学习一项新技能时，最好的起点是什么都不做，也就是保持"原样"。比如学习开车，最开始我们要学的不是如何加速或转弯，而是如何安全地坐在驾驶位上，熟悉各种按钮和仪表的位置。只有在这个基础稳固后，才开始学习基本操作。
在AI模型中，这个"原样"状态就是让信息不经任何改变地从一层传递到下一层。ProRes方法通过将缩放因子初始化为0，确保了模型在训练开始时就处于这种最稳定的状态。这样，模型就有了一个非常可靠的起点，就像学习任何新技能时都需要一个稳定的基础一样。
第二个原理是"有界模型更新"。这个概念涉及控制模型学习过程中的"步伐大小"。如果我们把模型学习比作爬山，那么每一步的大小就是模型更新的幅度。如果步子太大，可能会失足跌倒；如果步子太小，可能永远到不了山顶。
传统的训练方法往往在训练开始时采用过于激进的更新策略，就像在不熟悉地形的情况下大步快跑。而ProRes方法通过逐层激活，确保了模型更新的幅度始终保持在合理范围内。这不仅适用于训练开始时的不稳定阶段，也适用于整个训练过程。
第三个原理是"尊重顺序学习和贡献次序"。这个原理认识到，在多层架构中，不同层之间存在天然的依赖关系。就像建房子时必须先建地基再建上层结构一样，AI模型的底层需要先稳定下来，上层才能在此基础上进行有效学习。
传统训练方法忽视了这种依赖关系，让所有层同时开始学习。这就像让建筑工人在地基还没固化的时候就开始建造上层结构。ProRes方法通过强制实施顺序学习，确保每一层都能在稳定的基础上构建自己的功能。
这三个原理相互配合，形成了一个完整的训练策略。它们就像三个支撑点，共同支撑起一个更稳定、更高效的学习框架。
四、大规模实验验证方法有效性
为了验证ProRes方法的实际效果，研究团队进行了大规模的实验。这些实验的设计就像医学研究中的临床试验一样严谨，确保结果的可靠性和说服力。
实验涵盖了从小型到大型的各种模型规模。最小的模型有1.3亿个参数，而最大的模型达到70亿个参数。这种跨度就像测试一种新的教学方法时，既在小学班级中试用，也在大学课堂中验证，确保方法的普适性。
在数据处理方面，研究团队使用了高达500亿个文本片段进行训练。这个数量相当于阅读数百万本书籍的信息量。通过如此大规模的数据训练，确保了实验结果的统计显著性。
实验结果令人印象深刻。在所有测试的配置中，ProRes方法都表现出了一致的改进效果。最显著的改进出现在Post-LN架构上，这种架构原本是最难训练的。使用ProRes后，这种架构的性能有了大幅提升，就像原本学习困难的学生在采用了新的学习方法后成绩显著提高。
更有趣的是，ProRes方法不仅改善了模型的最终性能，还显著提高了训练过程的稳定性。研究团队测量了训练过程中的"损失尖峰"和"梯度尖峰"，发现使用ProRes后这些不稳定现象几乎完全消失。这就像原本颠簸的学习过程变得平稳顺畅，学生不再因为突然的困难而感到挫折。
在深度扩展实验中，ProRes的优势更加明显。当模型层数从12层增加到120层时，传统方法的性能提升逐渐放缓，而ProRes方法仍然能够从更深的架构中获得持续的性能改进。这证明了该方法在处理极深网络时的独特价值。
五、不同预热策略的细致对比
为了找到最优的预热策略，研究团队设计了多种不同的激活时间表，并对它们进行了详细比较。这就像测试不同的学习计划，看哪种安排能让学生学得最好。
线性预热策略是最直观的方法。在这种策略下，每一层的激活时间与其在网络中的深度成正比。如果把训练过程想象成一个学期，那么第一层从第一天就开始学习，第二层从第二周开始，第三层从第三周开始，以此类推。这种方法简单易懂，实验证明也是最稳定有效的。
研究团队还测试了一些变种策略。比如"平方预热"和"平方根预热"，它们改变了激活时间的数学关系。这就像调整学习计划的节奏，有些课程可能需要更长的准备时间，有些则可以相对快速地引入。
特别有趣的是"逆序激活"实验。研究人员尝试了让深层先激活、浅层后激活的策略，结果发现这种做法会导致训练失败。这个结果强有力地证明了顺序学习的重要性，就像你不能指望学生在不会加减法的情况下直接学习微积分一样。
"同时激活"策略也被纳入对比。在这种策略下，所有层都同时开始激活，只是激活速度相同。实验发现，这种方法虽然比传统训练有所改进，但效果远不如渐进式激活。这说明不仅激活的时机重要，激活的顺序同样关键。
通过这些对比实验，研究团队确认了线性预热策略的优越性。这种策略不仅在各种架构上都表现良好，而且对超参数的选择相对不敏感，这意味着它在实际应用中更加可靠和易于使用。
六、深入分析训练动态变化过程
为了理解ProRes方法为什么如此有效，研究团队深入分析了训练过程中的各种内部变化。这就像医生不仅要知道药物有效，还要理解药物在体内的作用机制一样重要。
首先，他们发现ProRes有效解决了深层网络中的"激活爆炸"问题。在传统训练中，信息在层与层之间传递时会逐渐放大，就像声音在山谷中的回声越来越响亮。到了很深的层次，这种放大效应会导致信息变得极不稳定。
通过分析激活值的变化，研究人员发现传统Pre-LN架构会出现指数级的激活增长。这就像滚雪球效应，开始时雪球很小，但随着滚动距离增加，雪球会变得越来越大，最终可能大到无法控制。而使用ProRes后，激活值的增长变得更加线性和可控，就像有了一个调节机制，确保雪球始终保持合适的大小。
其次，研究团队分析了各层表示的演化过程。他们通过测量不同训练阶段各层输出的相似性，发现了一个有趣的现象：在传统训练中，各层的表示变化非常剧烈和不稳定，就像学生的学习进度忽快忽慢，没有规律可循。
而在ProRes训练中，表示的演化更加平滑和有序。浅层会先稳定下来，然后深层逐渐稳定，整个过程就像有序的接力赛，每个选手都在前一个选手完成任务后才开始自己的部分。
这种有序的学习过程带来了几个重要好处。首先，它减少了不同层之间的相互干扰。在传统训练中，深层的剧烈变化会通过反向传播影响浅层，而浅层的不稳定又会影响深层的输入，形成恶性循环。ProRes通过控制激活顺序，有效打破了这种循环。
其次，这种方法让每一层都有充分的时间来适应其输入分布。就像学生需要时间消化新知识一样，网络的每一层也需要时间来适应从前一层传来的信息模式。ProRes为这种适应提供了必要的时间窗口。
七、方法的广泛适用性验证
ProRes方法的一个重要优势是它的广泛适用性。研究团队在多种不同的网络架构上都验证了其有效性，这就像一个好的教学原理能够适用于不同年龄段、不同学科的教学一样。
在Pre-LN架构上，ProRes展现了稳定的性能改进。Pre-LN是目前最流行的架构之一，被广泛应用于各种大型语言模型中。在这种架构上的成功表明ProRes具有很强的实用价值。
在Post-LN架构上，ProRes的改进效果更加显著。Post-LN架构原本就存在训练不稳定的问题，特别是在网络较深时。ProRes几乎完全解决了这些问题，让这种原本难以训练的架构重新焕发生机。
对于专门设计的深层架构如DeepNorm，ProRes同样表现出了良好的兼容性。这表明该方法不会与其他优化技术产生冲突，反而可以与它们协同工作，产生更好的效果。
特别值得注意的是，ProRes在不同的初始化方案下都保持了一致的改进效果。无论是标准初始化、深度相关初始化还是其他特殊初始化方法，ProRes都能带来性能提升。这种鲁棒性使得该方法在实际应用中更加可靠。
研究团队还在不同的数据集上验证了方法的有效性。除了主要使用的C4数据集外，他们还在ClimbMix数据集上进行了验证实验。结果显示，ProRes的改进效果在不同数据分布下都能保持，这进一步证明了方法的普遍适用性。
在下游任务评估中，ProRes训练的模型在多个推理基准测试上都表现出了更好的性能。这包括常识推理、阅读理解、数学推理等多个方面。这些改进表明，ProRes不仅改善了模型的训练过程，还提升了模型的实际应用能力。
八、对未来AI发展的深远意义
这项研究的意义远不止于提出了一个新的训练技巧。它为我们理解深层神经网络的学习机制提供了新的视角，也为未来的AI发展指出了重要方向。
首先，这项工作证明了"训练阶段感知"的重要性。传统的AI训练方法大多是"一刀切"的，也就是从头到尾采用相同的策略。ProRes的成功表明，根据训练的不同阶段采用不同的策略可能是更好的选择。这就像教学中需要根据学生的学习进度调整教学方法一样。
其次，该研究强调了层级协调的重要性。在深层网络中，不同层之间的协调配合比单个层的优化更加重要。这个发现可能会影响未来神经网络架构的设计思路，促使研究者更多地考虑层间关系而不是仅仅关注单层性能。
从实用角度来看，ProRes为训练大型AI模型提供了一个简单而有效的工具。随着AI模型规模的不断增长，训练稳定性成为越来越重要的问题。ProRes提供了一种低成本、高效果的解决方案，这对于推动大型AI模型的发展具有重要价值。
该方法的简单性也是其一大优势。与其他复杂的训练技巧相比，ProRes只需要添加几行代码就能实现，这大大降低了应用门槛。这种简单性使得该方法很容易被广泛采用，从而产生更大的影响。
此外，这项研究还可能启发其他领域的研究。比如在多智能体系统中，如何协调不同智能体的学习过程；在分布式机器学习中，如何安排不同节点的训练顺序等。这些都是可以从ProRes的思想中得到启发的研究方向。
说到底，这项由香港科技大学主导的研究为我们展示了一个重要道理：有时候最有效的创新并不需要复杂的技术，而是需要深刻的洞察和巧妙的设计。ProRes方法虽然概念简单，但它基于对深层网络学习机制的深入理解，这使得它能够在各种情况下都表现出色。
对于普通人来说，这项研究的意义在于它让AI训练变得更加可靠和高效。这意味着我们将能够更快地开发出性能更好的AI系统，这些系统可能在医疗诊断、教育辅导、科学研究等各个领域发挥重要作用，最终让每个人都能从AI技术的进步中受益。
如果你对这项研究的技术细节感兴趣，可以通过论文编号arXiv:2603.05369v1查找完整的研究报告。这项工作不仅为AI研究社区提供了宝贵的工具，也为我们理解复杂系统的学习机制提供了新的思路。
Q&A
Q1：什么是渐进式残差预热（ProRes）方法？
A：ProRes是一种AI模型训练方法，它让网络的不同层按照从浅到深的顺序逐步参与学习。就像盖房子先建地基再建上层一样，最底层先开始学习，等它稳定后，第二层才开始激活，以此类推。这种方法通过给每层添加一个"音量调节器"，让它们的贡献从0逐渐增加到正常水平。
Q2：ProRes方法能解决AI训练中的哪些问题？
A：ProRes主要解决深层AI网络训练不稳定的问题。传统训练就像让所有学生同时学习所有课程，容易造成混乱。ProRes让模型层级有序学习，避免了训练过程中的突然崩溃、学习效率低下等问题，特别是在网络层数很多时效果更加明显。
Q3：这个方法在实际应用中有什么优势？
A：ProRes方法实施简单，只需要添加几行代码，但效果显著。它在各种类型的AI架构上都能带来性能提升，训练出的模型在推理测试、阅读理解等任务上表现更好。最重要的是，它让大型AI模型的训练变得更可靠，这对开发更强大的AI系统很有帮助。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

AirPods Max 2 的发布暗示了 iOS 26.4 更新的大致推送日

广告标识行业太卷出路在哪？首届AI应用千人大会在郑举行

高通宣布200亿美元股票回购计划，盘前直线拉升涨近3%

宇树科技王兴兴：今年机器人会跑得比博尔特快

悟空来了！钉钉打造企业级龙虾，我现场体验被震撼到了

宇树科技王兴兴：今年机器人会跑得比博尔特快

全站最新

AirPods Max 2 的发布暗示了 iOS 26.4 更新的大致推送日

广告标识行业太卷出路在哪？首届AI应用千人大会在郑举行

高通宣布200亿美元股票回购计划，盘前直线拉升涨近3%

宇树科技王兴兴：今年机器人会跑得比博尔特快

热门推荐

当AI学会写作，人类开始互相怀疑

这些名优企业都来了！2026春季糖酒会展商剧透

蔚来与途虎养车达成战略合作

AirPods Max 2 的发布暗示了 iOS 26.4 更新的大致推送日

存储芯片短缺或持续至2030年！三星工会酝酿史上最大规模罢工〡明日线索

“木头姐”发声：AI已开始重塑生产力，未来十年将创造12万亿美元收入

广告标识行业太卷出路在哪？首届AI应用千人大会在郑举行

高通宣布200亿美元股票回购计划，盘前直线拉升涨近3%

宇树科技王兴兴：今年机器人会跑得比博尔特快

悟空来了！钉钉打造企业级龙虾，我现场体验被震撼到了

小牛电动：发布首款AI智能两轮车车机系统搭载Qwen3.5大模型

宇树科技王兴兴：今年机器人会跑得比博尔特快

苹果深圳应用研究实验室首次对外开放，今年将继续扩张｜公司头条

金融业拥抱AI：钱紧，人更荒

钉钉变“悟空”：吴泳铭盯场，陈航紧张