![]()
来自微软亚洲研究院、中国科学技术大学、上海交通大学和厦门大学的研究团队在2025年10月发布了一项重要研究成果。这项研究发表在预印本平台上,论文编号为arXiv:2510.08008v1,由王瑞哲、丁语城、刘潇、王尧翔、程鹏、郭百宁、查正军和龚业逸等研究者共同完成。
在人工智能快速发展的今天,训练一个强大的大语言模型就像建造一座摩天大楼,需要消耗巨额成本和漫长时间。现在,人们普遍认为模型越大越好,训练数据越多越强,但这样的"军备竞赛"让许多研究机构和公司望而却步。更令人头疼的是,在这个过程中会产生大量"半成品"模型——它们可能只训练了一半,或者规模较小,通常会被直接丢弃,就像建筑工地上被浪费的材料一样。
研究团队敏锐地察觉到这个问题:为什么不能把这些"半成品"模型重新利用起来呢?他们提出了一个令人兴奋的想法——就像给一栋已建好的房子加盖楼层和扩建房间一样,为现有的模型"扩容升级",而不是推倒重建。这种方法不仅能节省大量计算资源,还能让那些被遗忘的模型重新焕发生机。
研究团队专门针对一种叫做"专家混合"架构的模型进行了深入研究。这种模型就像一个拥有多位专家的智囊团,每个专家都有自己的专长领域。当遇到不同类型的问题时,模型会智能地选择最合适的专家来处理。研究者发现了两个关键的"扩容"方向:一是增加模型的"深度",就像给大楼加盖更多楼层;二是增加"宽度",即添加更多专家,就像扩建更多房间。
在深度扩展方面,以往的研究通常采用"叠加"方法,就像简单地把几个相同的模块堆叠在一起。但研究团队发现,对于已经训练成熟的模型,这种方法并不理想。他们创新性地提出了"插入式"方法,这就像在建筑中精心设计每一层的位置和功能,而不是简单堆砌。通过分析多个成熟模型的内部结构,研究者发现这些模型的各层都有着独特的"个性"——前面的层比较"活跃",中间的层逐渐"成熟",最后的层稍显"内敛"。插入式方法能够更好地保持这种自然形成的层次结构特征。
在宽度扩展方面,研究团队发现了一个有趣现象:当向模型中添加新专家时,如果直接复制现有专家,新专家往往会变得"懒惰",不愿意学习新技能。为了解决这个问题,研究者采用了一个巧妙的策略——在复制专家时添加少量"噪音",就像给新员工分配稍微不同的工作内容,这样能够激励他们发展自己的专业特长。这种方法确保了新增的专家能够真正发挥作用,而不是成为冗余的"摆设"。
研究团队进行了大量实验来验证他们的想法。他们首先用一个30亿参数的模型进行了初步测试,将其扩展到60亿参数。结果显示,插入式深度扩展方法明显优于传统的叠加方法,在各种任务上都表现出更好的性能。随后,他们进行了更加雄心勃勃的大规模实验,将一个170亿参数的模型逐步扩展到700亿参数,使用了超过1万亿个训练样本。
这个大规模实验的过程就像给一座17层的大楼改造成70层的摩天大厦。研究团队首先将模型从28层扩展到54层,参数量从170亿增加到350亿。在这个中间阶段训练了一段时间后,他们又增加了专家数量,从96个专家扩展到192个,最终达到700亿参数的规模。整个过程循序渐进,每一步都经过精心设计和验证。
实验结果令人振奋。在相同的额外计算预算下,使用模型扩展方法训练出的700亿参数模型比从零开始训练的同规模模型表现提升了10.66%。这个数字背后的意义重大:意味着研究团队找到了一种更加高效的模型训练方式,能够在有限的计算资源下获得更强的性能。
研究团队还深入探讨了一个关键问题:什么时候进行模型扩展最合适?通过系统性实验,他们发现了一个重要规律——投入的"沉没成本"越多,最终的效果越好。这里的沉没成本指的是在原始小模型上已经花费的训练计算量。这个发现证实了一个直观的想法:基础越扎实,改造后的建筑越稳固。
在探索最佳扩展时机时,研究者发现即使是已经完全训练收敛的模型,仍然可以通过扩展获得显著提升。这就像一栋已经建好的房子,通过合理的改造扩建,仍然能够大幅提升其价值和功能。实验显示,从训练后期的检查点开始扩展,虽然分配给后续训练的资源较少,但仍能获得与从头训练相当甚至更好的效果。
研究团队的方法在实际应用中展现了强大的可扩展性。他们证明了这种技术不仅适用于小规模模型,也能够成功应用于大规模工业级模型。从30亿参数到700亿参数的跨越,证明了这种方法的广泛适用性和实用价值。
这项研究的意义不仅仅在于技术层面的突破,更在于为整个AI行业提供了一种新的发展思路。在当前大模型训练成本越来越高的背景下,如何更有效地利用已有的计算投入成为了一个迫切需要解决的问题。研究团队的工作为这个问题提供了一个优雅的解决方案。
从环境保护的角度来看,这种方法也具有重要意义。训练大语言模型需要消耗大量电力,产生相当的碳排放。通过重复利用已有的模型检查点,可以显著减少总体的计算需求,从而降低环境影响。这种"循环利用"的理念符合可持续发展的要求。
研究团队在论文中详细记录了实验的各个细节,包括模型架构设计、训练超参数设置、数据集构成等。他们使用了包括常识推理、阅读理解、科学问答等多个评测任务来全面评估模型性能。这种全面而严谨的评估方式确保了研究结果的可靠性和说服力。
值得注意的是,这种模型扩展方法对于不同类型的模型架构表现出了不同的适应性。研究者发现,对于使用预标准化结构的现代模型,扩展后的性能降低较小,而对于使用后标准化结构的传统模型,可能会出现较明显的性能波动。这个发现为未来的模型设计提供了重要参考。
在具体的技术实现上,研究团队采用了多种优化策略来确保扩展过程的稳定性。他们使用了梯度裁剪、学习率调度、混合精度训练等技术来维持训练的稳定性。同时,他们还采用了分布式训练技术来处理大规模模型的计算需求。
研究团队的工作还揭示了一个有趣的现象:模型的内部结构在训练过程中会形成特定的模式。通过分析不同层的权重分布,他们发现成熟模型的各层呈现出独特的"指纹"特征。这种发现不仅有助于理解模型的工作机制,也为未来的模型设计和优化提供了新的思路。
说到底,这项研究为AI领域带来了一个全新的视角:不再只是追求从零开始训练更大的模型,而是学会聪明地利用已有的成果。就像城市规划中的旧城改造一样,通过精心设计和巧妙改造,老建筑也能焕发新的生机。这种思路不仅经济高效,还能让整个AI发展更加可持续。
对于普通人来说,这项研究意味着未来的AI服务可能会变得更加便宜和普及。当训练成本降低时,更多的公司和研究机构就能够负担得起先进的AI技术,从而推动整个行业的创新和发展。归根结底,这项技术突破让我们看到了一条通往更强AI的高效道路,不需要无限制地烧钱,而是通过聪明的策略实现技术进步。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2510.08008v1查询完整的研究论文。
Q&A
Q1:模型扩展方法具体是怎么工作的?
A:模型扩展方法就像给建筑物进行改造升级。对于深度扩展,研究团队采用"插入式"方法,在现有模型的各层之间精确插入新层,而不是简单堆叠,这样能保持模型原有的层次结构特征。对于宽度扩展,他们向专家混合模型中添加新专家,并在复制时加入少量噪音,确保新专家能学会不同的专业技能。
Q2:这种方法能节省多少训练成本?
A:研究实验显示,在相同的额外计算预算下,使用模型扩展方法的效果比从零开始训练提升了10.66%。更重要的是,这种方法能够重复利用那些原本会被丢弃的"半成品"模型,将已投入的计算资源转化为最终模型的性能优势,从而显著降低总体训练成本。
Q3:什么时候使用模型扩展方法效果最好?
A:研究发现,投入的"沉没成本"越多,扩展后的效果越好。即使是已经完全训练收敛的模型,仍然可以通过扩展获得显著提升。不过最佳时机是在模型训练的稳定期进行扩展,避免在学习率剧烈变化的阶段操作,这样能确保扩展过程更加平稳有效。





京公网安备 11011402013531号