当前位置: 首页 » 资讯 » 新科技 » 正文

优化信号“物流中心”,港科广最新研究为AI大模型“提速”

IP属地 中国·北京 编辑:顾雨柔 羊城派 时间:2025-07-15 22:07:24

如果把信号比作“包裹”,把信号传输比作“物流”,如何提升传输速度,高效地把“包裹”派送到“客户”手中?香港科技大学(广州)给出了一个新的方案。

近日,由香港科技大学(广州)功能枢纽微电子学域博士生秦乐担任第一作者,博士生崔峻伟、蔡玮林为合作作者,教授黄嘉逸为通讯作者的论文“Chimera: Communication Fusion for Hybrid Parallelism in Large Language Models”(Chimera:大型语言模型中混合并行性的通信融合)发表于计算机体系结构顶会ISCA 2025并获得Best Artifact Award(最佳工件奖)。

ISCA(International Symposium on Computer Architecture,计算机体系结构国际研讨会)是计算机体系结构领域的旗舰国际会议,致力于为计算机体系结构研究人员和从业者提供一个展示前沿研究成果的平台。会议涵盖了处理器设计、多核系统、加速器架构、内存层次结构、互连网络、容错机制、计算机系统优化等多个主题。ISCA不仅关注硬件架构创新,还强调系统级优化与软硬件协同设计,是推动高性能计算、分布式系统和人工智能加速器发展的重要学术交流平台。

据悉,在大规模语言模型的分布式训练和推理任务中,多种并行模式常被混合使用以提高计算效率。在实现计算加速的同时,各种并行模式都会引入相应的集合通信来进行设备间的数据同步以保证结果的正确性。随着集群规模的增加,集合通信开销逐渐成为系统性能的瓶颈。本工作提出一种全新的优化机制Chimera,定义和分析了混合并行中的通信冗余,并通过融合相邻通信算子的方式消除冗余通信量,有效地缓解了混合并行中的通信瓶颈。

“信号传输就像快递分拣一样,以往不同区域的分拣中心各自为政,快递会在不同区域的分拣中心进行分包流转,有的包裹会产生反复中转造成不必要的绕路流转(通信冗余),导致配送变慢。”黄嘉逸解释道,Chimera对跨区域的“分拣中心”进行统一规划,大幅减少不必要的“包裹”周转环节(去冗余),提升配送效率。测试显示,Chimera通过融合分布式大模型中的通信步骤,减少了数据同步的冗余,使通信速度提升1.2到7倍,整体训练效率提高1.2到1.6倍,为AI大模型的快速训练和推理提供了新思路。

文|记者 孙唯 通讯员 港科广

图|学校提供

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。