当前位置：首页 » 资讯 » 新零售 » 正文

Meta推出LlamaRL强化学习框架，效率提升超10倍

IP属地中国·北京 编辑：沈瑾瑜中关村在线 时间：2025-06-11 20:02:24

meta 近日推出了一款名为 LlamaRL 的强化学习框架，该框架采用全异步分布式架构设计，在处理 4050 亿参数模型时，成功将强化学习步骤的耗时从原来的 635.8 秒减少到 59.5 秒，整体效率提升超过 10 倍。
强化学习是一种通过反馈机制不断调整输出的技术，使模型能够更好地满足用户需求。随着对模型精确度和规则适配能力要求的提升，强化学习在大语言模型训练后期的作用愈加重要，已成为众多先进模型系统不可或缺的一部分。
然而，将强化学习应用于大规模语言模型一直面临资源消耗过大的难题。训练过程通常需要大量计算资源，并涉及多个模块的协同工作，例如策略模型、评分器等。当模型参数达到数百亿级别时，内存占用高、数据传输延迟以及 GPU 资源利用率低等问题成为制约因素。
LlamaRL 框架基于 PyTorch 构建，采用全异步分布式架构，有效简化了各组件之间的同步协调，同时支持模块化定制。该框架通过独立的执行器并行运行生成、训练和评分任务，显著降低了等待时间，提升了整体训练效率。
此外，LlamaRL 还利用分布式直接内存访问（DDMA）和 NVIDIA NVlink 技术，实现了高效的数据传输。在 4050 亿参数模型中，仅需 2 秒即可完成模型权重的同步操作。
实测数据显示，在 80 亿、700 亿和 4050 亿参数级别的模型上，LlamaRL 的训练时间分别缩短至 8.90 秒、20.67 秒和 59.5 秒，性能提升最高达 10.7 倍。同时，在 MATH 和 GSM8K 等标准测试中，模型表现稳定，甚至有所增强。
LlamaRL 成功缓解了大模型训练中常见的内存瓶颈与 GPU 利用率不足的问题，为未来更大规模模型的训练提供了更具扩展性的解决方案。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

全站最新

库克被曝可能于明年卸任

到店试驾星耀6：10万级插混“天花板”，但还有潜力未挖掘

欧洲科学院中国中心落户重庆

深开鸿与电子科大达成合作，将推国产操作系统底层技术突破

热门推荐

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

南城香创始人汪国玉：平台消费券激发消费热情，门店收入利润均提升

通信企业：“推销热售后冷”消磨用户信任

盛银消金 25% 股权再被冻结！新董事长年初刚上任

伊利出席第八届中澳工商界首席执行官圆桌会助力中澳经贸合作提速升级

商查平台企业信息查询新范式：水滴信用企业查询MCP

从“闪购”到“观望”：Prime Day被拉长的背后，是消费者与平台的“双重博弈”

澎湃漫评｜通信企业为何“推销热售后冷”

“电商西进”助力豫企破浪：一枚鱼油的3000公里“暖心”之旅

京东外卖取消超时免单，改为“准时宝”服务