当前位置: 首页 » 资讯 » 新科技 » 正文

Meta 训练 Llama 3 遭遇频繁故障

IP属地 中国·北京 编辑:孙雅 博客中国 时间:2024-07-30 08:07:47

7 月 28 日消息,meta 发布的一份研究报告显示,其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

由于系统规模巨大且任务高度同步,单个显卡故障可能导致整个训练任务中断,需要重新开始。尽管如此,meta 团队还是保持了 90% 以上的有效训练时间。

在为期 54 天的预训练中,共出现了 466 次工作中断,其中 47 次是计划中断,419 次是意外中断。计划内的中断是由于自动化维护造成的,而意外的中断则主要源于硬件问题。GPU 问题是导致故障的主要原因,占意外中断的 58.7%。其中只有三起事件需要大量人工干预,其余的由自动化管理。(来源:IT 之家)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新