关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Amazon Bedrock, Generative Ai Models, Accelerated Compute, Multimodal Language Models, Large Language Models, Distributed Training]
导读探索亚马逊云科技如何提供最高性能、低成本的基础设施,用于构建和扩展大规模生成式AI模型。来了解加速计算产品组合的最新动态,包括我们基于GPU和亚马逊云科技 AI芯片驱动的实例,并听取这一产品组合为客户解锁的各种训练和推理用例,包括大型语言模型和多模态模型。参加这个分组讨论会,探索领先企业如何利用亚马逊云科技在生成式AI领域取得突破性成果的真实案例。
演讲精华以下是小编为您整理的本次演讲的精华。
生成式人工智能的世界正在迅速发展,在过去几年里几乎触及了每个行业。在医疗保健领域,像Amgen这样的客户正在利用基于Transformer的模型的力量来设计蛋白质,加速了药物发现的过程。这一突破在科学界引起了震惊,因为很明显,蛋白质和我们自身的生物学语言可以被机器学习模型学习,然后生成新药物和疗法的候选者。此外,大型语言模型(LLM)有望显著减轻医疗保健系统中的行政负担,简化电子病历的文档编制和处理。某些公司还在其出版物上对其LLM进行了微调,使其研究在研发(R&D)早期更容易被科学家们获取。然而,这仅仅是个开始,因为人工智能有望改变医疗保健的每个方面,从研发到运营、制造和医疗保健服务。
在工业和汽车领域,客户正在将生成式人工智能集成到机器人技术中,创造出能够感知周围世界并实时响应事件的机器人。这一进步有望提高机器人的安全性和效率,从而提高制造线的生产力。像法拉利这样的公司正在利用生成式人工智能来设计汽车,通过让客户在将汽车投入生产之前就能够可视化高度逼真的3D渲染,从而重塑客户体验。
在金融服务行业,一些公司正在对年报和财务报表进行LLM微调,使这些数据更容易被投资者获取。在零售行业,今年早些时候,亚马逊宣布推出Rufus,这是一款基于GPT的亚马逊网站助手,客户可以在网站上购物时与之互动。Rufus接受了亚马逊网站的产品目录和客户评论的训练,使客户能够提出开放式问题,如“我对油画感兴趣,我应该购买哪些产品来入门?”并获得相关推荐。
在媒体和娱乐行业,像Adobe这样的公司正在创建多模态模型,使用户只需几行文字就能创建电影体验。这一发展从根本上改变了创作过程,创作者可以与智能模型对话,快速创建、迭代和完善图像、短视频,未来甚至可能创作出完整的长片电影。
这些例子仅仅触及了跨行业出现的众多用例的表面,而且这一景观仍在快速发展。在EC2的计算层面,亚马逊拥有独特的视角,能够洞察这些不同趋势的展开情况。
过去一年,我们观察到了三个重大趋势。首先,LLM训练规模持续增长,最大的训练任务利用了10,000多个GPU进行同步分布式工作负载。亚马逊不断扩大其集群规模,以支持数十万个加速器,从而促进下一代基础模型的训练。
第二个趋势是,世界各地的LLM推理出现了显著增长。全球各地的公司都渴望将最强大的LLM集成到其应用程序中。一个印度偏远村庄的用户实时与行业最强大的模型互动,这真是令人兴奋。亚马逊专注于扩大其计算足迹,优化计算经济性,使之成为现实。
最后,如果2023年是基于文本的LLM之年,那么在2024年,公司越来越关注多模态LLM。看到这些模型发展成真正的视听实体,上游层专注于解码视频和音频信息,下游层专注于更抽象的推理,这是令人着迷的。部署一个能够实时响应音频和视频的模型,对计算基础设施提出了新的要求。
虽然这些是高层次的趋势,但深入研究当今在EC2实例上训练的特定模型和用例至关重要。当最终用户与这些模型交互时,他们可能会分享高度个人的信息,因此需要确保他们的互动是安全的。此外,如果一家公司在开发模型方面投入了大量资金,确保其数据和模型权重的安全性也是至关重要的。
亚马逊通过亚马逊云科技 Nitro System提供了业界领先的安全功能和特性来解决这些问题。此外,管理成千上万个实例的机群,以扩大和缩小训练工作负载和推理需求,可能会很复杂。亚马逊通过审视堆栈的每一层并简化他们所谓的“无差别繁重工作”,使客户能够充分利用计算资源,而无需拼凑不同组件或投资高度专业化的ML Ops团队。
性能、成本、安全性和易用性是指导EC2开发能力的关键支柱,帮助客户实现目标。为了使这一点更加具体,让我们来看看EC2实例的内部构造。
亚马逊加速计算实例的核心是加速器本身。亚马逊提供了一系列加速器,包括NVIDIA GPU、来自英特尔、AMD和高通等合作伙伴的硅芯片,以及他们自己定制的人工智能加速器Trainium和Inferentia。许多这些加速计算实例还具有高性能的芯片间互连,使GPU能够以高带宽和低延迟相互通信。
在加速器层之上,某些实例具有PCIe交换层,将GPU直接连接到实例网络或本地存储。关键是,数据可以不经过CPU就进出GPU,这可以加快速度。最后,主机层拥有在EC2中启动实例的CPU,主机层的主要功能之一是确保计算环境始终保持安全。
深入研究加速器层,客户通常使用三种不同类型的硬件来加速其人工智能/机器学习工作负载。CPU通常用于更高度串行化的工作负载,如时间序列模型或线性回归模型。亚马逊云科技通过提供不同类型的CPU,包括亚马逊云科技 Graviton芯片以及英特尔和AMD CPU,支持客户使用CPU进行人工智能/机器学习工作负载。
当客户开始构建更复杂、更大的模型时,他们发现CPU提供的性能已经不够,于是开始寻求GPU加速。GPU允许客户更好地并行化计算,优化性能和成本。在亚马逊云科技,客户可以使用各种不同类型的NVIDIA GPU来加速其人工智能/机器学习工作负载。
然而,GPU仍然是一种相对通用的计算实体,为其他类型的工作负载(如图形渲染、视频转码或高性能计算(HPC))提供硬件优化。为了进一步优化成本和提高性能,客户可以利用定制的人工智能加速器,这些加速器专门为人工智能工作负载而设计。在硅芯片层面,架构决策是为了优化人工智能工作负载的性能。亚马逊云科技支持一系列不同类型的人工智能加速器,从他们自己定制的Amazon Inferentia和Trainium芯片,到英特尔和高通的人工智能加速器。
定制人工智能加速器的一个例子是Amazon Trainium芯片。就在今天早上,亚马逊宣布了由Trainium 2芯片驱动的Trn2实例的正式上市。这些加速器专为提供最佳的机器学习性能和最低成本而设计。它们使用专门为人工智能工作负载(包括张量、向量、标量和通用单指令多数据引擎)设计的Neuron核心构建。
Trn2实例的构建旨在应对人工智能领域观察到的趋势,如不断增长的模型大小。客户越来越关注确保加速器有足够的内存来容纳他们的模型,并且内存带宽足够快以提供最佳性能。为了满足这些要求,Trainium 2加速器配备了每个加速器96GB内存,在单个服务器上配备16个加速器,客户可以访问高达1.5TB的聚合高带宽内存,内存带宽高达46Tb/s。此外,亚马逊对其Neuron link技术进行了迭代,使客户能够在单个实例中实现高达1.5TB/s的加速器互连带宽,确保跨多个加速器的大型模型获得最佳性能。
向上移至架构,让我们讨论交换层中的组件,从网络开始。亚马逊的加速计算实例通常具有其产品组合中最高的实例网络,因为他们预计客户将把工作负载扩展到数百甚至数千个实例。几年前,亚马逊退后一步,设计了一种在大规模情况下高效、可靠和安全的网络协议。结果就是SRD协议,它支持这些实例中的Elastic Fabric Adapter网络接口。
SRD有两个值得关注的特点。第一个是自适应多路径路由,SRD通过在亚马逊网络结构中跨多条路由分割数据包,从一个实例到另一个实例。它测量每条路径的往返网络延迟,如果发现某个区域存在拥塞,就会重新路由数据包,确保分布式工作负载的性能持续高效。
第二个特点是乱序数据包处理。传统的HPC协议要求数据包按顺序到达,如果网络中丢失了一个数据包,就必须重新传输一批数据包以恢复,这会影响p99延迟。EFA可以通过处理数据包的Nitro卡在硬件层面上实现乱序数据包处理,显著改善p99延迟并在大规模时提供更加一致的性能。
对于机器学习工作负载,实例网络的重要性在考虑meta的LaMa 405B模型时就变得明显。如果使用FP16数据类型,该模型需要每个参数2字节的内存,导致810GB的内存需求。最大内存的GPU最多只有140GB内存,这意味着该模型无法装载在单个GPU上,必须分散在多个GPU甚至多个实例上。
在训练过程中,数据集也通常分散在多个GPU上,这意味着在任何给定时间点,集群中的一个GPU都在处理模型和数据集的一部分。这就需要GPU以高带宽和低延迟定期共享信息,以便同步梯度,每个GPU都能获得更新后的模型副本继续训练。这就是为什么GPU之间的带宽和延迟对于优化至关重要。
当亚马逊推出P5实例时,他们将集体通信的完成时间提高了5倍以上,提升了大规模分布式训练的性能。昨天,他们宣布了新的P5bn实例,进一步改善了常见集体通信的延迟和完成时间,继续推进边界,帮助客户以更高效的方式在更大规模上进行训练。
值得注意的是,亚马逊的EFA实例通常部署在EC2超级集群上,这是指数据中心中的非阻塞网络基础设施。非阻塞意味着客户可以在所有这些实例上持续驱动峰值实例网络,而不会过度订阅网络,这对于大规模分布式工作负载很重要。亚马逊正在继续扩大其超级集群的规模,并将支持下一代训练工作负载的数十万个GPU或加速器。超级集群还提供高效访问存储,如S3和FSx,本周早些时候,亚马逊宣布客户现在可以通过EFA直接访问FSx,提供高性能的存储访问。
让我们进一步讨论亚马逊的存储选项。通常情况下,客户需要能够在其训练集群或全球部署的生产基础设施中访问大量数据。这使得客户找到最佳的数据存储方式变得至关重要。亚马逊云科技为跨对象、块和文件系统等不同类型文件的存储提供了最完整的服务集,满足客户在不同类型工作负载中的实际使用需求。
客户使用本地实例存储来满足部分临时和检查点数据存储需求,因为它是最接近计算的存储选项,位于实例及其加速器上。这些是SSD,是临时存储,意味着一旦实例关闭或终止,该存储就会消失。这就是为什么客户只将其用于临时数据或检查点,以便在训练作业中途出错时,不必从头开始。
客户还使用亚马逊弹性块存储(EBS)来满足同类存储用例,如检查点和临时数据。EBS为客户提供原始块级存储选项,这些卷可以附加到多个不同的EC2实例上,使客户能够在集群内的不同实例之间共享相同的数据。
亚马逊简单存储服务(S3)是一种高度可扩展的对象存储系统,客户使用它来存储PB级的大型数据集。对于希望从亚马逊存储服务中获得最佳性能的客户,他们使用FSx for Lustre,这是一种全托管文件系统,提供高性能。如上周所述,亚马逊宣布FSx for Lustre现在支持EFA和NVIDIA GPU直接存储,直接将数据存储连接到加速器内存。这使客户能够从文件存储系统到加速器实现高达1.2TB/秒的吞吐量。
接下来,让我们讨论主机层中的组件。如前所述,主机层拥有托管在EC2中启动的实例的CPU。主机层还有Nitro卡,确保计算环境的安全性。安全性对于生成式AI至关重要。
一个典型的生成式AI应用程序涉及多方交互。最终用户与模型交互,提交提示并接收完成,他们可能会共享个人数据,需要保密性保证。模型提供商可能已经投入大量资金开发模型,需要确保其知识产权(即模型权重)始终保持安全。通常,可能会有第三方使用现成模型并在特定专有数据集上进行微调,在这种情况下,他们需要确保其数据集和微调权重的安全性。最后,亚马逊作为基础设施提供商,为应用程序提供基础计算能力。
那么亚马逊是如何保证所有这些安全的呢?一种能力是他们所谓的“无操作员访问”或“零操作员访问”,这是Nitro系统(包括Nitro卡、Nitro安全芯片和Nitro hypervisor)每个组件的基本设计原则。这意味着没有任何亚马逊操作员可以SSH或访问客户的实例,确保了计算层的安全性。
亚马逊还提供了诸如VPC加密等服务,所有EFA流量默认加密,这意味着实例之间的信息也会保持加密。客户还可以使用亚马逊密钥管理服务(KMS)等服务对其数据静态加密,提供了一系列构建块,确保从最终用户到数据、网络和计算的整个信号链的每个方面都能保持安全。
让我们考虑一种客户希望向最终用户提供额外保证其应用程序运行在可信环境中的用例。他们可以使用Nitro TPM来实现,它可以测量部署的代码并将其与已知的良好代码测量值进行比较。如果代码库中的任何一行或字符发生变化,都会改变哈希函数的输出,这可以与第三方共享,通知他们代码已被更改。使用这种方法,客户可以让最终用户更有信心他们的应用程序始终运行在可信环境中。
现在我们已经讨论了安全性和亚马逊的一些其他功能,让我们深入探讨其EC2实例组合以及针对各种用例的不同产品。亚马逊将其计算架构中的不同组件以不同方式打包,为客户提供了广泛的实例类型组合,确保他们针对特定工作负载获得整体上最佳的性能和成本。
这些实例类型可以分为两大类。一类由定制AI加速器驱动,包括亚马逊云科技自主研发的加速器Inferentia和Trainium,以及来自英特尔和高通的AI加速器。第二类是由NVIDIA GPU驱动的实例,客户可以从中选择不同的NVIDIA GPU,确保以最低成本获得所需的性能。
让我们讨论一下亚马逊硬件加速产品组合中的不同实例系列,从G实例开始。G实例由NVIDIA针对计算和图形工作负载优化的GPU驱动,涵盖从入门级开发GPU到NVIDIA最高性能计算和图形GPU。这些实例非常适合希望部署单GPU工作负载的客户。
在当前一代G实例中,有两种实例类型:G6和G6e。G6实例由NVIDIA L4 GPU驱动,配备24GB GPU内存。根据前面提到的计算,这意味着客户可以部署高达约120亿参数的LLM或较小的扩散式生成AI模型。对于希望部署更大型号模型的客户,G6e实例采用NVIDIA L40s GPU,GPU内存为48GB,允许客户将模型大小加倍。
为了帮助客户利用L40s GPU的额外内存和计算能力,亚马逊还将G6e实例的内存容量增加了一倍,为客户提供高达1.5TB的实例内存,并将网络带宽增加了四倍,为客户提供高达400Gbps的带宽。G6和G6e实例均有八种不同规格,配备1个、4个或8个GPU,搭配不同数量的vCPU。
G6和G6e实例有八种不同规格,配备1个、4个或8个GPU,并搭配不同数量的vCPU、内存、网络带宽和本地存储。这使客户能够确保获得所需的确切资源量,从而在将模型部署到生产环境时更好地优化成本。
接下来,让我们讨论一下亚马逊的P系列实例,这些实例专为大规模分布式训练工作负载而打造,但也可用于大型语言模型推理。P系列实例有三个关键功能值得关注。
第一个是NVlink,这是一种高性能芯片到芯片互连,存在于P3、P4和P5实例中。例如,在P5上,任何两个GPU都可以以900GB/秒的速度和微秒级延迟相互通信。这意味着客户可以优化实例内的集体通信。
第二个功能是EFA网络,这些实例在整个EC2产品组合中具有最高的3200Gbps EFA网络能力。昨天,亚马逊宣布了P5bn,进一步优化了其EFA网络,提高了NIC利用率并降低了NIC延迟,从而进一步提高了分布式训练性能。
最后,让我们讨论一下GPU本身。这些实例采用了来自NVIDIA的最强大的GPU。在P5上,它们采用了Hopper GPU,包括H100和H200 GPU,每个GPU最高拥有140GB内存,这意味着客户在一个实例内可获得超过1TB的GPU内存。因此,回到LaMa 405B模型,它实际上可以舒适地放在P5bn实例中进行推理。
亚马逊还与NVIDIA就其Blackwell GPU进行了密切合作,他们对GD200感到非常兴奋。例如,GD200正在建立一种新的加速计算范式,客户可以在一个NVlink域内访问高达72个GPU,而在P4和P5上只有8个。这意味着客户可以在一个计算域内访问超过13TB的GPU内存和180 petaflops的FP16计算能力,以训练和推理多万亿参数模型。
GD200还有两个值得一提的方面。第一个是NVIDIA的超级芯片架构,其中CPU和GPU被共同封装在一个计算模块中,为下一代机器学习工作负载提供真正的异构计算,这些工作负载可以并行使用CPU内核和GPU内核。另一个方面是,Blackwell将成为亚马逊的第一个液体冷却平台,他们专注于扩展其液体冷却基础设施,以全球部署Blackwell。液体冷却使他们能够为每个GPU提供更高的性能,从而提高客户工作负载的性能。
转而讨论亚马逊的定制硅实例,让我们首先谈谈其Inferentia实例,这些实例由Amazon Inferentia定制ML芯片提供支持。亚马逊于2019年在re:Invent大会上首次推出了Inf1,随后推出了Inf2。通过Inf2,他们不仅改进了Inferentia芯片的设计,还改进了整个实例类型,使客户能够获得比Inf1高4倍的吞吐量和低10倍的延迟。
Inf2为客户提供了部署AI模型时最高性能和最低成本。与G实例类似,Inf2也有多种不同规格,配备1个、6个或12个加速器,因此客户可以为工作负载获得合适的资源量。每个Inferentia芯片配备32GB内存,但它们也通过Neuron link相连,这意味着客户可以获得10TB/秒的聚合内存带宽。这使客户能够在单个实例上部署更大的模型,客户现在可以在单个Inferentia 2实例上部署高达1750亿参数的模型。
现在,让我们转向训练方面。顾名思义,亚马逊的训练实例专为训练工作负载而打造。他们很高兴昨天宣布了Trn2的正式上市,它将提供整个产品组合中最高的训练性能,价格性能比高达40%。每个Trn2实例都有16个加速器通过Neuron link相连,再次拥有实例内超过1TB的加速器内存。这些实例还具有3200Gbps的EFA网络,以实现最佳扩展。
亚马逊还很高兴宣布了Trn2 Ultra服务器的预览版,它可以在一个计算域内连接高达64个Trn加速器。这为客户提供了超过5TB的加速器内存,以训练和推理行业内最大的模型。
现在我们已经介绍了亚马逊的EC2功能和实例产品组合,让我们来讨论一下生成式AI技术栈,以及他们如何让这些计算资源更易于客户使用。在他们的生成式AI技术栈的底层是我们刚刚广泛讨论过的基础设施层。在此之上,他们提供了托管服务,客户可以用于训练和部署模型,以及编排系统,用于管理基础设施。这就是亚马逊SageMaker和亚马逊EKS等服务发挥作用的地方。
在此之上的下一层是亚马逊提供工具,客户可以使用这些工具来抽象基础设施层。他们提供了像亚马逊Bedrock这样的服务,这是一种无服务器服务,使客户能够访问领先的行业基础模型,并将生成式AI模型部署到生产环境中。技术栈的最高层包括已经集成了基础生成式AI模型的应用程序,如AI购物助手Rufus和亚马逊Q,这是一种生成式AI助手,可以提高业务生产力,并创建更智能、更强大的Alexa。
让我们深入了解技术栈中的两项具体服务,首先是SageMaker。SageMaker为客户提供端到端的托管服务,帮助他们的数据科学家和ML工程师准备用于AI训练的数据、训练模型并将其部署到生产环境中。亚马逊SageMaker Studio专门帮助客户开发模型。它为客户提供了可扩展的工具,用于数据清理、数据丰富和错误检测,以便在开始训练作业之前进行准备。此外,今天上午亚马逊还宣布了SageMaker Unified Studio的预览版,这是SageMaker Studio的下一代产品,可帮助客户的ML科学家进行更好的协作,从而加快构建速度。他们还宣布了SageMaker Data Lake House的正式上市,它使客户能够减少数据孤岛,允许他们跨服务(如亚马逊S3和亚马逊Redshift)统一数据。
SageMaker提供的另一项服务是SageMaker for Training。这为客户提供了托管服务,用于训练和微调ML模型,使他们能够更轻松地管理和跟踪训练作业、调试训练作业中的任何错误,并监控基础设施的利用率。SageMaker Training会自动将客户的训练作业从一个GPU扩展到数百个GPU,以确保训练成本得到最佳优化。此外,通过SageMaker提供的分布式训练库,客户可以自动将模型和训练数据集分割到多个GPU上,从而使训练作业加速高达40%。
接下来,让我们讨论一下Bedrock。对于亚马逊的许多客户来说,从头开始预训练模型并没有太多价值。像Claude或Llama这样的现成选项性能非常出色,因此更有意义的做法是选择其中一个模型,在特定数据集上进行微调,然后快速将其部署到生产环境中。亚马逊去年推出了Bedrock,通过一套专用API简化了这一体验的各个方面。Bedrock为客户提供了来自AI21、Anthropic、Cohere和meta等提供商的一系列模型可供选择,他们可以选择其中一个模型,并在几分钟内启动并运行。
通过Bedrock,客户还可以获得更新的技术和推理,而无需从头实现。一个例子是检索增强生成,其中用户的提示会在传递给模型进行推理之前补充额外的上下文。这可以帮助模型给出更有意义和相关的响应,因为它有额外的上下文,而不必将所有不同的组件拼凑到这个管道中。Bedrock的知识库为客户提供了一个端到端的解决方案,可以快速启动并运行。
现在我们已经讨论了相当多的行业和用例、亚马逊在EC2方面提供的功能以及他们的生成式AI技术栈,让我们了解一下他们的客户是如何将这些应用到实践中的。meta的Kirimani分享了他的团队正在进行的工作的见解。
Kirimani首先介绍了Ray Ban meta,这是目前市场上客户可以购买的最佳智能眼镜。这些眼镜可以实现一些客户无法通过手机实现的功能,例如在不遮蔽周围环境的情况下听音乐、从自己的视角实时直播创作、接听电话而不中断工作流程,以及直接从眼镜中捕捉独特的视角。客户目前可以在这些眼镜上使用的最令人兴奋的功能是meta AI。当客户使用眼镜与meta AI交谈时,眼镜可以看到客户所看到的,听到客户所听到的,并翻译和分析眼前的一切,以尽可能短的时间内为客户提供最佳答复。
然后Kirimani分享了使用meta AI眼镜的演示,展示了它们的功能。他提到,这些眼镜已经非常受欢迎,在许多商店的销量甚至超过了普通的Ray Bans。自去年推出以来,meta每隔几个月就会推出一套新功能,例如Visual Reminders,可以让客户记住视觉信息,如他们把车停在哪里或上次把钥匙放在哪里。眼镜还可以代表客户扫描电话号码并拨打电话,或扫描二维码。这只是2025年及以后人工智能长期激动人心的路线图的开始。
接下来Kirimani深入探讨了meta是如何走到这一步,以及他们是如何为这些智能眼镜构建meta AI的。一切都始于Llama,这是迄今为止下载量最高的开源模型系列,已被下载3.5亿次,仅上个月就有2000万次下载。meta在过去18个月里推出了这些模型的三代产品,每一代都比上一代好得多。
虽然Llama功能强大,可以执行许多不同的任务,但它无法理解图像和音频。它无法看到客户所看到的,听到客户所听到的。为了使其具有多模态能力,理解成功回答视觉查询所需的视觉上下文和知识,meta使用了另一种称为视觉编码器的AI模型,将输入图像转换为基础Llama可以原生理解的一组标记。他们仍然需要在大量数据上进行训练,但成本只是基础Llama所包含的大量标记的一小部分。
meta在尝试大型语言模型时面临的一个挑战是,有大约十几种构建方式,他们不确定哪一种最适合智能眼镜这种本质上输入噪音很大的使用场景。这就是亚马逊云科技计算基础设施发挥关键作用的地方,它使快速原型设计、可靠性和成本效益成为可能。
接下来Kirimani介绍了构建多模态模型的三个步骤。第一步是进行原型设计和实验,以选择合适的架构。他们在几周内并行运行了数百次消融实验,每一次都让他们了解哪些做法有效、哪些做法无效,并提供了构建模型所需的计算质量权衡的见解。最终,他们将这些经验教训转化为自己的架构,称为Animal,最近他们将其开源。
第二步是训练一个有能力的基础模型。这涉及使用亚马逊云科技快速扩展训练,在数十亿张图像上训练图像视觉模型本身。一旦训练好模型,下一步就是通过一个称为投影的预训练过程将其连接到基础Llama,在该过程中,他们一起训练Llama和视觉编码器,以对输入图像产生最准确的描述。
最后一步是针对智能眼镜使用场景的各种任务(如提供灵感和建议、写作、根据客户所看到的进行创意编辑、回答视觉问题、为图像添加字幕,以及将功能从视觉扩展到音频和运动信号)对模型进行微调。这是通过一个称为指令调优的过程完成的,他们在大约十几个任务上训练了他们的模型。
Kirimani分享的一个有趣见解是,模态的组合往往会产生最令人惊讶的结果,这些模型会学会专注于查询本身,而不管输入图像看起来如何。
最重要的一步是扩展模型。当他们第一次训练模型时,它大约有50亿个参数和100万个图像-文本对。他们在不到一年的时间里将其扩展到大约800亿个参数和30亿个图像-文本对,他们的下一个检查点是将模型扩展到另一个1000亿个参数。这需要大幅增加训练所需的浮点运算量,跃升了两个数量级才达到所需的准确度。
扩展计算是一个方面,但存储是另一个重大挑战。他们的多模态数据集往往比文本数据集大数百倍,存储需求从开始训练时的大约100TB增长到一年内的数百PB。必须开发新的实验性文件系统来支持这种规模。
Kirimani强调了影响每个AI训练核心三个量(计算、通信和内存)的三个关键挑战。计算是王道,因为内存是一个硬性限制,而通信需要大量努力才能做好。为了达到训练他们模型所需的浮点运算量,他们需要GPU一直在计算,因为GPU是为吞吐量优化的大规模并行设备。
他们需要解决的第一个瓶颈是可靠性,在亚马逊云科技团队的帮助下,他们最初遇到了文件系统故障、节点故障和软件依赖项不匹配等问题。然而,亚马逊云科技团队和meta的高性能计算团队非常细致地解决了他们遇到的每一个问题,往往只需几个小时。Kirimani记得,当他们将家用文件系统过渡到Lustre时,他们的集群利用率在几天内就提高了约20倍。
一旦获得所需的可靠性,他们就专注于通过并行化优化工作负载来扩展训练。他们在训练中使用了全套技术,包括FSDP、密集和模型并行化以及量化,这为他们带来了大约16倍的加速。
然而,软件只能让他们走到这一步,在某个点之后,主要瓶颈是硬件。一旦他们足够扩展了工作负载,增加更多GPU就无法进一步扩展训练,这就是更好的硬件大显身手的时候。当他们查看云基准测试并与亚马逊云科技进行比较时,他们看到有大约2倍的提升,这是免费获得的,无需优化任何工作负载,因为亚马逊云科技使用900千兆位/秒互连,而其他基准测试只有600千兆位/秒。
展望2025年,Kirimani概述了多模态AI面临的三大挑战。第一是扩展他们的模型,训练万亿参数模型,以充分利用这些模型的多模态能力。第二是支持非常长的上下文长度,以满足视频和基于会话的体验等使用场景。第三是扩展他们的推理能力,以支持用户增长,因为他们将出售更多设备,用户将参与和保留meta AI功能。
让他们走到今天的三个关键杠杆将继续至关重要:快速原型设计和实验,以选择最佳架构用于万亿参数模型;通过从H100s过渡到GB200s并利用它们令人兴奋的潜力来扩展计算;以及更快的推理,以减少延迟,驱动更多用户参与,并提供从用户反馈中学习的机会。
总之,这篇演讲涵盖了亚马逊在加速计算、存储、网络和安全方面为生成式AI工作负载提供的全面能力,以及他们的生成式AI技术栈。它还从客户的角度提供了使用亚马逊云科技开发前沿多模态AI模型用于创新应用(如智能眼镜)的见解。该叙述强调了生成式AI在各个行业的快速发展、观察到的关键趋势、客户需求,以及亚马逊如何通过其广泛的加速计算实例、托管服务和工具组合来满足这些需求。它还深入探讨了构建和扩展多模态模型的技术细节,通过客户真实世界经验的视角展示了挑战和解决方案。
下面是一些演讲现场的精彩瞬间:
亚马逊EC2的高级产品经理和Mehta的人工智能工程师领导在reInvent2024活动上介绍了自己。
亚马逊云科技推出了Trainium 2加速器,每个加速器具有96GB内存,16个加速器可聚合高达1.5TB的高带宽内存,从而支持更大的人工智能模型和提高性能。
Nitro TPM能够测量和验证部署代码的完整性,为客户提供更大的保证,确保他们的应用程序运行在可信的环境中。
亚马逊SageMaker提供端到端的托管服务,包括数据准备、模型训练和部署,在re:Invent 2024上宣布了新功能,如SageMaker统一工作室和SageMaker数据湖屋。
亚马逊Bedrock通过检索增强生成,简化了对预训练语言模型进行微调和部署的过程,从而提供更加相关的响应。
亚马逊云科技团队与meta的高性能计算团队通力合作,解决了设置问题,使meta能够在数百个节点上运行数周而不出现故障,大大提高了集群利用率。
演讲者对亚马逊云科技团队、meta高性能计算团队以及他们自己的团队为实现这一突破性成就所做的努力表示感谢。
这篇演讲深入概述了亚马逊云科技如何让客户能够利用加速计算来支持生成式人工智能应用。它强调了大型语言模型(LLM)规模和复杂性不断增长,以及训练和部署这些模型所需要高效、可靠和安全的计算基础设施的必要性。
亚马逊云科技提供了全面的加速计算实例组合,包括GPU驱动的实例如G6和P5系列,以及定制的AI加速器如Inferentia和Trainium。这些实例旨在优化各种生成式AI工作负载的性能、成本、安全性和易用性。演讲深入探讨了这些实例的架构组件,如加速器、网络、存储和亚马逊云科技 Nitro System等安全功能。
此外,亚马逊云科技提供了一个生成式AI堆栈,简化了这些模型的部署和管理。SageMaker和Bedrock等服务使客户能够高效地训练、微调和部署LLM,而Rufus和Amazon Q等应用程序则无缝集成了生成式AI功能。
演讲还介绍了来自meta的一个案例研究,展示了他们如何利用亚马逊云科技快速开发和扩展用于Ray-Ban meta智能眼镜的多模态LLM。meta的团队强调了他们面临的挑战,如原型化不同架构、训练有能力的基础模型,以及扩展到具有数十亿参数的大型模型。亚马逊云科技的计算能力、可靠性和可扩展性对于meta在紧迫的时间框架内实现其宏伟目标至关重要。
最后,演讲者强调亚马逊云科技将继续创新并扩展其加速计算能力,以支持下一代生成式AI模型和应用,满足更快原型设计、大规模训练和高效推理的日益增长的需求。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。