亚马逊网络服务(AWS)对其机器学习和 AI 模型训练与推理平台 SageMaker 进行了重磅升级,旨在提升用户体验并增强其市场竞争力。这一升级增加了新型可观察性功能、连接编码环境以及 GPU 集群性能管理等多项新特性。
SageMaker 平台自2024年起,已转变为一个统一的数据源集成中心,集成了多种机器学习工具。此次更新的主要目标是帮助用户更清晰地了解模型性能下降的原因,同时提供更大的控制权来管理计算资源的分配。
AWS 的 SageMaker 总经理 Ankur Mehrotra 在接受《VentureBeat》采访时表示,许多新功能的开发灵感均来源于用户反馈。他提到,开发生成 AI 模型的客户常常面临的问题是,当出现问题时,很难找到故障发生的具体层面。
为了帮助解决这一问题,SageMaker HyperPod 可观察性功能的引入,使得工程师能够检查计算层、网络层等各个层面的状况。一旦模型性能下降,系统能够即时发出警报,并在仪表盘上发布相关指标。
除了可观察性功能,SageMaker 还新增了本地集成开发环境(IDE)连接功能,允许工程师将本地编写的 AI 项目无缝部署到平台上。Mehrotra 指出,以前本地编码的模型只能在本地运行,这使得想要进行扩展的开发者面临不小挑战。现在,AWS 推出了安全远程执行功能,使得用户可以在本地或管理 IDE 上开发,并与 SageMaker 连接,灵活应对不同的任务。
AWS 在2023年12月推出了 SageMaker HyperPod,旨在帮助客户管理训练模型的服务器集群。HyperPod 能够根据需求模式调度 GPU 使用,帮助客户有效平衡资源和成本。AWS 表示,许多客户希望在推理任务中也能够实现类似的服务。由于推理任务通常在白天进行,而训练任务则多在非高峰时段进行,因此这一新功能将为开发者提供更大的灵活性。
虽然亚马逊在基础模型方面可能不如谷歌和微软那样引人注目,但 AWS 依然致力于为企业构建 AI 模型、应用或代理提供坚实的基础设施支撑。除了 SageMaker,AWS 还推出了 Bedrock 平台,专门为应用和代理的构建而设计。随着 SageMaker 的不断升级,AWS 在企业 AI 领域的竞争力愈加明显。
划重点: