题图|视觉中国
如果有一个行业,技术演进如风扇叶片转动之迅速;格局变化如走马灯般眼花缭乱,那么非大模型莫属。
回顾2023年,生成式AI的主题词还是“百模大战”,融资、刷榜成为这一时期的主流。
然而,随着基座大模型的门槛不断提升,短短一年时间,玩家格局就迅速收敛,到了2024年,市场已经从百模齐发变为少数玩家的资本与技术持久战;
到了今年,行业关注重点再次从模型性能转向落地价值,如何将大模型的能力转化为业务的生产力,成为新的核心命题。
而Agent就是AWS给出的答案。
借助Agent,千行百业都有了将生意用大模型重做一遍的可能。
但如何低成本、高质量的重新做一遍,如何让Agent加速落地呢?
昨天凌晨举办的2024 年AWS纽约峰会,给出了答案。
为什么是现在?为什么是Agent?
事实上,如果关注最近一段时间的大模型发布会,可以发现一个很有趣的现象,无论是国内的Kimi K2,还是海外的Grok 4,亦或是一个月之前的Minimax M2,在各种榜单SOTA(最佳表现)之外,都不约而同的关注一个指标——工具调用能力。甚至,就连OpenAI,也在今天凌晨推出了最新的ChatGPT Agent,主打多工具集成能力。
更直白来说,过去行业关心的是LLM本身,但今年,更加关注借助LLM能实现什么。
AWS峰会同样如此。
不同于过去将最新的模型发布作为重磅亮点,这一次的峰会,Agentic AI 是唯一的关键词。
一方面,它可以让大模型从被动响应提示转变为通过AI Agents主动行动,来代表人类或系统进行推理、规划和完成具体任务。此外,相比传统的workflow(工作流,其响应机制被代码写死),Agents具有迭代思考的能力——可以评估结果、调整方法,并持续朝着既定目标努力,具备更高的能力提升天花板。
比如,去年市场上一度流行一种AI教程,就是用大模型A,生成提示词,大模型B根据提示词配图,然后将所有内容一股脑丢给办公软件,借助办公软件的自动排版功能进行PPT美化。这个过程不仅繁琐,并且十分低效。而通过AI智能助手,则能够打通不同模型以及工具的内部系统、利用语义数据源自动提取上下文信息,直接根据用户指令完成最终的交付结果。
那么为什么是今年?
这一波Agentic AI 爆火背后,有两大原因:
其一是 CrewAI,LangGraph,LlamaIndex 在内,过去两三年里各种Agent编排框架逐渐成熟,让Agentic AI 构建变得越来越容易。
其二则是标准化协议的出现,例如模型上下文协议(MCP)和 Agent2Agent(A2A)极大简化了模型与工具之间的链接。也是自去年底MCP横空出世起,从manus到genspark,从heygen到lovart,新的明星Agent玩家,如雨后春笋冒出,小团队、强业务创新、高实用性成为这一时期的创业团队主流画像。
他们的出现,进一步带动了Agent在千行百业的落地。LangChain的(田野)调查结果则更为激进,超过一半的公司已经在生产环境中部署Agent,近80%的正在研发Agent。
当然,这中间存在的一个悖论——知道LangChain的企业,大部分都是有Agent使用经验或者意愿的玩家。
相对而言,Gartner的预测更加保守也更具普适性代表,到2028年,33%的企业软件将使用Agentic AI,15%的日常工作决策将由Agent自主完成。
既然Agent未来将无处不在,那么如何快速找到、试用并部署Agent呢?
AWS在其Marketplace市场中目前已经上架了上百种AI Agents & Tools,用户只需用自然语言搜索,就能轻松找到所需要的Agent产品直接用于生产实践。
不过,当前情况来看,Agent的数量还远远不足以满足千行百业的需求,而通用性Agent也并不足以直接解决行业与企业的独特性问题。
在峰会现场,AWS Agentic AI 副总裁 Swami 将这些尚未被解决的困难一共总结为六点:
如何安全地执行并扩展Agent代码,如何让Agent能记住过往的互动与学习,如何让Agent的身份和权限被进一步细化,如何打造更适合复杂工作流的工具体系,如何发现和使用我们需要的工具与资源,如何让Agent的每次交互都变得可被审核可追溯?
这些问题每一项都事关Agent能否从poc(概念试验)真正走向生产,也关系着Agent落地的体验与安全。
既然当前仍然供需不匹配,那AWS干脆把构建Agent的成本与门槛直接打下来,让更快速、灵活、大规模、更安全地去部署和构建专属Agent成为可能。
Amazon Bedrock AgentCore,如何降低构建Agent的门槛?
Agent很好,但是哪怕只是半年前,构建一个企业级Agent都依然是一个不小的难题。
原因很简单,不是所有公司都有manus与genspark这样的能力,仅仅依靠模型+框架+MCP,就能把一个概念变成生产级Agent。
要知道,传统的Agent开发,除了需要了解Docker、K8s各种云原生生产环境,还需要能够从上下文管理,到角色控制,到内存系统,再到内容生成的可控性与安全合规,每个环节都能做到极致。
而历史经验告诉我们:一个东西再好,如果它的门槛太高,产能始终受限,那就注定成为一个昂贵的玩具,而无法真正撬动一个时代的创新。
因此,对于常规的有定制Agentic AI需求的客户,AWS发布了一套完整的企业级服务解决方案——Amazon Bedrock AgentCore。
借助 Amazon Bedrock AgentCore,开发者能够直接对接Amazon Bedrock 或第三方平台部署的各类 AI 模型,并快速、安全的将 AI Agent从概念加速到生产环节。
为了弥合agent从poc(概念试验)到production(生产环境)之间的沟鸿,AgentCore有以下七大模块:
• AgentCore Runtime(运行时环境):提供具备会话隔离机制的沙盒化低延迟无服务器环境,支持包括主流开源框架、工具和模型在内的任意Agent架构,并能处理多模态工作负载及长时运行Agent。说白了,借助AgentCore Runtime,开发者无需掌握Docker、K8s,就能直接上手agent部署。
• AgentCore Memory(记忆系统):可以通过统一管理会话记忆与长期记忆,为模型提供关联上下文,让Agent持续学习用户偏好等信息,变得更加智能与个性化。
• AgentCore Observability(可观测性):Agent构建难以一次到位已经成为共识,但如何发现问题,调整问题,就需要过程可视化追溯,AgentCore Observability正是为此而生,可支持元数据标记、自定义评分、轨迹检查及故障诊断/调试过滤器。
• AgentCore Identity(身份管理):支持AI Agents安全访问AWS服务及GitHub、Salesforce、Slack等第三方工具,既可代表用户操作,也可在获得预先授权后自主执行。
• AgentCore Gateway(网关服务):将现有API和Amazon Lambda函数转化为Agent工具,提供跨协议统一访问能力(含MCP协议),并支持运行时自动发现功能。
• AgentCore Browser(浏览器功能):这是今年以来Agent创业最火热的方向,AgentCore Browser可以提供托管式浏览器实例,支持自动化网页操作流程扩展,可以用于访问没有程序化API的系统或需要通过Web界面访问的资源。
• AgentCore Code Interpreter(代码解释器):提供隔离式代码执行环境,保障生成代码的安全运行。
这些服务可以单独使用,也可以协同工作,按需求按用量计费;此外,AgentCore还可以与任何AI代理框架与模型、协议(包括MCP和A2A)配合使用,真正帮助用户实现适合的才是最好的。
此外,这些能力全都基于AWS成熟的安全基础构建,内置身份控制和安全管控,让Agent原生具备企业级安全与可靠性。
企业级Agent还缺什么,应该长什么样子?
对于常规Agent需求,通过AgentCore中的工具组合,已经可以解决80%以上的问题。但对于部分有着更高需求的企业级用户而言,深度定制化才是大势所趋。
针对这部分用户,AWS推出了两大亮点功能S3 Vectors、基于Amazon Nova模型的定制化功能,以及一个用于企业级AI coding的Agent范例Kiro。
当下,Agent成为大模型落地的主流,而多数Agent的底层,本质是一个由大模型驱动的复杂RAG系统。
所谓RAG,即检索增强生成,增强与生成部分依靠大模型,而检索部分则依靠向量数据库。
因此,活动现场AWS还推出了Amazon S3 Vectors, 一种基于对象存储的向量数据库产品,可以提供亚秒级查询性能,并将上传、存储和查询向量的总成本降低高达90%,以应对AI时代的海量非结构化数据处理需求。
但一个问题是,在此之前AWS已经推出了向量检索产品OpenSearch,为什么还要额外推出Amazon S3 Vectors?
原因很简单,OpenSearch为代表传统向量数据库,主要将向量加载在内存之中,优势是高效、及时响应;但是内存方案快速响应的B面则是高成本。
向量数据对应的元数据通常是非结构化数据,信息密度较低、体积较大,全部加载在内存成本高昂,而S3这样的对象存储,成本显然更低,也更适合多数向量数据的检索。
技术上,S3 Vectors 引入了向量桶概念,无需配置任何基础设施,即可通过一组专用的 API 来存储、访问和查询向量数据。在这个结构中,每个向量桶都会对应一组向量索引,用于高效的对数据进行索引,每个向量桶最多可以包含10,000 个向量索引,每个向量索引可以包含数千万个向量。
此外,不同于市面上一些开源向量数据库只是单纯向量索引的集合,在S3 Vectors ,还支持将元数据与向量数据作为键值对的形式匹配,进而支持向量+时间,向量+类别,向量+颜色,向量+价格等更高级的过滤检索操作。
随着时间的推移,当用户对向量进行增删改查,S3 Vectors会自动优化对应的索引与数据分布,以实现向量存储的最佳性价比。
而对于一些对高性能、实时响应有更高要求的检索增强生成(RAG)场景,S3 Vectors则可以与亚马逊OpenSearch服务集成,将低频的冷数据存储在S3 Vectors,而将一些更高频的热数据,移动到OpenSearch,从而达成性能与成本的高效平衡。
基于高效的大模型与向量存储系统,prompt优化和 检索增强生成(RAG)已经可以很好地用于多数Agent的落地,但是仍有一些特殊业务,仍需对模型层面进行微调从而达成目标。
一个常见的场景比如,企业需要基于RAG架构构建一个医学或者法学Agent。但是在将非结构化数据存储到向量数据库之前,还需要经过一个embedding环节,把原始数据转化为计算机可以理解的向量语言。
目前,市面上已经有了很多成熟的embedding模型,但是具体到落地,我们依然要根据业务特性不同,对各种embedding模型进行微调,才能保证农业中的苹果与科技产业的苹果被更好的区分,现实中的水桶与数据库概念中的桶指向不同含义。
基于这一背景,AWS在Amazon SageMaker AI中推出了Amazon Nova定制化的功能,对模型进行包括监督微调(SFT)、直接偏好优化(DPO)、近端策略优化(PPO)、人类反馈强化学习(RLHF)、持续预训练(CPT)、知识蒸馏等在内的操作。
目前,这些技术已经可以作为现成的亚马逊 SageMaker 组成使用,无缝部署到Amazon Bedrock,并支持按需和通过提供吞吐量推断。据AWS官方数据,目前已经有超过10000名客户使用Amazon Nova系列模型带来显著降本增效。
除了向量数据库与模型微调,最近大火的AI coding,AWS也没有落下。
针对市面上常规的IDE产品只关注coding本身,而忽略了coding背后的产品需求、文档、交互的问题,AWS推出了AI IDE产品Kiro,其关键创新有三:
• 规范驱动开发(spec-driven development),可以帮助开发者通过自然语言和架构图清晰地表达他们对复杂功能的构建逻辑。 • 智能代理钩子(Intelligent Agent hooks),可以自动处理生成文档、编写测试和优化性能等重要但耗时的任务,在保存文件或提交代码等情况下自动触发。 • 专门设计的界面(purpose-built interface),支持聊天交互开发,也支持规范驱动开发,适合的就是最好的。
而借助Kiro,专业开发者不仅能更高效的产出代码,更能高效的产出高可用,更符合业务需求的代码。
尾声
回顾过去的历史,当下的AI浪潮已经不是人类历史上的第一次。而过去的多次AI泡沫已经明明白白告诉我们,模型要落地才有价值。
这也是这一轮大模型浪潮与过去的最大不同之所在:
一方面模型本身具备极强的通用能力,构建了其落地千行百业的地基;
在此基础上,经过AWS这样的企业助推,框架、数据库、调用接口、开发工具、模型微调工具依次成熟,让Agent加速从概念走向落地,甚至成为每一个行业,每一个企业的专属定制。
而这,也是技术泡沫与技术革命最大的区别之所在。
- end -
想把AI的想象力变成业务的增长力?
2025亚马逊云科技城市巡演,聚焦最热门的 AI 场景,现场拆解、即时体验,为城市伙伴带来零距离的前沿洞察。七城席位同步开放,搜索“亚马逊云科技”小程序,即刻注册!
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
本文来自虎嗅,原文链接:https://www.huxiu.com/article/4592549.html?f=wyxwapp