9月8日消息,在去年底的re:Invent 2024大会上,亚马逊云科技生成式AI核心服务Amazon Bedrock新增了一项AI防护能力,以预览版形式推出全新Amazon Bedrock Guardrails策略——自动推理检查(Automated Reasoning checks)。
该自动化推理检查功能是强有力的生成式AI保护措施,有助于防止因模型幻觉而导致的事实性错误。
现在,此项自动推理检查已正式上线。这也意味着大模型生成的内容迈向“可验证”状态。
生成式AI迎来企业级可信应用的关键拐点
事实上,虽然大模型的能力在不断快速进步,但即使是能力最强的模型也会产生幻觉,提供不正确或误导性的响应。幻觉仍然是整个行业面临的一个根本挑战,这限制了企业对生成式AI的信任。
现在,正式可用的亚马逊云科技Amazon Bedrock Guardrails自动推理检查(Automated Reasoning checks)功能可帮助客户依据其领域知识,来验证基础模型(FM)所生成内容的准确性,从而有助于避免因“幻觉”引发的事实性错误。
此次正式推出的自动推理检查功能还新增以下特性:
可处理大型文档:支持在单次构建中处理大型文档,最多可达 80K token—— 这意味着可轻松处理海量文档资料,相当于多达100页的内容。
简化策略验证流程:可保存验证测试并反复运行,便于随时间推移对策略进行维护和验证;
自动场景生成:根据您的定义自动创建测试场景,既能节省时间和精力,又有助于实现更全面的场景覆盖。
增强的策略反馈:能够以自然语言的形式为策略变更提供建议,从而简化策略优化流程。
可定制的验证设置:可根据您的具体需求调整置信度分数阈值,让您对验证严格程度拥有更多控制权。
需要强调的是,自动推理检查功能通过基于数学原理和逻辑算法的验证与推理机制来确保准确性,提供明确的规则和参数,用于检查AI响应的准确性。这种方法与概率推理方法有着本质区别,后者通过为结果分配概率来处理不确定性。
自动推理检查功能相当于为AI加了一道“数学保险锁”,让企业首次可以直接把这种数学严谨性嵌入到AI应用的防护中,让AI从“概率结果”走向“定理保障”,这无疑将是生成式AI走向企业级可信应用的关键拐点。
官方给出的数据显示,自动推理检查功能的验证准确率高达99%,在检测AI“幻觉”方面能提供可验证的可靠性保障,同时当模型输出存在多种解释时,该功能还能辅助检测歧义情况。
亚马逊云科技在官方博客中以房贷审批为例,演示了Amazon Bedrock Guardrails自动推理检查功能的实际应用。

在示例中,用户只需上传房贷审批规则文档,系统即可将其转化为逻辑定义,并自动生成测试场景。随后,用户可以补充手动测试,为每个用例设定预期结果,并运行验证。当输出与规则不一致时,系统能准确定位矛盾点,帮助用户调整策略。完成验证后,这些策略可直接应用到Guardrails中,用于约束AI助手的回答。

这一示例表明,自动推理检查功能能够把日常业务规则转化为可验证的逻辑,并通过自动化测试和持续验证机制,让AI的输出始终符合合规和业务要求。
十年磨剑 首次面向客户推出
事实上,此次正式可用的自动化推理检查功能,是一项在亚马逊云科技内部已经大规模使用、打磨了十多年的能力。
十多年来,亚马逊云科技在Amazon S3、Amazon IAM、加密引擎等核心云服务中,率先应用自动推理(Automated Reasoning)技术,用数学和逻辑的方法论验证系统的正确性。这些经验长期“藏在幕后”,成为支撑复杂大规模云服务实现安全和可靠的重要力量之一。
例如,亚马逊云科技的明星产品Amazon S3的工程师每天都在使用自动推理来防止bug。Amazon S3拥有超过300个微服务,这些异常情况的潜在组合的数量是巨大的。这种复杂性促使亚马逊云科技的工程师们探索如何使用自动推理来探索可能隐藏在这些状态中的可能状态和错误。
通过构建系统的正式规范,能够找到bug并证明未来不存在此类bug。使用自动推理也让Amazon S3团队每一两个月就能发布一次更新和改进,而不是一年只发布三或四次。
这次亚马逊云科技将自动化推理检查功能落地在“生成式AI场景”。这一“幕后武器”正式走到前台,作为Amazon Bedrock Guardrails中的一项功能,供客户直接使用。
Amazon Bedrock Guardrails使客户能够轻松地将安全和负责任的AI检查应用到生成式AI应用程序中,从而指导模型仅讨论相关主题。这些防护措施不仅适用于Amazon Bedrock的模型,还可通过API扩展到第三方模型,并能与Strands Agents及基于Amazon Bedrock AgentCore的Agent配合使用,在多Agent协作场景中同样发挥作用。
目前,Amazon Bedrock Guardrails自动推理检查功能已在美国东部(俄亥俄州、北弗吉尼亚州)、美国西部(俄勒冈州)以及欧洲(法兰克福、爱尔兰、巴黎)区域正式可用,按处理文本量计费。(果青)