当前位置: 首页 » 资讯 » 新科技 » 正文

高阶程序,让AI从技术可行到商业可信的最后一公里

IP属地 中国·北京 机器之心Pro 时间:2025-09-16 22:28:08



机器之心报道

编辑:Panda

很多人相信,我们已经进入了所谓的「AI 下半场」,一个模型能力足够强大、应用理应爆发的时代。然而,对于这个时代真正缺少的东西,不同的人有不同的侧重,比如(前)OpenAI 研究者姚顺雨强调了评估的重要性,著名数学家陶哲轩则指出必须降低成本才能实现规模化应用。



而蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬则强调了数据的价值:「数据决定了 AI 应用能力的上限。」

然而,一个严峻的现实摆在面前:数据本身并不会自动创造价值。如果加工和应用数据的「引擎」本身充满不确定性,那么再高质量的数据也可能产出灾难性的结果。

因此,要实现 AI 广泛应用,还有一大关键不可忽视:可靠性

可靠性涉及到多个细分指标,除了基本的准确度和速度,还包括近日 Thinking Machines Lab 公布的首份研究成果中提到的「确定性」以及 AI 最臭名昭著的 bug 或 feature ——「幻觉」。

因此可以说:向 AI 下半场的过渡本质上是一场从「模型竞赛」到「工程竞赛」的转折,其中的核心命题也正从「AI 能做什么」转变为「如何让 AI 做得对、做得好、不出错」。

在此背景下,业界涌现出多种探索路径:以 LangChain 为代表的「编排框架」,像一套灵活的瑞士军刀,想要将 AI 能力「粘合」起来;以斯坦福大学 DSPy 为代表的「编译框架」,则致力于优化「如何更聪明地向 AI 提问」。然而,这些方案或缺乏内生的可靠性保障,或侧重于优化输入端,对 AI 输出的「不确定性」仍缺乏强有力的约束。Thinking Machines Lab 近日的技术博客则指出可以从算子层面来解决 LLM 的可复现性问题,似乎颇具潜力,但这个方法却无法解决 LLM 的幻觉问题。

那么,究竟该如何让 AI 更加可靠呢?答案或许并非寄望于一个永远不会犯错的「完美模型」,而是需要引入一种全新的外部保障体系。

事实上,在实现 AI 应用可靠性方面,现在企业常用的落地工具箱主要有:RAG(检索增强生成)、智能体 / 调度器框架(如 LangChain 等)与神经-符号(neuro-symbolic)混合方案。

RAG在很多场景能显著降低幻觉(通过把回答锚定到外部事实库),但也带来向量库集中化、权限与陈旧数据风险,在合规 / 敏感数据场景需谨慎设计。智能体编排方便、灵活,但若缺乏内部细粒度核验,会把错误放大到链路中。神经-符号方法则是把符号逻辑 / 知识图谱与神经模型互补,能同时提升可解释性与判定性。这个方向的研究成果正快速积累。

而我们今天的主角便是一种与神经-符号方向高度契合的方法:高阶程序(HOP/High-Order Program)—— 一套旨在为 AI 这颗强大「智力引擎」装上工程「安全带」的框架。它不只是又一个工具,而是从一个更根本的「工程化」视角,为驯服 AI 幻觉、构建商业可信的 AI 应用提供了一种全新的应用范式。

AI 工程化前夜

我们为何需要一个新的应用范式?

要理解为何我们需要一个新的应用范式,首先要厘清「幻觉」的本质。简单来说,幻觉是指模型会自信地编造事实,让人真假难辨。这个根本性挑战是阻碍我们完全信任 AI 的关键障碍。

就在前不久,OpenAI 罕见地发表技术论文,系统性地为「幻觉」的根源盖棺定论:标准的训练和评估程序更倾向于奖励模型进行猜测,而不是奖励它在不确定时勇于承认「我不知道」。这篇论文揭示了一个残酷的真相:幻觉并非简单的技术瑕疵,而是当前 AI 范式下的固有系统性问题。当评估体系鼓励模型为了更高的准确度得分而去猜测答案时,即便模型变得更强,幻觉依然会发生

更进一步,可以认为幻觉并非简单的程序错误,而是「智力的必然代价」。韦韬指出,AI 的智力依赖于模式识别和预测性编码,当信息不完整时,它会通过「逻辑补全」来生成看似合理的解释,这便是幻觉。若要彻底消除幻觉,大模型将退化为一台冰冷的检索机器。



然而,这种「智力的代价」在专业领域是极其昂贵的。当任务复杂度超出模型的规模极限时,其可靠性便会断崖式崩塌。测试显示,即便是最先进的大模型,在处理越来越高位数乘法时,准确度会迅速趋近于零;在执行代码修改、文件管理等任务时,也频频出现「删库跑路」事件。



图源:X 用户 @jasonlk

这些事实揭示了 AI「智力引擎」的阿喀琉斯之踵。「大家熟知的幻觉问题反而在其次,」韦韬在一次采访中坦言,「大模型它是一个通用智力引擎,但是这智力引擎远远不是很多人所认为的十全十美,也不是一个许愿池 —— 什么事让给它做,它就能做好。」

这些局限性让当前的大模型 AI 在常见任务中只能达到 70%-85% 的可靠性,但这并不够用 —— 与金融、医疗等领域 99% 以上的「及格线」之间,存在着一条巨大的鸿沟。

对普通用户而言,这可能只是得到一个错误的生日信息;但对于正在投身 AI 转型的企业来说,这种不可靠性却很致命。试问,当 AI 助手毫无征兆地删库跑路,当风控模型信誓旦旦地引用不存在的监管条例,谁敢将核心生产环节托付于它?

为了跨越这条鸿沟,行业一直在探索,比如前文提到的 LangChain、DSPy 以及 Thinking Machines Lab 的新研究成果;但也正如前文所说,它们都存在各自的局限。而这些局限又指向了一个更深层次的方向:行业需要的是一种能将「不确定的智能」与「确定的工程逻辑」进行深度融合的新范式

实际上,正如前文所述,这并非一个全新的概念,而是 AI 领域经典思想「神经-符号主义(Neuro-Symbolic AI)」的回归。其核心主张,正是要将以大模型为代表的、擅长处理模糊语义的「神经网络」,与以传统代码、规则为代表的、擅长处理精确逻辑的「符号系统」相结合。



图源:AllegroGraph

高阶程序(HOP)正是这一思想在企业 AI 应用领域,迄今为止最彻底、最系统的一次工程实践。

蚂蚁密算的解法

将工程智慧编译为高阶程序

如果说 AI 幻觉是天性,那么人类数百年文明史早已给出了驯服「天性」的答案:工程化

从阿图・葛文德在《清单革命》中倡导的、将手术感染率从 11% 降至 0 的检查清单,到科学管理之父弗雷德里克・温斯洛・泰勒提出的、构成现代航空安全基石的标准作业程序(SOP),其核心思想一脉相承:用外部的、确定性的工程体系,来驾驭和约束内部的、充满不确定性的个体(无论是人还是 AI)。

高阶程序(HOP)正是将这一古老智慧编译到了 AI 的应用流程中。韦韬用了一个生动的比喻给出了解释:AI 应用很像新能源车,有三大核心:电池、电机、电控。大家之前觉得光有大模型(电池)就够了,但实际上远远不够,它后面需要一个完整的工程化体系保障,需要一套『电控系统』才能把它发挥好。而 HOP 就可以充当这个「电控系统。」



事实上,HOP 并非一门全新的编程语言,而是一种创新的编程思想与框架,旨在为大模型这颗强大的「智力引擎」构建一套可靠的控制系统。其内核,是对「神经-符号主义」思想的一次深度实践。

符号主义的骨架:程序化业务逻辑

HOP 首先要求将专业领域的 SOP(标准作业程序),用精确的编程语言(如 Python)进行逻辑的显式表达。这可确保核心业务流程的确定性、可维护性和可扩展性,彻底避免了自然语言的歧义和模糊,为整个系统构建了刚性的「符号」骨架。



神经网络的血肉:领域知识与大模型

在这副骨架的关键节点,HOP 会通过自然语言描述的「伪代码」来调用大模型,让其处理需要模糊匹配、语义理解和专业知识推导的「神经」任务。例如,判断「关节镜下膝关节清理术」与「膝关节滑膜切除术」是否重复收费。此时,大模型就像一个被精确调用的「超级函数」,为骨架填充智能的血肉。



核心机制:HopLogic 执行框架与核验复杂性塌缩

HOP 的灵魂在于其内置的 HopLogic 执行框架。它基于一个关键原理 ——核验复杂性塌缩:求解一个复杂任务可能很难,但验证一个解是否正确,其复杂度往往会大幅下降(如著名的 NP 问题)。



HopLogic 正是利用这一点:将复杂任务拆解为一系列可被自动化核验的细颗粒度步骤,并在全流程中贯穿逆向核验、交叉核验等复合策略,确保大模型的每一步输出都得到交叉验证,从而实现专业应用所需的 99%+ 可靠性。下图展示了一个验证邮件的 HOP 工作流程示例。



HopLogic 项目地址:https://github.com/hoplogic/hoplogic

更重要的是,HOP 通过引入两个关键指标为 AI 应用建立了「度量衡」,让其能力边界和可靠性摆脱玄学,变得可度量、可管理:

完成率:大模型能够成功通过所有核验并输出结果的比率。它显性化了 AI 处理此类任务的能力边界。正确率:通过核验的样例中,真正正确的比率。这是基于 HopBench(场景打标样本集)实测的「压舱石」,是业务可靠性的最终体现。



这两个指标的建立意义非凡。它清晰地告诉我们,大模型专业应用只有通过真实场景打标样板集评测,实现正确率达标后,才能真正进入商用;当正确率达标后,完成率的提升将带来指数级的商业价值 —— 完成率从 90% 提升到 99%,意味着需要人工介入的成本骤降 10 倍。 这正是 HOP 开启规模化专业生产力的关键所在。

从金融到更多行业

HOP 开启的「规模化专业生产力」

理论的先进性最终需要实践的检验。HOP 的真正价值,在于它已经在金融、医疗等零容忍行业中,展现出开启「规模化专业生产力」的潜力。

以金融风控建模为例,这曾是一项高度依赖专家经验的「手工作坊式」劳动。一位风控专家需要花费 3 到 15 天的时间,经历样本对齐、特征预处理、模型训练与评估等漫长流程,其成本高昂且难以规模化复制。



行业也曾尝试引入 AI 智能体来自动化这一过程,但结果往往是「聪明时帮小忙,笨时捅大篓子」,可靠性不足 10%,无法投入生产。HOP 则彻底改变了游戏规则 —— 能将金融风控的全链路 SOP 转化为一套可执行、可核验的高阶程序。

结果堪称颠覆:可靠性可从不足 10% 跃升至 99% 以上,开发时长可从数天缩短至 1 天以内。

HOP 之所以能实现如此效果,关键在于其「工程化」特质弥补了传统 AI 应用框架的短板。

类似 LangChain 的框架,或许可以轻松地将数据分析、模型训练等步骤「编排」起来,但它无法深入到每个步骤的业务逻辑内部,进行细颗粒度的核验。例如,它无法程序化地验证「WOE 分组(Weight of Evidence 分箱处理)是否合法合规」。

而 HOP 通过其「符号」骨架,恰恰能将这类精确的业务规则内置于流程之中,从而确保了 AI 在每一个关键节点上的行为是受控的,最终实现质变。

这恰恰反映了「编排」与「工程」的区别:编排关心的是流程通不通,而工程关心的是结果对不对

「今天的大模型和智能体,用的方式依然像手工作坊,」 韦韬一针见血地指出,「就像一个铁匠,从铁坯到打出刀来,全是一个人完成。而现代化的应用模式是生产流水线,把相关任务做分拆、做核验,才能保障生产上的可靠性。我们的高阶程序就来做这样的事情。」

事实上,这种工程化的思想正迅速从企业实践上升为行业共识,尤其是在金融这一「零容忍」行业。一个有力的佐证是,在外滩大会的见解论坛上,由蚂蚁集团牵头,联合公安部网络安全等级保护评估中心、浙江网商银行、国投证券等十余家权威机构共同起草的《大模型金融领域可信应用参考框架》(征求意见稿)也正式亮相。



2025 Inclusion・外滩大会见解论坛上发布《大模型金融领域可信应用参考框架》(征求意见稿)

该标准的核心思想与 HOP 如出一辙:借鉴标准作业流程(SOP)和检查清单(Checklist)等人类工程智慧,为大模型构建一个外部的、确定性的控制与保障体系,从而确保 AI 应用在金融场景的专业性、可控性与安全性。

这标志着以 HOP 为代表的工程化范式,正从蚂蚁集团自身的最佳实践,演变为引领整个金融行业构建可信 AI 的重要基石。

HOP 的价值还不止于此,其还提供了一种远比 SFT(模型微调)更敏捷、更经济的迭代方式

当应用可靠性不达标时,传统路径是耗费大量数据和算力对模型进行再训练,成本高昂且可能引发灾难性遗忘。而 HOP 则允许专家通过优化程序逻辑、补充知识图谱或强化核验规则等轻量级方式,快速提升应用表现。

这种与大模型底座解耦的敏捷迭代能力,极大地降低了企业应用和维护 AI 的门槛,是其能够成为「规模化专业生产力」的工程基础。

AI 下半场

将始于数据,成于工程

回顾 AI 发展的历程,我们正处在一个关键的转折点。正如 9 月 12 日在 2025 Inclusion・外滩大会上,由上海交通大学安泰经济与管理学院、中银科技金融学院联合中国太平洋保险集团、欧莱雅中国、乐刻运动、兴业银行和蚂蚁集团等多家行业头部企业共同发布的《中国企业应用 AI 成熟度 AIM² 模型报告》所揭示的:AI 的上半场拼的是模型参数,下半场拼的是数据质量

如何将这些宝贵的数据资产,通过 AI 进行可靠的加工、分析和应用,最终转化为可持续的商业价值,才是决定胜负的关键。

以高阶程序(HOP)为代表的工程化框架清晰地回应了 AI 下半场的核心命题:我们需要的不仅是更聪明的 AI 模型,更是更可靠、更可信、更可控的 AI 应用

这与 AIM² 报告不谋而合。AIM² 为深陷转型迷雾的企业描绘了一张从 L1 (探索试验)到 L5 (认知引领)的进阶蓝图,而 HOP 正是企业在这张蓝图上从 L3(体系优化)迈向 L4(生态重构)的关键引擎。因为只有当 AI 应用具备了工程化的可靠性,才能真正从优化内部流程(+AI)跃迁为重构行业生态(AI+)。



图源:《中国企业应用 AI 成熟度 AIM² 模型报告》

感兴趣的读者可访问以下小程序下载阅读:

一个新范式的诞生,往往始于一个开放的生态。随着 HOP 框架的正式开源,以及未来 HopCorpus 场景语料集的构建,一扇通往「规模化专业生产力」的大门正在被推开。这清晰地指明了 AI 工程化的两大核心:可靠的框架高质量的数据

HOP 框架解决了可靠性的问题,而 HopCorpus 则致力于提升其能力的上限。当越来越多的行业专家、开发者加入共建,AI 将有望摆脱「助手」的定位,真正进化为驱动千行百业变革的核心生产力。

AI 下半场,将始于数据,成于工程。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。