当前位置: 首页 » 资讯 » 新科技 » 正文

AI写量子程序,三大框架谁最难搞定?

IP属地 中国·北京 科技行者 时间:2026-04-23 10:53:21


这项由贝鲁特美国大学与沙特阿拉伯阿卜杜拉国王科技大学联合开展的研究,以论文预印本形式于2026年3月25日发布在arXiv平台,编号为arXiv:2604.08570,并作为工作坊论文收录于2026年国际学习表征会议(ICLR 2026)。有意深入了解的读者可通过该编号查阅完整论文。

量子计算听起来遥不可及,但它已经悄悄渗透进软件开发的日常工作中。越来越多的程序员开始使用专门的量子编程框架——就像写普通程序要用Python或Java一样,写量子程序也有自己的"语言工具箱"。目前最主流的三个工具箱分别叫做Qiskit、PennyLane和Cirq。面对这种新型编程需求,人们自然会想到一个问题:现在这些能写代码的人工智能(也就是我们常说的大语言模型,或LLM),到底能不能可靠地帮人写出正确的量子程序?

偏偏大多数已有的测试都只在一个工具箱里打转。这就好比你想招一个厨师,却只考他用一个牌子的锅能不能做出好菜——完全不知道换了别的锅他会不会抓瞎。于是这支研究团队决定设计一套更公平、更全面的考试,让AI同时在三个框架下完成同样的量子编程任务,看看谁真的会做量子计算,谁只是背熟了某一本菜谱。这套考试就是本文要介绍的QuanBench+。

一、量子程序为什么比普通程序更难测评

在正式介绍这套考试之前,有必要先说清楚,量子程序究竟有什么特别之处,让它的测评比普通程序复杂得多。

普通程序的输出是确定的:你输入2加2,程序必然告诉你4,对错一目了然。量子程序则不然。量子计算机的核心单位叫做"量子比特",它的神奇之处在于,它可以同时处于"0"和"1"的叠加状态,只有当你去测量它的时候,它才会随机坍缩成某个确定的结果。更准确地说,量子比特的状态可以用一个数学式子来表达:一部分概率属于"0",另一部分概率属于"1",两部分概率加起来等于100%。

这意味着量子程序每次运行的结果都可能不同,就像掷骰子一样——你不能用"结果是否精确匹配"来判断程序写得对不对,而必须看它产生的"概率分布"是否正确。举个例子,一个正确的量子程序在被运行1000次之后,大约有500次应该输出"00",500次应该输出"11";如果某个AI写的程序运行1000次后,900次输出"00",100次输出"11",那它就是错的,尽管它确实输出了"00"这个答案。

正因为如此,研究团队在设计测评标准时,没有采用简单的"答案对不对",而是引入了一种叫做KL散度(Kullback-Leibler Divergence)的数学工具来衡量概率分布之间的差距。你可以把它理解为"两个骰子点数分布有多不相似"的量化工具。研究团队对标准答案反复运行1000次,建立起一个参考分布,然后把AI生成的程序也运行一遍,比较两个分布之间的差异。只要差异足够小(具体阈值定为0.05),就认为AI写的程序是正确的。

研究团队还特别解释了为什么他们不使用另一种常见的评分方式——"保真度"(Fidelity)。保真度衡量的是两个电路在数学结构上有多像,但问题在于,两个结构完全不同的量子电路,完全有可能产生完全相同的测量结果。就像烤蛋糕可以用烤箱也可以用气炸锅,最终的蛋糕可能一样好吃,但做法天差地别。如果用"做法是否相同"来评判蛋糕好坏,就会冤枉很多好厨师。QuanBench+选择的是只看"蛋糕好不好吃"——即最终程序运行的结果是否正确。

二、这套考试是怎么设计的

QuanBench+的内容来源于一个已有的量子代码基准测试集,叫做QuanBench。研究团队在此基础上做了改造:他们剔除了两道因为无法在三个框架之间进行统一评分而显得模糊的题目,并对其余题目进行了适配,让同一道题可以分别用Qiskit、PennyLane和Cirq三种框架来作答。最终保留下来的题目共42道,涵盖三个大类。

第一类叫做"量子算法",包含31道题,是比重最大的一类。这类题目考察的是AI能否正确实现已知的量子算法或其子程序,相当于考试中的"综合应用题",需要AI理解算法的逻辑并把它翻译成代码。第二类叫做"态制备",共6道题,考察的是如何构建电路使量子系统进入某个特定的量子态,就像考你能否按照配方调制出一杯特定成分的鸡尾酒。第三类叫做"门分解",共5道题,考察的是如何把复杂的量子操作拆解成基本的量子门,类似于把一个复杂的机械动作分解成一系列标准手势。

为了保证公平,研究团队做了大量标准化工作。每道题在三个框架下给AI看的题目表述完全相同,只在库的导入和API的调用方式上做了适应性调整——因为这三个框架的"语法"虽然目的相同,但写法各异,就像同一道菜的中文菜谱和英文菜谱,内容一样但表达方式不同。AI被明确要求只返回可执行的代码,不需要附加任何解释。需要输入参数的题目,研究团队提前随机生成了一组固定的输入,并在所有模型和框架中统一使用,确保比较的公平性。

测评流程分三步走:先从AI的回答里提取出可执行的代码,然后在对应的框架环境中运行这段代码,最后将运行结果与标准答案进行比对——确定性结果直接比对,概率性结果用KL散度比对。整个过程自动化完成,不需要人工干预。

三、参加考试的选手们

研究团队邀请了12个当前最有代表性的大语言模型参与测评,既有顶级的商业闭源模型,也有开放权重的模型,覆盖面相当广。这些模型包括:来自谷歌DeepMind的Gemini 3 Pro和Gemini 2.5 Flash、来自OpenAI的GPT-5.1和GPT-4.1、来自Anthropic的Claude 3.7 Sonnet、来自DeepSeek的DeepSeek-R1和DeepSeek-Chat、来自meta的Llama 4 Maverick、来自阿里巴巴的Qwen 2.5 7B Instruct、来自智谱AI的GLM 4.7、来自MiniMax的MiniMax M2.1,以及来自月之暗面的Kimi K2 Thinking。

所有模型运行在统一的Python 3.10环境下,使用Qiskit v0.46.0、Cirq v1.6.1和PennyLane v0.43.1三个固定版本的框架。评分指标主要有三个:Pass@1,即给AI一次机会,看它能答对多少题;Pass@5,即给AI五次机会,只要有一次答对就算通过;以及Pass@1(反馈修复后),即在一次作答失败后,把错误信息反馈给AI,最多给它五次修正机会,看最终能答对多少题。对于Pass@1,模型采用贪婪解码(温度为0,即每次都选最可能的答案);对于Pass@5,模型以较高的随机性(温度为0.8)生成五个不同的答案。

四、考试结果:谁强谁弱,差距有多大

成绩揭晓,最直观的发现就是:框架的差异对AI的成绩影响巨大,而且这个规律对几乎所有模型都成立。

在单次作答(Pass@1)的成绩中,Qiskit框架下的最高分由Gemini 3 Pro获得,达到59.5%——也就是说,它能在第一次尝试中答对42道题里的大约25道。Cirq框架下的最高分也是Gemini 3 Pro,达到54.8%。PennyLane框架下的最高分则由GPT-5.1摘得,为42.9%。换句话说,即便是当前最强的模型,在最擅长的框架下也只能做对一半左右,在最难的框架下甚至不到一半。

从整体排名来看,Gemini 3 Pro在三个框架的平均得分上领跑,主要因为它在Qiskit和Cirq两个框架上表现突出。而GPT-5.1则在PennyLane上独占鳌头。几乎所有模型都呈现出同一个规律:Qiskit得分最高,Cirq居中,PennyLane最低。这强烈暗示着,模型的表现很大程度上取决于它在训练数据中接触过多少该框架的代码——Qiskit作为最老牌、应用最广泛的框架,在互联网上存在大量的示例代码,所以AI对它最熟悉。

排名靠后的模型差距也相当显著。Qwen 2.5 7B Instruct在Qiskit下只拿到16.7%,在Cirq下仅有4.8%,在PennyLane下是11.9%,说明小参数量的开源模型在量子代码生成上还有很大的成长空间。

当允许生成五个答案、取其中最好的一个时(Pass@5),成绩普遍有所提升,但框架之间的差距并没有消失。GPT-5.1在Qiskit下从57.1%上升到76.2%,在PennyLane下从42.9%上升到57.1%,DeepSeek R1在PennyLane下从33.3%大幅跃升至59.5%。这说明,很多时候AI其实"知道"正确答案,只是在单次生成时不够稳定,没能恰好选对那个答案。

五、提前告诉AI用哪个框架,有没有用

研究团队还做了一个额外的实验:在题目中提前给AI提供正确的库导入语句、函数签名和基本框架代码(这种做法叫做"预填充"或prefill),与完全让AI从零开始生成的情况进行对比。

结果显示,预填充确实有用,但主要帮的是那些中等水平的模型,以及在PennyLane这类不太常见的框架上。对于顶级模型来说,预填充带来的提升就小得多。这说明预填充的主要作用在于减少"框架摩擦"——比如忘记导入某个库、函数签名写错格式之类的低级错误——而不是帮助AI理解量子算法本身的逻辑。换句话说,给AI搭好架子,它就不会因为忘记搭架子而出错,但如果AI从根本上不理解这道题的量子逻辑,给它搭好架子也没用。

在Cirq框架下,预填充同样带来了明显的改善,尤其是在中间层次的模型中,排名出现了一些变化。在Qiskit下,预填充的效果相对没那么统一,对强模型和弱模型的影响程度参差不齐。

六、给AI一个改错机会,成绩能提高多少

这项研究最引人关注的部分之一,是测试了一个"反馈修复"机制:当AI第一次写的代码运行出错或答案不对时,系统会把错误信息(比如报错的堆栈信息,或者"你给出的概率分布与标准答案差太远了"这样的提示)反馈给AI,然后让它再试一次,最多给五次修正机会。

反馈修复的效果非常显著。GPT-5.1在Qiskit下的得分从57.1%跃升到83.3%,Gemini 3 Pro在Cirq下从54.8%升到76.2%,GPT-5.1和Gemini 3 Pro在PennyLane下都从40-42%范围升到66.7%。这种提升不是个别强模型的专利,几乎整个排行榜的中间层次也都有显著改善。

从修复的轨迹来看,大多数改善发生在第一次到第二次反馈之间,之后每一轮的边际收益逐渐递减。到了第四、第五轮,曲线已经明显趋于平缓。Qiskit框架下的强模型饱和得更快,而PennyLane和Cirq框架下的模型则往往在第四、第五轮还有一些零散的改善空间。

反馈修复之所以有效,关键在于错误的类型。研究团队分析了所有第一次作答失败的情况,发现错误主要分为以下几类:答案本身就是错的(错误分布,占46.7%)、逻辑错误(25.0%)、缺少正确的方法或量子门(11.8%)、输出形状不匹配(8.0%)、语法错误(4.7%)、以及量子比特规格错误(3.9%)。总计977个失败案例。

当把错误信息告诉AI之后,那些属于"语法错误"、"缺少正确方法"、"量子比特规格写错"之类的具体、明确的错误很容易被修复——AI看到报错信息就知道哪里写错了,自然可以改对。但那些属于"答案本身就是错的"和"逻辑错误"的情况,就算给了五次机会,也往往依然无法修复。

经过五轮反馈修复后,错误总数从977个降低到665个,减少了约32%。但在这665个剩余错误中,"答案本身就是错的"的比例从46.7%上升到53.4%,"逻辑错误"从25.0%降到22.0%,而"缺少正确方法"从11.8%暴跌到3.8%,"语法错误"从4.7%骤降到1.5%。这个变化说明:反馈修复擅长解决"能看见的毛病",修不了"脑子里的误解"。

七、分任务来看,哪些题最难

研究团队还提供了按每道题展开的热力图,让我们可以看到哪些具体任务对所有模型都构成挑战,哪些任务几乎所有模型都能轻松通过。

在Qiskit框架的热力图中,成绩较好的模型(如Gemini 3 Pro、GPT-5.1)呈现出一片连续的"深色区域",说明它们能覆盖相当多的任务,但仍然有几列任务ID对应的格子是空白的——这些列代表着几乎所有模型都无法解决的难题。PennyLane的热力图则整体稀疏得多,深色区域明显少于Qiskit,即便是最强的模型也有大片空白。Cirq的热力图介于二者之间,比PennyLane稠密,但不及Qiskit完整。

到了Pass@5的热力图,可以看到很多原本空白的格子变成了深色,说明这些任务并非"完全不可能",只是在单次生成时AI不够稳定。Pass@5把这部分不稳定的能力也统计进来了,因此整体覆盖面更广。经过反馈修复的热力图则是三个版本中最稠密的,但那些对所有模型都顽固空白的列,基本上在反馈修复之后也还是空白的——这些就是那批更深层次的、语义层面的错误。

说到底,这项研究想回答的核心问题,不是"AI到底强不强",而是"AI到底在哪里强、在哪里弱,以及这种强弱是因为真懂量子计算,还是只是背熟了某一套工具书"。得到的答案是:很可能大部分是后者。

同一道量子算法题,AI在Qiskit下能写对,换到PennyLane就写不对,这不太可能是因为AI突然忘记了量子力学的基本原理——更可能的解释是,AI在训练数据里见过大量Qiskit代码,所以知道怎么用Qiskit的API把算法表达出来;但它见过的PennyLane代码相对少,不知道那套API的写法,就容易出错。这是一种框架知识的不对称,而不是量子知识的不对称。

归根结底,这项研究传递的信息是:当前最强的AI在量子编程上确实取得了实质性进展,但要说"可靠",还差得远。最好的模型在最容易的框架里也只有不到六成的一次通过率,在最难的框架里只有四成多,即便给了反馈修复机会,最高也只能到83%。这说明至少有近两成的任务是AI无论如何都搞不定的。未来要提升AI在量子编程上的能力,光靠把模型做得更大、参数更多可能还不够,还需要更多高质量的量子编程训练数据、更好的跨框架泛化能力,以及真正理解量子逻辑而非死记硬背API的推理机制。

这项研究的代码和数据集已开放在GitHub平台,感兴趣的读者可通过原论文(arXiv:2604.08570)找到对应的代码仓库地址,进一步探索。

Q&A

Q1:QuanBench+和普通代码测试基准有什么不同?

A:QuanBench+专门针对量子程序的特殊性做了设计。普通程序输出是确定的,对错一目了然;量子程序每次运行的结果是随机的概率分布,因此QuanBench+引入KL散度来衡量AI生成的分布与标准答案的差距,而不是简单比对输出值。此外,QuanBench+同时覆盖Qiskit、PennyLane和Cirq三个框架,可以区分AI是真正懂量子逻辑,还是只熟悉某一套特定API。

Q2:为什么PennyLane比Qiskit更难让AI写对?

A:最可能的原因是训练数据的数量差异。Qiskit是目前最成熟、用户最多的量子框架,互联网上存在大量相关代码示例,AI在训练时接触更多,自然对其API更熟悉。PennyLane相对较新、用户群体较小,训练数据中涉及它的代码更少,AI在使用时更容易出现API调用错误或框架习惯不匹配的问题,导致整体成绩最低。

Q3:反馈修复机制对量子代码生成的提升有多大?

A:反馈修复的提升相当显著,但有明显的上限。以最强的GPT-5.1为例,在Qiskit框架下得分从57.1%提升到83.3%,提升幅度超过26个百分点。不过大部分提升集中在第一次到第二次修复之间,之后收益递减。最重要的是,那些属于量子逻辑错误或算法理解错误的失败案例,无论给多少次修复机会都很难改正,这也是当前AI量子编程能力的核心瓶颈所在。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。