![]()
这项由香港科技大学、华中科技大学、浙江大学、上海交通大学以及密歇根大学联合开展的研究,发表于2026年3月的预印本论文(论文编号:arXiv:2603.03202v1),为我们揭示了一个令人着迷的可能性:让人工智能自己创造出更有挑战性的数学问题。
当我们还在为高考数学题的难度而头疼时,研究人员们已经开始思考一个更深层的问题:随着大语言模型在数学推理方面越来越强大,甚至能够解决国际数学奥林匹克竞赛级别的难题,我们如何才能获得足够多、足够难的新问题来继续训练和测试这些AI系统呢?
传统的数学问题创造过程就像手工制作精美的工艺品,需要经验丰富的数学家投入大量时间和精力,仔细雕琢每一个细节。然而,这种手工作坊式的生产方式显然无法满足AI时代对海量高质量数学问题的需求。正如工业革命用机械化生产替代手工作坊一样,研究团队设想能否用代码驱动的自动化方式来"批量生产"高质量的数学问题。
这个想法听起来简单,实施起来却充满挑战。数学问题的创造不是简单的文字游戏,而是需要深度的数学洞察力、严格的逻辑推理和创造性思维的结合。一个好的数学问题不仅要有明确的答案,还要能够考查特定的数学技能,更重要的是要有适当的难度层次——既不能太简单让人觉得无聊,也不能太难让人完全无从下手。
研究团队想出了一个巧妙的解决方案:将数学问题的演化过程比作生物进化,让AI代理在计算环境中进行"数学实验"和"探索性发现"。就像生物学家通过实验室培养皿来观察细胞分裂和变异一样,研究人员为AI代理提供了一个Python编程环境,让它们能够进行符号计算、数值模拟和自动验证。
这个系统的核心思想是将复杂的问题演化任务分解成三个专门的"专家"角色,就像一个高效的生产线。第一位专家是"进化代理",负责分析原始问题的核心难点,然后设计出更具挑战性的新变体。这就好比一位经验丰富的厨师,能够品尝一道菜后,准确识别出其中的关键调料和烹饪技巧,然后创造出风味更加复杂、层次更加丰富的新菜品。
第二位专家是"可解性验证代理",它的任务是确保新创造的问题确实是可以解决的,而不是那种表面上看起来很深奥,实际上却存在逻辑矛盾或无解的"伪问题"。这就像质检员仔细检查每件产品是否符合质量标准一样重要。毕竟,一个无法解决的数学问题对于训练AI来说毫无价值,反而可能产生误导。
第三位专家是"难度验证代理",专门负责评估新问题是否真的比原问题更有挑战性。这个评估过程采用了"发现负担"的概念——也就是说,解决这个问题需要多少"恍然大悟"的关键洞察。一个好的数学问题应该像精心设计的谜题一样,看似无从下手,但一旦找到关键突破口,整个解题过程就会变得清晰明了。
整个系统最精彩的部分是如何利用代码执行来驱动数学探索。传统的数学问题创造往往依赖于数学家的直觉和经验,而这个系统让AI代理能够像科学家做实验一样,通过编写和运行代码来验证数学猜想、探索数值模式、寻找反例。比如,当代理想要创造一个关于数论的新问题时,它可以编写程序来测试大量的数值案例,寻找有趣的规律或异常情况,然后基于这些发现来构建新的问题。
为了验证这个系统的有效性,研究团队收集了100道来自不同来源的种子问题,包括教科书、地区竞赛、国际数学奥林匹克竞赛和AIME竞赛等。这些问题就像是"原材料",系统要在这些基础上创造出更具挑战性的变体。
实验结果令人印象深刻。研究团队使用了包括DeepSeek-Chat、DeepSeek-Reasoner、Gemini-3-Pro等多种先进的大语言模型作为进化代理,然后用六种不同的求解模型来测试生成问题的质量。结果显示,这些AI代理确实能够创造出数学上严格、逻辑上完整的问题,其中DeepSeek-Reasoner达到了94/98(约96%)的高质量率,这意味着它创造的问题中有96%都是数学上正确且可解的。
更有趣的是,研究发现了一种"能力不对称"现象:AI模型能够创造出连它们自己都解决不了的难题。这就像一位作曲家能够创作出超越自己演奏能力的复杂乐曲一样。这个发现具有重要意义,因为它表明AI系统可能具有某种"创造性溢出"能力——在创造任务上的表现可能超过其在解决任务上的表现。
当然,这个过程并非总是一帆风顺。研究发现,创造一个合格的新问题平均需要1.56到6.55次失败尝试,复杂的案例甚至可能需要超过10次迭代。这就像一位发明家在成功之前需要经历无数次失败的实验一样。大多数失败都源于可解性验证阶段,这表明确保数学逻辑一致性和问题完整性仍然是自动化问题创造的主要瓶颈。
研究团队还通过具体案例展示了代码驱动探索的威力。以一个关于随机变量的概率问题为例,原问题要求证明在特定约束条件下,四次中心矩的上界是1/16。而进化后的问题则要求对于给定的参数μ,确定四次中心矩E[(X-μ)^4]的最大可能值,并证明这个最大值通过一个支撑在最多三个点上的分布来实现。
这种演化不仅仅是简单的数值放大或条件复杂化,而是从证明一个固定上界的任务转变为刻画整个极值分布族的任务。解决演化后的问题需要认识到在矩约束下的极值是由离散分布实现的,这需要从矩理论和多项式逼近的深层知识出发,而不是依赖直接的界限技巧。
研究团队通过代币消耗分析进一步证实了问题复杂性确实得到了提升。演化后的问题迫使求解模型脱离高效的基于检索的解决路径,需要进行更广泛的测试时间计算来弥补推理差距。这种代币使用量的显著增加(从原问题的平均9606个代币增加到演化问题的12726-17277个代币)serves as定量证据,表明难度增加源于结构性的推理步骤扩展,而非表面复杂性。
整个研究最令人兴奋的地方在于,它为数学教育和AI训练开辟了新的可能性。传统上,创造高质量的数学问题需要资深数学教育专家的参与,这个过程不仅耗时费力,而且难以大规模复制。而这个代码驱动的系统提供了一种可扩展的替代方案,能够自动生成大量高质量、多样化的数学问题。
这种自动化问题生成技术可能会彻底改变数学教育的面貌。教师可以根据学生的具体需求和水平,快速生成针对性的练习题。AI辅导系统可以实时调整问题难度,为每个学生提供个性化的学习挑战。更重要的是,这种技术可能会加速AI数学推理能力的发展,通过提供源源不断的新鲜、困难的训练素材。
当然,这项研究也面临一些局限性。虽然代码执行能够实现局部验证和结构性探索,但更系统的结构合成机制仍然有待探索。此外,这种方法的计算开销相对较高,平衡探索效率和难度提升之间的关系仍是一个需要进一步研究的问题。
研究团队指出,未来的工作可能会集中在提高迭代效率、增强可解性保证,以及评估类似的探索性策略是否能够推广到数学推理之外的其他结构化推理领域。总体而言,可执行探索似乎是结构化推理领域中自主难度升级的一个可行方向。
说到底,这项研究展示了一种全新的思考方式:不是简单地让AI解决人类出的题目,而是让AI学会提出更好的问题。在某种意义上,提出好问题可能比解决问题更加困难,也更加重要。正如爱因斯坦曾经说过的,"提出一个问题往往比解决一个问题更重要,因为解决问题也许仅是一个数学上或实验上的技能而已,而提出新的问题、新的可能性,从新的角度看旧的问题,却需要有创造性的想象力。"
这个代码驱动的数学问题进化系统,或许正是AI系统获得这种"创造性想象力"的重要一步。它不仅为当前的AI训练提供了实用的解决方案,更重要的是为我们理解和发展AI的创造性能力提供了新的视角和工具。
Q&A
Q1:代码驱动数学问题进化系统是如何工作的?
A:这个系统类似一个三人专家小组的协作。第一位"进化代理"分析原问题的核心难点并设计更具挑战性的新变体,第二位"可解性验证代理"确保新问题在数学上正确且可解,第三位"难度验证代理"评估新问题是否真的比原问题更有挑战性。整个过程中,AI代理可以编写和运行Python代码来进行数学实验和验证。
Q2:这种自动生成的数学问题质量如何?
A:实验结果显示质量很高。以DeepSeek-Reasoner为例,它创造的问题中有96%都是数学上正确且可解的。更重要的是,这些AI模型能够创造出连它们自己都解决不了的难题,显示出了"能力不对称"现象。生成的问题确实比原问题更难,需要求解模型消耗更多计算资源和推理步骤。
Q3:这项技术对普通人有什么实际意义?
A:这项技术可能会彻底改变数学教育。教师可以根据学生水平快速生成个性化练习题,AI辅导系统可以实时调整问题难度为每个学生提供合适的学习挑战。同时,这种技术为AI数学推理能力的发展提供了源源不断的训练素材,可能加速AI在数学领域的进步。





京公网安备 11011402013531号