当前位置: 首页 » 资讯 » 新科技 » 正文

李海大学等五所高校联手:AI能否像老师一样看懂学生的错误思路?

IP属地 中国·北京 科技行者 时间:2026-04-07 22:46:11


这项由李海大学、松鼠AI学习、中科院自动化所、密歇根州立大学等五所知名院校联合完成的研究发表于2026年3月的arXiv预印本平台(编号:arXiv:2603.24961v1),首次深入探讨了多模态大型语言模型在理解学生手写数学作业错误方面的能力。有兴趣深入了解的读者可以通过该编号查询完整论文。

想象一下这样的场景:孩子做数学作业时写满了草稿纸,有划掉的算式、涂改的数字,还有各种奇怪的计算步骤。作为家长,你可能看不懂孩子到底哪里算错了,但经验丰富的数学老师却能一眼看出问题所在,不仅知道答案错在哪里,还能准确判断孩子的思维误区。如今,研究人员想要让人工智能也具备这种"火眼金睛"的能力。

目前的AI大多像考试机器一样,只关心答案对不对,却看不懂学生的解题思路。这就好比一个只会判断菜品最终味道的机器人,却无法理解厨师在烹饪过程中哪一步出了问题。而这项研究要做的,就是教会AI像经验丰富的数学老师那样,不仅能看出学生答案的对错,还能理解学生在解题过程中的思维轨迹,准确诊断出错误的根本原因。

研究团队构建了一个名为ScratchMath的全新测试平台,这就像为AI老师准备了一套标准化的"诊断考试"。他们收集了1720份来自中国小学和中学生的真实数学草稿作业,涵盖从一年级到九年级的各个年龄段。这些作业包含了五大数学领域的题目,从基础的数字运算到复杂的几何问题,从简单的应用题到抽象的函数方程。

更有趣的是,研究团队还定义了七种不同类型的学生错误模式。就像医生诊断疾病需要分类一样,学生的数学错误也有不同的"病因"。有些是计算错误,就像做菜时盐放多了;有些是理解错误,就像把菜谱看错了;还有些是逻辑错误,就像炒菜的顺序搞反了。通过这种详细分类,AI就能更精确地定位问题所在。

当研究团队用这套测试平台评估16个目前最先进的AI模型时,结果令人深思。即使是最强大的AI,在理解学生错误方面的表现也远不如人类老师。这就好比让一个从未做过饭的机器人去判断厨师的烹饪错误,虽然它可能知道很多烹饪理论,但在实际应用中却经常抓不住要点。

一、破译手写密码:AI面临的第一道难题

当我们看到孩子潦草的数学草稿时,经常会发现这样的现象:数字"1"可能写得像字母"l",分数线有时候倾斜得厉害,有些算式被涂改得面目全非。对人类老师来说,这些"乱码"般的符号经过训练和经验积累是可以理解的,但对AI来说,这却是第一道巨大的障碍。

研究团队发现,目前的AI模型在处理手写数学符号时,就像一个近视眼试图阅读远处的路牌。举个具体例子,当学生在计算4÷35时,由于不熟练小数除法,可能在计算过程中错误地移动了小数点位置,将商0.11误写成11,但由于某种计算混乱,最终得出了8.75这个相距甚远的错误答案。人类老师能够通过观察整个计算过程,理解学生的思维轨迹,判断出这主要反映了学生在小数计算技能方面的薄弱。但AI模型往往无法准确识别这些手写符号的细微差别,更难以追踪整个计算过程中的逻辑变化。

更复杂的情况出现在格式理解方面。数学草稿不像打字文档那样整齐划一,学生可能在纸上随意画圈、划线、添加注释。这就像在一张凌乱的地图上寻找正确路线,人类老师凭借经验能够识别出哪些是正式计算步骤,哪些是草稿涂鸦,但AI往往会被这些"噪音"干扰,无法正确理解学生的真实意图。

研究结果显示,即使是表现最好的AI模型,在视觉识别方面的错误率也高达36%。这意味着超过三分之一的情况下,AI连学生写了什么都看不清楚,更别说理解其中的错误逻辑了。这就好比让一个视力模糊的人去当裁判,即使规则烂熟于心,也难以做出准确判断。

二、从表象到本质:错误分类的精妙艺术

当AI勉强识别出学生的手写内容后,接下来面临的是更大的挑战:理解错误的本质。这就像中医诊断一样,同样是头痛,可能是风寒、风热、血虚等不同原因造成的,需要不同的治疗方法。

研究团队将学生的数学错误细分为七大类型,每一类都反映了不同的认知问题。程序性错误就像按错了操作步骤,明明知道方法,但执行时出现了纰漏。计算错误则更像是在具体运算时出现的失误,可能是简单的加减乘除搞错了。逻辑推理错误最为复杂,就像下棋时战略思路出现了偏差,看起来每一步都合理,但整体逻辑存在漏洞。

抄写错误听起来简单,但在数学中却经常发生,学生可能把题目中的数字抄错,或者在计算过程中把中间结果抄错。题目理解错误则是从源头就出了问题,就像把食谱理解错了,后面的所有操作都是徒劳。概念知识错误反映了学生对基本数学概念的误解,而注意细节错误则是由于粗心大意造成的疏漏。

研究发现,不同年龄段的学生呈现出不同的错误模式。小学生最常见的是题目理解错误和计算错误,占了约70%的比例,这就像刚学做菜的新手,经常搞不清楚菜谱要求或者火候掌握不好。而中学生则更多表现为计算错误和概念知识错误,反映了他们在面对更复杂数学概念时的困惑。

有趣的是,AI在识别这些不同类型错误时的表现差异很大。对于程序性错误和抄写错误,AI的识别准确率相对较高,因为这些错误通常有比较明显的外在表现。但对于逻辑推理错误和计算错误,AI的表现就相对较差,因为这需要更深层的思维理解能力。

三、思维追踪:AI能否读懂学生的心思

如果说识别手写符号是AI面临的技术挑战,那么理解学生的思维过程就是更深层的认知挑战。这就像侦探破案,不仅要看到犯罪现场,还要推理出整个作案过程。

以一道实际案例来说明这个挑战的复杂性。题目问的是:"小明用了4分钟做了35道计算题,平均每做一道题大约要用多少分钟?"正确答案应该是4÷35≈0.11分钟。但有学生给出了8.75这个答案。人类老师能够通过观察学生的草稿,发现学生错误地将除法运算颠倒了,用35除以4而不是4除以35,这反映了学生对"平均时间"概念的理解错误。

AI在处理这类问题时经常出现"对症下药"的困难。它可能能够识别出答案是错误的,甚至能够指出正确的计算方法,但却无法准确诊断学生思维过程中的具体问题。这就像一个只会背医书的实习医生,能够说出所有可能的病症,但无法根据具体症状做出精准诊断。

研究团队对100个AI失败案例进行了详细分析,发现了几种典型的错误模式。最常见的是"过度推理",AI往往会编造一些学生实际上并没有犯的错误,就像一个过度紧张的家长,看到孩子咳嗽就怀疑得了重病。另一种常见错误是"表面化诊断",AI只能看到最终的错误结果,却无法追溯到错误的根本原因,就像只能看到树叶变黄,却不知道是缺水还是病虫害造成的。

更有趣的是,AI在处理不同难度问题时表现出了意想不到的差异。对于小学低年级的简单题目,AI的表现反而不如处理中学复杂题目时的表现。这可能是因为小学生的手写更加潦草不规范,而且他们的解题思路往往更加直观和跳跃,缺乏中学生那种相对规范的步骤展示。

四、数据背后的故事:1720份真实作业的启示

这项研究的独特之处在于使用了真实的学生作业,而不是人工构造的测试数据。研究团队从中国的在线教育平台收集了1720份数学作业,这些作业来自小学一年级到中学九年级的学生,覆盖了数字与表达式、方程与函数、几何与测量、应用数学、统计与概率五大数学领域。

收集这些数据就像考古发掘一样,需要层层筛选和精心处理。研究团队首先从约110万份作业中筛选出质量较好的样本,去除了模糊不清、信息不完整的作业。然后通过多样性采样,确保每种错误类型都有足够的代表性,避免某些特定错误类型过度集中。这个过程最终筛选出约3400道不同的题目。

为了确保数据标注的准确性,研究团队采用了人机协作的方式。他们先让AI对每份作业进行初步分析,给出错误原因的初步判断,然后由五位具有三年以上教学经验的专业数学老师进行人工审核和修正。这个过程就像医院的会诊制度,先由初级医生给出初步诊断,再由资深专家进行最终确认。

有趣的是,不同年龄段学生的错误分布呈现出明显的特点。小学阶段,题目理解错误占33.7%,计算错误占30.6%,这两类错误就占了总数的近65%。这反映了小学生在基础理解和计算技能方面还有待提高。而到了中学阶段,计算错误的比例上升到46.9%,概念知识错误占18.7%,这说明随着数学内容难度增加,学生在具体运算和概念理解方面面临更大挑战。

标注过程中的一个重要发现是,人类专家之间的一致性达到了90%以上,这说明在大多数情况下,经验丰富的老师对学生错误的判断是高度一致的。但仍有约10%的案例存在分歧,主要集中在一些边界性错误上,比如某个错误到底属于计算错误还是概念理解错误。

五、AI大比拼:16个模型的表现如何

研究团队选择了16个目前最先进的多模态大语言模型进行测试,这就像举办了一场"AI教师大赛",看看谁最接近人类老师的水平。参赛选手包括了业界知名的模型,从开源的Qwen2.5-VL、DeepSeek-VL2,到商业化的GPT-4o、Gemini 2.0 Flash等。

测试结果可以说是喜忧参半。在错误原因解释任务中,表现最好的o4-mini模型在小学题目上达到了71.8%的准确率,在中学题目上达到了69.7%的准确率。这听起来不错,但要知道,人类老师在同样任务上的表现是89.3%(小学)和86.2%(中学)。换句话说,即使是最先进的AI,在理解学生错误方面仍然比人类老师差了近20个百分点。

更令人意外的是,在错误分类任务中,AI的表现更加不尽如人意。最好的模型准确率只有40%左右,而人类老师能达到78%-82%的准确率。这就像让一个半吊子医生进行疾病诊断,虽然能说出一些症状,但在精确分类方面还差得很远。

不同类型AI模型的表现也呈现出有趣的差异。商业化模型普遍优于开源模型,这可能是因为商业模型在训练数据和算力投入方面具有优势。推理型模型在解释任务中表现尤为突出,这说明复杂的推理能力对于理解学生思维过程确实有帮助。

令人困惑的一个现象是,AI在处理小学题目时的表现有时反而不如处理中学题目。按理说,小学数学更简单,AI应该表现更好才对。但实际情况恰恰相反,特别是在错误分类任务中。研究团队分析认为,这可能是因为小学生的手写更加潦草不规范,而且他们的解题过程往往缺乏明确的步骤结构,这些都增加了AI理解的难度。

六、失败案例解剖:AI到底错在哪里

为了深入了解AI的局限性,研究团队仔细分析了100个最先进AI模型的失败案例,这就像进行"医疗事故分析",找出问题的根源。

最常见的问题是视觉识别失败,占了36%的比例。这就像近视眼医生给病人看病,连基本的症状都看不清楚。比如,学生在计算过程中写的"-3÷(-6)=1/2",AI可能误读成其他符号组合,导致完全理解错误。这种错误往往源于学生手写的不规范性,特别是数学符号的书写变形。

第二常见的是格式误解,占15%。学生的数学草稿往往不像教科书那样工整,可能包含各种圈画、箭头、修改痕迹。AI在处理这些"非标准"格式时经常出错,就像一个只习惯看印刷体的人突然面对草书一样手足无措。比如,当学生在方程求解中写出了多个步骤,但用箭头和圈画标注重点时,AI往往无法正确理解学生的意图。

幻觉现象也是一个重要问题,占16%。AI有时会"编造"一些学生实际上并未犯的错误,这就像一个过度紧张的家长,看到孩子轻微咳嗽就怀疑得了肺炎。比如,对于一道简单的砖块重量计算题,学生的错误可能只是单位换算问题,但AI却编造出复杂的小数点移动错误解释。

错位解读也是常见问题,占17%。AI经常无法准确重构学生的推理过程,就像试图从破碎的拼图片段还原完整图案,但却拼错了顺序。这种错误反映了AI在逻辑推理方面的不足,它能看到表面现象,但难以深入理解背后的思维逻辑。

有趣的是,当研究团队分析规模较小的开源模型时,发现了额外的错误类型。这些模型不仅存在上述问题,还出现了17%的"模型计算错误",即AI自己的计算能力都有问题,这就像让一个数学不好的人去当数学老师一样。

七、不同数学领域的挑战差异

研究团队还发现,AI在处理不同数学领域题目时表现出显著差异,这就像不同科室的医生在各自专业领域的诊断能力不同。

在几何与测量领域,AI的表现相对较好,特别是在处理面积、周长、体积等具有明确计算步骤的问题时。这可能是因为几何题目往往有标准化的解题程序,而且学生的错误类型相对有限,主要集中在公式应用和计算精度上。

方程与函数领域对AI来说是最大的挑战。这类题目往往需要多步骤的逻辑推理,学生的解题过程可能包含复杂的代数变换。AI在追踪这些变换步骤,特别是识别其中的逻辑错误时,表现相对较差。这就像要求AI理解一个复杂的侦探推理过程,需要综合考虑多个线索的关联性。

应用数学题目呈现出有趣的两极分化现象。对于结构化程度较高的应用题,比如速度、时间、距离的关系计算,AI表现尚可。但对于开放性较强的实际问题,比如需要建模和假设的情境题,AI就经常陷入困境。这反映了AI在处理真实世界复杂性时的局限性。

统计与概率题目虽然在数据集中占比不高,但AI的表现却出人意料地好。这可能是因为统计题目往往有相对标准化的分析步骤,而且学生的错误类型主要集中在概念理解和公式应用上,这些都是AI相对容易识别的错误类型。

八、年级差异揭示的认知模式

研究结果还揭示了一个有趣现象:AI在不同年级学生作业上的表现呈现出复杂的变化趋势,这为我们理解AI的认知模式提供了独特视角。

在错误解释任务中,AI的表现随着年级增加而略有下降。从一年级到九年级,AI的准确率呈现出缓慢的下降趋势。这个现象初看令人困惑,因为高年级学生的作业虽然难度更大,但他们的表达通常更加规范和清晰。研究团队分析认为,这可能是因为高年级题目的复杂性超出了AI的理解能力边界,即使表达清晰,AI也难以把握其中的精妙逻辑关系。

但在错误分类任务中,情况却截然相反。AI的表现随着年级增加而显著提升,这个趋势非常明显。从小学低年级的30%左右准确率,到中学高年级的接近50%准确率,提升幅度相当可观。这种差异背后的原因很有启发性:高年级学生的解题过程更加规范化和结构化,他们使用的数学符号更加标准,解题步骤更加清晰,这些都降低了AI识别和分类的难度。

这种年级差异现象就像观察不同年龄段孩子的表达方式。小学生可能用更直观、跳跃的方式思考问题,他们的草稿纸上充满了各种涂改和非正式记录,这对AI来说就像解读一种"方言"。而中学生已经形成了相对标准化的数学表达习惯,他们的作业更像是"普通话",AI理解起来相对容易。

有趣的是,这种差异在不同类型的AI模型中表现一致,无论是商业化的高端模型还是开源的基础模型,都呈现出相似的趋势。这说明这种现象反映的是AI处理数学理解任务时的固有特征,而不是某个特定模型的局限性。

九、商业化模型与开源模型的较量

在这场AI教师能力比拼中,商业化模型和开源模型之间的差距令人印象深刻,这种差距就像专业培训的老师与自学成才的志愿者之间的能力差异。

以最具代表性的对比来看,商业化模型中表现最好的o4-mini在错误解释任务中达到了70%以上的准确率,而开源模型中表现最好的QVQ只达到了57%左右。这个差距看似不大,但在实际应用中却意义重大。这就像考试成绩从70分提升到85分,虽然数字差距不大,但反映的能力水平却有质的区别。

更显著的差距体现在错误分类任务中。商业化模型普遍能达到40%-50%的准确率,而开源模型大多停留在30%以下。这种差距的背后反映了训练数据质量、算力投入、模型优化等多个维度的综合差异。

有趣的是,推理型模型在这个测试中表现出了特殊的优势。无论是商业化的o4-mini和Gemini 2.0 Flash Thinking,还是开源的QVQ和Skywork-R1V,这些专门强化推理能力的模型在错误解释任务中都表现突出。这说明理解学生错误确实需要深度的逻辑推理能力,而不仅仅是模式识别。

但也有例外情况。在某些特定类型的错误识别上,一些开源模型表现出了令人意外的专长。比如Skywork-R1V在统计与概率题目上的表现甚至超过了一些商业化模型,这可能反映了其训练数据在这一领域的特殊优势。

规模效应在这个测试中也得到了验证。从7B参数的小模型到90B参数的大模型,性能提升趋势明显。但这种提升并非线性的,在某个临界点之后,单纯增加参数规模的效果开始边际递减,这提醒我们模型优化需要更加精细化的策略。

十、实际应用的前景与挑战

尽管当前AI在理解学生数学错误方面还存在明显不足,但这项研究为未来的教育AI应用指明了方向。就像早期的汽车虽然跑不过马车,但最终改变了整个交通体系一样,AI教师助手的发展也可能带来教育方式的深刻变革。

在实际课堂应用中,AI可以作为老师的有力助手,特别是在处理大量作业批改的场景中。一个班级30-40个学生,每次作业都需要逐一诊断错误原因,这对老师来说是巨大的工作量。如果AI能够承担初步筛查的工作,识别出明显的错误类型,老师就可以将更多精力投入到复杂案例的深度分析上。

个性化教育是另一个重要的应用前景。每个学生都有自己独特的思维模式和易错点,传统教育往往采用"一刀切"的方式,难以针对个体差异进行精准帮助。AI如果能够准确识别和分类学生错误,就可以为每个学生生成个性化的错题分析报告,帮助他们更有针对性地改进。

远程教育和在线学习也是AI教师助手的重要应用场景。在缺乏面对面指导的情况下,学生往往不知道自己的错误出在哪里,更不知道如何改进。智能错误诊断系统可以为他们提供即时反馈,就像随时在线的虚拟老师。

但挑战同样明显。技术层面上,手写识别的准确性仍需大幅提升,特别是在处理不规范手写和复杂布局方面。算法层面上,AI需要具备更强的逻辑推理能力,能够理解多步骤的数学思维过程。

更深层的挑战在于教育理念的平衡。过度依赖AI可能会削弱师生之间的人文交流,而这种交流对学生的心理成长和学习动机同样重要。如何在技术效率和人文关怀之间找到平衡点,是教育AI发展必须面对的问题。

说到底,这项研究揭示了一个重要现实:让AI真正理解人类的思维过程,远比我们想象的要复杂。学生的一份数学作业,看似简单的数字和符号,实际上承载着复杂的认知活动和个性化的思维轨迹。AI要想达到人类老师的水平,不仅需要技术突破,更需要对人类认知机制有更深入的理解。

但这也正是这项研究的价值所在。通过建立标准化的评估平台,提供高质量的真实数据,研究团队为整个AI教育领域提供了重要的基础设施。未来的研究者可以在此基础上继续改进,逐步缩小AI与人类老师之间的差距。

或许在不久的将来,AI真的能够像经验丰富的数学老师那样,不仅看懂学生的每一个计算步骤,还能准确判断思维误区,提供个性化的指导建议。到那时,每个孩子都可能拥有一位永远耐心、永远在线的AI老师,这无疑将为教育公平和质量提升带来革命性的改变。

Q&A

Q1:ScratchMath数据集包含了哪些内容?

A:ScratchMath包含1720份中国小学和中学生的真实数学草稿作业,覆盖一年级到九年级,涵盖数字与表达式、方程与函数、几何与测量、应用数学、统计与概率五大数学领域,每份作业都包含学生的手写解题过程和错误分类标注。

Q2:当前最先进的AI在理解学生数学错误方面表现如何?

A:即使是最好的AI模型,在错误原因解释任务中准确率约70%,而人类老师达到89%;在错误分类任务中AI准确率只有40%左右,人类老师能达到78%-82%。AI与人类老师之间仍有20个百分点左右的显著差距。

Q3:AI在分析学生数学错误时主要面临哪些困难?

A:AI面临三大主要困难:一是视觉识别失败,无法准确识别学生的手写符号和潦草字迹;二是格式误解,难以理解学生草稿中的各种涂改、圈画和非标准格式;三是逻辑推理不足,无法准确追踪学生的多步骤思维过程和错误根源。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。