这项由阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)的研究团队,包括Zayd M. K. Zuhri、Erland Hilman Fuadi和Alham Fikri Aji在2025年8月发表的研究,提出了一种名为"令牌顺序预测"(Token Order Prediction, TOP)的全新训练方法。有兴趣深入了解的读者可以通过论文链接https://github.com/zaydzuhri/token-order-prediction访问完整研究成果。
当我们使用ChatGPT或其他AI聊天工具时,它们背后的工作原理就像一个超级厉害的"接龙游戏"选手。给定前面的文字,AI需要猜测下一个最合适的词是什么。这种训练方式被称为"下一个词预测",就好比你在玩填空游戏,必须准确填出空白处的那个词。
然而,研究人员发现这种方法有些局限性。为了让AI表现更好,他们尝试了一种叫做"多令牌预测"的方法,这就像让AI不仅要猜下一个词,还要同时猜出后面的第二个、第三个、第四个词。这听起来很厉害,但实际使用中效果并不稳定,有时候反而会让AI的表现变差。
研究团队通过深入分析发现了问题所在。他们训练了一个小型AI模型,让它同时预测未来16个位置的词汇,然后观察训练过程。结果就像爬楼梯一样,预测距离越远的词,难度就呈阶梯式上升。预测紧接着的下一个词相对容易,但要准确预测第10个或第16个位置的词就变得极其困难,训练效果也明显下降。这就好比让你站在一个路口,不仅要猜测下一个路口会遇到什么,还要精确预测10个路口后会发生什么事情,显然后者的难度要大得多。
基于这个发现,研究团队提出了一个巧妙的解决方案:既然精确预测很困难,为什么不让AI学会"排序"呢?他们开发了令牌顺序预测方法,这种方法不要求AI准确说出下一个词是什么,而是让它对所有可能的词按照"出现的先后顺序"进行排列。
这个想法的巧妙之处在于,它将一个极其困难的精确预测任务转换成了一个相对容易的排序任务。就像你在图书馆整理书籍时,虽然你可能不知道读者下一本要借的确切书名,但你可以根据书籍的热门程度和相关性,大致排出哪些书更可能被先借走。这种排序能力虽然不如精确预测那么"神奇",但却更实用、更容易掌握。
具体来说,令牌顺序预测的工作机制是这样的:对于每个位置的词汇,AI需要查看后续一定范围内的文本内容,然后为词汇表中的每个词分配一个"接近度分数"。离当前位置越近的词汇得分越高,越远的得分越低。这就像制作一个"出场顺序表",按照词汇在后续文本中出现的先后顺序给它们排名。
研究团队采用了一种来自"学习排序"领域的数学方法来训练这个系统。这种方法不像传统的分类那样要求给出唯一正确答案,而是允许AI给出一个"软性"的排序结果,就像评委为选手打分一样,可以给出连续的分数而不是简单的"对"或"错"。
在技术实现上,令牌顺序预测比多令牌预测要简单得多。多令牌预测需要为每个要预测的未来位置都添加一个完整的变换器层,就像在原有的AI"大脑"上接上好几个额外的"处理单元"。而令牌顺序预测只需要添加一个简单的输出层,就像在现有系统上加装一个"排序器"。这种设计不仅节省了计算资源,还让整个系统更容易维护和升级。
为了验证这个想法的有效性,研究团队进行了大规模的对比实验。他们分别训练了三种不同规模的AI模型:包含3.4亿参数的小型模型、18亿参数的中型模型,以及70亿参数的大型模型。每种规模都分别用传统的下一词预测、多令牌预测,以及他们提出的令牌顺序预测方法进行训练。
实验的训练数据来自FineWeb-Edu数据集的子集,这是一个经过精心筛选的高质量文本集合。小型模型使用了520亿个词汇进行训练,而中型和大型模型则使用了1040亿个词汇。训练过程就像让不同规模的学生用不同的学习方法来掌握语言知识,然后比较他们在各项测试中的表现。
测试环节包括了八个标准的自然语言处理任务,涵盖了阅读理解、常识推理、科学问答等多个方面。这些测试就像给AI学生安排了语文、数学、科学等不同科目的综合考试,全面评估它们的语言理解和推理能力。
实验结果让人印象深刻。在大多数测试任务中,使用令牌顺序预测训练的模型都表现出了更好的性能。特别是在大型模型上,这种优势更加明显。例如,在TriviaQA这个常识问答测试中,70亿参数的令牌顺序预测模型比传统方法训练的模型提高了6.63个百分点,这是一个相当显著的改进。
有趣的是,研究团队还发现了一个意外现象:虽然使用令牌顺序预测的模型在训练时的损失值稍高一些,但它们在实际测试中的表现却更好。这就像一个学生在练习时可能错误稍多,但在正式考试中反而发挥更好。研究人员认为这可能是因为令牌顺序预测起到了某种"正则化"的作用,类似于给AI增加了适度的"学习难度",反而帮助它避免了过度拟合,提高了泛化能力。
与多令牌预测相比,令牌顺序预测在小规模模型上也展现出了更好的适应性。研究结果显示,多令牌预测往往需要模型达到一定规模(通常是10亿到30亿参数之间)才能显示出优势,而令牌顺序预测即使在3.4亿参数的小模型上也能带来改善。这对于资源有限的应用场景来说具有重要意义。
从实用角度来看,令牌顺序预测还有一个重要优势:它在推理时的表现与传统模型完全相同。训练完成后,额外的排序输出层可以被移除,模型就变回了标准的变换器结构。这意味着采用这种训练方法不会增加部署时的计算负担,也不会影响推理速度。
研究团队还对比了他们的方法与最近其他改进尝试的效果。结果显示,即使是像DeepSeek-V3这样只预测未来两个词的简化版多令牌预测,在一般任务上的效果也不如令牌顺序预测稳定。这进一步证实了他们的核心观点:相比于追求精确的多步预测,学会合理的顺序排列是一个更可行、更有效的改进方向。
值得注意的是,这项研究还为AI训练领域带来了一个重要的方法论启示:有时候降低任务难度反而能获得更好的效果。这种"以退为进"的思路在其他领域也有类似的应用,比如在教育中,循序渐进的学习往往比一步到位更有效。
从技术实现角度,研究团队还开发了一个高效的计算内核,能够在训练过程中实时生成令牌顺序预测的目标序列,几乎不增加额外的计算开销。这种优化确保了新方法在实际应用中的可行性。
这项研究的意义不仅仅在于提出了一种新的训练方法,更重要的是它展示了重新思考基础问题的价值。当多令牌预测这种看似更强大的方法遇到瓶颈时,研究人员没有沿着"更多预测步数"的路线继续前进,而是转换思路,寻找到了一个更巧妙的解决方案。
目前这项研究还处于早期阶段,研究团队计划在未来版本中加入更多的实验内容,包括与DeepSeek-V3版本的多令牌预测进行对比,在生成性任务如代码编写和文本总结上的测试,以及对一些特定合成任务的评估。这些后续工作将进一步验证令牌顺序预测在更广泛应用场景中的潜力。
说到底,这项研究告诉我们一个简单而深刻的道理:在AI的世界里,有时候"聪明"并不意味着要做最困难的事情,而是要找到最合适的方法。令牌顺序预测虽然放弃了精确预测未来的"神通",但却获得了更好的实际效果,这种务实的智慧值得我们在解决其他复杂问题时借鉴。对于普通人来说,这意味着我们日常使用的AI助手可能会变得更加准确和可靠,而这种改进来自的不是更复杂的技术,而是更聪明的训练策略。有兴趣了解更多技术细节的读者可以访问研究团队提供的开源代码和完整论文。
Q&A
Q1:令牌顺序预测和传统的下一词预测有什么区别?
A:传统方法像填空游戏,必须准确猜出下一个词是什么。令牌顺序预测则像制作"出场顺序表",让AI对所有可能的词按出现先后顺序排列,不需要精确猜测,但能获得更好的整体效果。
Q2:为什么令牌顺序预测比多令牌预测效果更好?
A:多令牌预测要求AI同时准确预测好几个未来位置的词,就像让人精确预测10个路口后会发生什么,难度太大导致训练效果差。令牌顺序预测只需要排序,难度适中,反而让AI学得更好。
Q3:这种新方法会让AI运行变慢吗?
A:不会。训练时虽然需要额外的排序模块,但训练完成后这个模块可以移除,最终的AI模型与传统模型完全相同,运行速度和资源消耗都没有增加。