![]()
这项由香港大学和抖音联合开展的突破性研究发表于2026年2月的预印本论文中,论文编号为arXiv:2602.04289v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
在人工智能的世界里,训练语言模型就像是在教一个孩子学会理解和使用语言。传统的做法有点像这样:要么给孩子吃"压缩饼干"(经过特殊处理的简化文本),训练起来很快但会丢失一些细节;要么给孩子吃"原生态食物"(完整的原始文本),保留了所有营养但消化起来特别慢。香港大学的研究团队发现了一个巧妙的解决方案,让AI模型既能享受压缩训练的高效,又能在实际使用时保持对原始信息的完美理解。
这个发现为什么如此重要呢?当前几乎所有的语言AI系统都依赖于一种叫做"分词器"的工具,它把原始文本切分成更小的单元进行处理。这就像是用特殊的刀具把食材切成标准块状,虽然便于烹饪,但一旦选定了切法,整个烹饪过程都被这种切法所束缚。如果刀具有问题或者不适合某些食材,做出来的菜品质量就会受影响。更麻烦的是,这套切菜工具会带来各种意想不到的问题,比如对某些语言不友好,容易被恶意攻击利用,或者在处理边界情况时出现奇怪的行为。
研究团队提出的"代理压缩"方法就像是训练一个全能厨师。在学习阶段,这个厨师既练习使用切好的标准食材(压缩格式),也练习处理完整的原生食材(原始字节)。通过这种混合训练,厨师学会了在两种形式之间建立内在联系。等到真正做菜的时候,即使只给他原生食材,他也能凭借之前的训练经验做出美味佳肴。关键是,虽然90%的训练时间都在使用标准切块食材,但厨师在处理原生食材时的表现却出乎意料地优秀。
研究团队设计了一套精巧的训练流程。他们把训练数据分成两个流:一个是经过各种压缩处理的"快车道",另一个是保持原始状态的"慢车道"。在训练过程中,AI模型主要在快车道上学习,偶尔切换到慢车道体验一下原始数据的感觉。这种设计让模型在大脑中建立起两种数据格式之间的对应关系,就像学会了两种语言之间的翻译能力。
更令人惊喜的是,这种能力随着模型规模的增大而显著增强。小型模型在这种训练方式下表现平平,但大型模型却展现出了惊人的跨格式理解能力。在一些测试中,主要接受压缩数据训练的大型模型,在处理原始数据时的表现甚至能够匹敌甚至超越传统的专门针对分词数据训练的模型。这就像是一个主要练习简化版乐谱的音乐家,最终却能完美演奏复杂的原版作品。
研究团队还深入探索了什么样的压缩方法最适合做"代理"。他们测试了三种不同的压缩方式:传统的分词压缩、基于神经网络的智能压缩,以及常见的文件压缩工具gzip。结果发现,前两种方法效果卓越,而gzip却表现糟糕。这是因为好的代理压缩需要具备一种特质:相似的输入应该产生相似的输出,而且输出要保持语义的稳定性。传统分词和神经压缩都具备这种特质,而gzip的输出对微小变化过于敏感,就像一个神经质的翻译官,稍有风吹草动就完全改变翻译结果。
在实际应用测试中,研究团队使用了编程任务作为验证场景。结果显示,采用代理压缩训练的模型在各种编程挑战中都表现出色。更重要的是,这些模型继承了处理原始数据模型的一个宝贵特质:抗干扰能力强。当输入中包含格式变化、空格调整或其他细微修改时,传统的分词模型可能会出现性能大幅下降,而代理压缩训练的模型却能保持稳定的表现。
这项研究还揭示了一个有趣的现象:模型能够在上下文中进行"即时翻译"。当同时给模型提供压缩版本和原始版本的相同内容时,模型能够学会在两者之间建立精确的对应关系。在某些设置下,这种翻译准确率甚至能达到95%以上,几乎做到了完美转换。
从计算效率的角度来看,代理压缩实现了一种理想的平衡。在相同的计算资源下,它的表现接近传统的高效分词模型;而在相同的数据量下,它保持了原始字节模型的数据利用效率,同时显著超越了分词模型。这意味着研究人员不再需要在训练效率和模型能力之间做艰难抉择。
研究的技术实现也充满巧思。对于神经压缩方法,团队开发了一套基于信息熵的分段策略,能够并行处理大规模数据,将处理速度提升了100多倍。对于传统分词,他们探索了多种编码方式,最终发现直接使用分词索引是最优选择。整个训练过程使用特殊的标记符号来区分不同格式的数据,让模型能够清楚地知道当前处理的是哪种类型的信息。
在更大规模的实验中,研究团队使用了包含数TB代码数据的超大型语料库进行验证。即使在这种规模下,代理压缩的优势依然明显。经过更长时间训练的大型模型不仅保持了跨格式的优秀转换能力,还在实际编程任务中展现出与最先进的专业模型相匹敌的性能。
这项研究的意义远不止于技术突破。它为AI系统的设计开辟了新的思路:我们不必被单一的数据表示方法所束缚,而可以在训练阶段灵活运用多种格式,在部署阶段回归最自然、最通用的表示方式。这种思路可能会影响未来AI系统的整体架构设计。
当然,这项研究也有一些限制。目前的验证主要集中在代码生成领域,在其他类型的文本处理任务中是否同样有效还需要进一步验证。另外,虽然代理压缩在大型模型上效果显著,但对于资源受限的小型模型,如何优化这种训练方式还有待探索。
归根结底,香港大学团队的这项发现为AI语言模型的训练提供了一个全新的视角。他们证明了通过巧妙的训练策略,我们可以让AI模型获得比传统方法更强的适应性和鲁棒性,同时不牺牲训练效率。这种"既要又要"的完美平衡,为未来更加智能、更加通用的AI系统奠定了重要基础。对于AI研究领域来说,这不仅是一个技术进步,更是一种思维方式的革新,它告诉我们:有时候最好的解决方案不是在两个极端中选择一个,而是找到一种巧妙的方式把两者的优势结合起来。
Q&A
Q1:什么是代理压缩训练方法?
A:代理压缩是一种AI模型训练新方法,同时使用压缩数据和原始数据进行训练。训练时90%使用压缩数据(提高效率),10%使用原始字节数据,让模型学会两种格式之间的对应关系。最终部署时只使用原始字节,但保持了压缩训练的效率优势。
Q2:为什么代理压缩比传统分词方法更好?
A:传统分词方法会产生各种问题,如对某些语言不友好、容易被攻击、边界处理异常等。代理压缩训练的模型在推理时直接处理原始字节,避免了这些问题,同时保持了抗干扰能力强的特点,在格式变化时性能更稳定。
Q3:代理压缩适用于什么规模的AI模型?
A:研究显示代理压缩的效果随模型规模增大而显著提升。小型模型效果一般,但大型模型(如14B参数)表现优秀,甚至能匹敌传统分词模型。这是因为大型模型有更强的能力学习跨格式对应关系。





京公网安备 11011402013531号