![]()
这项由清华大学跨学科信息科学研究所、上海期智研究院和上海人工智能实验室的康梓霖、廖崇华、徐廷强、徐华哲等研究人员合作完成的研究,发表于2025年10月的arXiv预印本平台(论文编号:arXiv:2510.08549v1)。有兴趣深入了解的读者可以通过该编号查询完整论文。
在人工智能的世界里,有一个长期困扰研究者的问题,就像厨师在烹饪时既要保证菜品味道鲜美,又要保持食材的丰富性一样。AI系统在学习过程中,经常会遇到一个两难选择:要么过于专注于单一目标而失去探索新可能的能力,要么在探索中迷失方向而无法达成目标。这个问题在学术界被称为"熵坍塌",简单来说就是AI变得过于"专一",失去了尝试新事物的勇气。
清华大学的研究团队发现了一个优雅的解决方案,他们称之为"熵正则化激活"(ERA)。这个看似复杂的名字背后,隐藏着一个相当巧妙的思路。研究团队没有像以往那样在训练过程中直接告诉AI"你要保持探索精神",而是在AI的"决策输出端"安装了一个智能调节器,这个调节器能够自动确保AI始终保持足够的好奇心和探索欲望。
这项研究的突破性在于其普遍适用性。研究团队在三个完全不同的AI应用领域进行了测试:连续控制任务(如机器人行走)、大语言模型训练,以及图像分类。结果显示,ERA方法在所有这些领域都带来了显著改善,而且计算开销不到7%。这就像找到了一把万能钥匙,能够同时打开多扇不同的门。
一、AI探索与专注的平衡难题
要理解这项研究的重要性,我们需要先了解AI面临的一个基本挑战。设想一个正在学习走路的机器人,它需要在两个目标之间取得平衡:一方面要学会稳定地向前走(专注目标),另一方面也要尝试不同的步伐和姿态来发现更好的行走方式(保持探索)。如果机器人过于专注于某种特定的步伐,它可能永远学不会跑步或跳跃;但如果它总是在尝试新动作,又可能连基本的行走都掌握不好。
在传统的AI训练方法中,研究者通常采用"奖惩并举"的策略。他们会在AI的目标函数中添加一个"探索奖励",鼓励AI保持多样性。这就像在告诉厨师"做菜要好吃,同时也要尝试新的配料组合"。然而,这种方法存在一个根本问题:两个目标之间经常会发生冲突,AI不知道该优先满足哪一个。
清华研究团队观察到,这种传统方法就像试图同时追逐两只兔子,往往两只都抓不到。在强化学习中,添加熵奖励会改变原始的优化目标,可能干扰AI对主要任务的学习。在大语言模型训练中,这种方法更是经常导致训练不稳定,甚至完全失效。
研究团队发现,问题的根源在于现有方法要么会扭曲主要的优化目标,要么只能提供启发式的、针对特定领域的修补方案,缺乏理论保证。因此,迫切需要一种新的熵约束范式,既能普遍适用,又不会干扰主要目标,同时还要有坚实的理论基础。
二、ERA方法的核心创新
ERA方法的核心思想可以用一个生动的比喻来理解。传统方法就像在烹饪过程中不断提醒厨师"别忘了尝试新口味",而ERA则像是在厨师的调料架上安装了一个智能分配器,无论厨师想做什么菜,这个分配器都会自动确保调料的丰富性达到某个最低标准。
具体来说,ERA将熵约束直接嵌入到神经网络的激活函数中。激活函数是神经网络的重要组成部分,它决定了神经元如何将输入信号转换为输出信号。ERA设计了特殊的激活函数,应用到模型的最终输出层,这些函数能够自动确保输出分布的熵(即随机性和多样性的度量)始终保持在指定的阈值之上。
这种设计的巧妙之处在于,它将优化主要目标和维持探索性完全分离开来。AI可以专心致志地追求其主要目标(比如准确分类图像或正确回答问题),而ERA的激活函数会在后台自动维护必要的探索性。这就像给汽车安装了定速巡航系统,司机可以专注于导航和避障,而系统会自动维持合适的速度。
ERA的另一个重要特点是其理论保证。研究团队为ERA提供了严格的数学证明,确保在使用ERA的情况下,AI系统的策略熵始终不会低于预设的阈值。这种理论保证在以往的启发式方法中是缺失的,为ERA的可靠性提供了坚实的数学基础。
三、针对不同领域的精心设计
虽然ERA的核心理念是统一的,但研究团队深知不同AI应用领域有着不同的特点和挑战。因此,他们为三个主要应用领域设计了ERA的具体实现版本,每个版本都经过精心调校,以适应相应领域的特殊需求。
在连续控制领域,AI需要控制机器人或游戏角色的连续动作,比如机器人手臂的移动角度或自动驾驶汽车的转向幅度。这类任务的特点是动作空间是连续的,AI需要从无限多个可能的动作中选择。研究团队为这种情况设计的ERA版本,重点关注如何确保动作分布的标准差保持在合理范围内。
他们发现,对于常用的有界高斯策略(比如双曲正切压缩的高斯分布),最终策略的熵可以看作是原始高斯分布的熵减去边界操作引入的偏差项。基于这个洞察,ERA可以通过约束底层高斯分布的熵来满足最终策略的最小熵要求。这种方法通过调整高斯分布的标准差来实现,同时确保标准差保持在预定义的安全范围内。
在图像分类等离散领域,情况有所不同。这里AI需要从有限的几个类别中选择一个答案,比如判断图片中是猫还是狗。防止模型过度自信(即熵正则化)对于避免过拟合至关重要。研究团队为这种场景设计的ERA版本,通过变换预激活logits来实现熵约束。
他们的设计思路颇为巧妙:不直接输出各类别的概率,而是先输出每个类别在"缩放分布"中的熵值,然后通过逆函数映射回概率空间。为了解决逆函数的唯一性问题,他们引入了一个缩放因子,确保在特定范围内存在一对一的映射关系。最后通过归一化步骤确保概率和为1,同时理论证明表明这个过程中的熵损失是有界的。
对于大语言模型,挑战更加复杂。大语言模型需要处理极大的词汇表(通常包含几万到几十万个词),而且自然语言的特殊性质使得大多数token应该是近乎确定性的。研究团队意识到,如果对所有token都强制要求高熵,会导致生成无意义的文本。
因此,他们设计了一个更加精细的方案:ERA在采样完成后才介入,只对那些具有正优势(即被认为是好的选择)的回应进行调整。具体来说,他们关注每个回应中熵值最高的前20%token(这些通常是"分叉点",即真正需要探索的决策点),根据这些token的平均熵情况来决定是否需要调整。当熵太低时,ERA会锐化概率分布;当熵太高时,则会平滑分布。这种设计巧妙地平衡了保持语言连贯性和鼓励探索的需求。
四、令人瞩目的实验成果
研究团队在三个不同领域进行了广泛的实验验证,结果令人印象深刻。在连续控制任务中,他们将ERA集成到了五种不同的强化学习算法中,包括SAC、OBAC、TD-MPC2、PPO和FastSAC。测试环境涵盖了DeepMind控制套件、HumanoidBench和MuJoCo Gym等具有挑战性的基准。
在这些测试中,ERA展现出了显著的性能提升。以SAC算法为例,在具有挑战性的类人机器人和四足机器人任务中,ERA将性能提升了超过25%。更重要的是,这种提升是持续的,不仅体现在最终性能上,也体现在学习效率上。机器人能够更快地学会复杂的运动技能,比如人形机器人的跨栏动作或四足机器人的奔跑。
研究团队还发现了一个有趣的现象:ERA在不同熵目标下都能保持稳定的性能提升。他们测试了从-1.5到0.5的各种熵目标值,发现ERA始终优于原始的SAC算法。这种鲁棒性表明,ERA不需要精确调整熵参数就能取得良好效果,这为实际应用提供了重要的便利性。
在图像分类领域,研究团队使用ResNet-50架构在ImageNet和CIFAR-10数据集上进行了测试。值得注意的是,他们保持了所有其他超参数不变,包括timm库中的默认设置(包括0.1的标签平滑因子),以确保比较的公平性。结果显示,ERA在ImageNet上将top-1准确率提升了0.69%,在CIFAR-10上提升了0.21%。虽然这些数字看起来不大,但在图像分类领域,即使是0.1%的提升也被认为是有意义的进步。
更重要的是,ERA展现出了与现有正则化技术的良好兼容性。无论是在有数据增强还是无数据增强的设置下,ERA都能带来一致的改善。研究团队还测试了ERA对最小熵超参数的敏感性,发现该方法在相当大的参数范围内都能保持稳定的性能,这进一步证明了其实用性。
在大语言模型领域,实验结果最为令人瞩目。研究团队使用Qwen2.5-Math-7B模型,采用DAPO-Math-17K数据集进行训练。他们采用了两阶段训练策略:第一阶段设置相对严格的熵边界,第二阶段放松约束以进行精细调优。
结果显示,ERA在多个数学推理基准上都取得了显著提升。在AIME'24测试中提升了9.0%,在AIME'25测试中更是提升了37.4%。在AMC数学竞赛中提升了4.7%,在MATH500基准上提升了5.0%。这些提升幅度在大语言模型领域是相当可观的,特别是考虑到这些都是竞赛级别的困难数学问题。
研究团队还进行了一个特别有趣的分析:他们追踪了训练过程中模型熵的变化。结果显示,传统的GRPO方法会出现严重的熵坍塌现象,而ERA能够维持稳定的熵水平。这种稳定性直接转化为了推理能力的提升,在pass@k评估中,ERA训练的模型在各种k值下都显著优于基线方法。
五、深入的性能分析与理论验证
为了更全面地理解ERA的工作机制,研究团队进行了深入的分析实验。他们特别关注了ERA如何影响模型的探索-利用平衡,以及这种影响如何转化为实际性能的提升。
在连续控制领域,研究团队比较了截断高斯分布和双曲正切高斯分布两种常用的策略表示方法。他们发现截断高斯分布具有更好的稳定性,特别是在学习补偿参数δ时。对于双曲正切高斯分布,当动作范数接近分布边界时,学习的δ会出现爆炸性增长,导致训练不稳定。而截断高斯分布则能够产生稳定的δ值,这为ERA在连续控制中的可靠性提供了重要保证。
研究团队还比较了状态级熵正则化和批次级熵正则化的效果。状态级方法为每个状态单独维护熵约束,而批次级方法在整个训练批次上维护平均熵约束。实验结果显示,在以运动为主的控制任务中,两种方法的性能差异很小,这表明在这类需要高探索性的任务中,具体的熵正则化粒度并不那么关键。
在大语言模型方面,研究团队进行了详细的熵分析。他们发现,在使用ERA的情况下,模型能够维持一个清晰的熵下界。更有趣的是,他们分析了不同token群体的熵分布:高熵的前20%token(通常是需要真正"思考"的分叉点)和低熵的后80%token(通常是语法或格式相关的确定性选择)。结果显示,ERA主要影响高熵token的分布,而让低熵token保持其确定性特征,这正符合自然语言的内在结构。
研究团队还测试了ERA在分布外泛化方面的能力。他们在数学推理模型上测试了三个领域外的困难基准:ARC-C(抽象推理)、GPQA-Diamond(科学问答)和MMLU-Pro(多学科理解)。结果显示,ERA训练的模型平均比GRPO基线高出16.9%,这表明熵约束确实帮助模型学习了更通用的推理能力,而不仅仅是针对特定任务的优化。
六、计算效率与实用性考量
任何新方法的实用价值不仅取决于其性能提升,还取决于其实现复杂度和计算开销。研究团队在这方面进行了细致的分析,结果令人鼓舞。
在连续控制任务中,研究团队比较了FastTD3和FastSAC-ERA在HumanoidBench上的训练时间。结果显示,使用ERA只增加了约6%的训练时间开销。这个开销主要来自于更复杂的激活函数计算,但考虑到ERA带来的显著性能提升和更高的样本效率,这个代价是完全可以接受的。
在图像分类任务中,时间开销甚至更小。研究团队在CIFAR-10数据集上使用ResNet-50进行的测试显示,ERA几乎不增加训练时间。这是因为在图像分类中,数据已经充分并行化,ERA的计算开销相对于整体训练过程来说微不足道。
对于大语言模型,研究团队专门测试了ERA在第一步计算中的时间开销。在使用32个NVIDIA H20 GPU的设置下,ERA只增加了约5.6%的计算开销。更重要的是,当考虑整个训练步骤时(包括文本生成、模型更新、优势计算等),ERA的开销比例还会进一步降低,因为它只影响概率计算这一个环节。
研究团队还将ERA与其他熵正则化方法进行了比较。相比于需要额外网络结构的方法(如EAPO需要额外的熵评判网络,MNSE需要额外的逆动力学模型网络),ERA不需要任何额外的网络组件,只是在现有网络的输出层应用特殊的激活函数。这种设计使得ERA可以轻松集成到现有的训练流程中,而不需要大幅修改代码架构。
七、方法的普遍适用性与理论基础
ERA最令人印象深刻的特点之一是其跨领域的普遍适用性。这并非偶然,而是源于其坚实的理论基础和精心的设计理念。
从理论角度来看,ERA解决的是一个基本的数学问题:如何在保持原始优化目标不变的同时,确保解的多样性满足某个下界约束。这个问题在不同的AI领域中都会出现,只是具体的表现形式有所不同。在连续控制中,它表现为动作选择的多样性;在图像分类中,它表现为预测置信度的校准;在语言模型中,它表现为文本生成的创造性。
研究团队为每个应用场景都提供了严格的数学证明,确保ERA能够保证相应的熵下界。这些证明不仅验证了方法的正确性,也为其在新领域的应用提供了理论指导。例如,在连续空间的证明中,他们展示了如何将有界策略的熵约束转化为底层高斯分布的标准差约束;在离散空间的证明中,他们展示了如何通过逆函数映射来实现熵约束而不破坏概率分布的有效性。
ERA的设计哲学体现了一种"分离关注点"的思想。传统方法试图在目标函数中同时处理任务目标和探索约束,这往往导致两个目标之间的冲突和权衡。ERA则将这两个关注点完全分离:任务目标通过原始的损失函数来优化,而探索约束通过输出层的激活函数来保证。这种分离使得每个组件都能专注于自己的职责,从而获得更好的整体效果。
八、实验设计的严谨性与结果的可信度
为了确保实验结果的可信度,研究团队在实验设计上展现了高度的严谨性。他们不仅在多个数据集和基准上进行了测试,还采用了多种对照实验和消融研究来验证ERA的有效性。
在连续控制实验中,研究团队测试了ERA与五种不同基础算法的结合效果,包括on-policy的PPO和off-policy的SAC等。他们还在三个不同的基准套件上进行了评估,涵盖了从经典的MuJoCo任务到最新的人形机器人任务。为了确保结果的统计显著性,他们使用了充足的随机种子数(SAC和OBAC使用10个种子,PPO使用5个种子,TD-MPC2使用3个种子以匹配原始论文的设置)。
在图像分类实验中,研究团队保持了除ERA之外的所有超参数不变,包括使用timm库的默认设置。他们测试了有无数据增强两种情况,并在两个不同规模的数据集(ImageNet和CIFAR-10)上进行了验证。为了评估ERA的鲁棒性,他们还测试了不同最小熵阈值下的性能,结果显示ERA在相当大的参数范围内都能保持稳定的改善效果。
在大语言模型实验中,研究团队采用了严格的评估协议。他们使用了六个不同的数学推理基准,包括竞赛级的AIME和AMC测试。为了确保评估的公平性,对于AIME和AMC任务,他们报告了16次采样的平均准确率;对于其他任务,他们使用贪婪采样以避免随机性干扰。所有的评估都在原始策略(即ERA调整前的输出)上进行,确保评估结果不受训练技巧的影响。
研究团队还进行了大量的消融研究。例如,他们测试了移除ERA上界约束ωhigh的效果,发现模型熵会在短时间内爆炸,导致训练崩溃,这验证了完整ERA设计的必要性。他们还比较了ERA与近期的其他熵控制方法,如selective high-entropy training和clip-higher策略,结果显示这些为语言模型设计的技术在连续控制中效果有限,进一步突出了ERA跨域适用性的价值。
九、技术细节与实现考量
虽然ERA的核心思想相对简单,但其具体实现涉及许多精巧的技术细节。这些细节对于方法的成功至关重要,也体现了研究团队的深厚技术功底。
在连续控制的实现中,研究团队选择了截断高斯分布而不是更常用的双曲正切压缩高斯分布。这个选择基于他们的深入分析:截断高斯分布在处理边界条件时更加稳定,特别是在学习补偿参数δ时不会出现数值不稳定问题。他们还实现了δ的自动学习机制,使用类似于SAC中温度参数学习的方法,让系统自动调整以满足熵约束。
在图像分类的实现中,最大的挑战是如何高效地计算逆函数h^(-1)。由于这个函数没有闭式解,研究团队使用了数值逼近方法。他们设计了一个逼近函数h^(-1)(x) ≈ -1/4 - √(2(-1-ln(x))) + 3/4 ln x,这个逼近在相关区间内具有足够的精度。为了进一步提高数值稳定性,他们还实现了适当的数值裁剪和归一化步骤。
在大语言模型的实现中,技术复杂性更高。研究团队需要在保持采样策略不变的同时,在训练时应用ERA调整。他们设计了一个两阶段的处理流程:首先使用原始模型输出进行采样和优势计算,然后在模型更新时应用ERA变换。这种设计确保了推理行为的一致性,同时允许训练过程受益于熵正则化。
为了处理大语言模型中巨大的词汇表,研究团队还实现了top-k过滤机制。在第一训练阶段,他们在logprobs_from_logits函数中只保留前20个最大的logits,这不仅提高了计算效率,还增强了训练稳定性。他们发现,在实践中优势缩放对模型性能影响不大,因此在最终实现中省略了这个组件以简化代码。
十、比较研究与方法定位
为了更好地理解ERA的优势和适用范围,研究团队进行了广泛的比较研究,将ERA与现有的各种熵正则化方法进行了详细对比。
在连续控制领域,他们比较了ERA与其他最大熵强化学习方法,包括EAPO(熵优势策略优化)和MNSE(最大下一状态熵)。EAPO的核心创新是将最大熵强化学习目标分解为传统累积奖励和轨迹熵两个组件,分别估计各自的优势函数。MNSE则主张直接最大化下一状态熵,认为这能更直接地衡量策略诱导的状态多样性。
实验结果显示,ERA在MuJoCo基准上优于这两种方法。更重要的是,ERA的实现更加简洁:EAPO需要额外的熵评判网络,MNSE需要额外的逆动力学模型网络,而ERA不需要任何额外的网络结构,只是简单地修改输出激活函数。这种简洁性不仅降低了计算开销,也减少了超参数调优的复杂度。
在大语言模型领域,研究团队将ERA与多种entropy collapse防护方法进行了比较。传统的熵奖励方法在LLM训练中经常导致不稳定性;KL-Cov和Clip-Cov等方法虽然有一定效果,但缺乏理论保证;selective high-entropy training和clip-higher等方法则过于启发式,难以推广到其他领域。
ERA在这些比较中展现出了明显的优势。不仅在性能上超越了这些方法,更重要的是ERA提供了严格的理论保证,确保熵下界的存在。这种理论保证在实际应用中转化为更稳定和可预测的训练行为。
研究团队还尝试将为LLM设计的技术应用到连续控制中,包括selective high-entropy training(只在高熵样本上训练)和clip-higher策略(对大于1的优势使用更大的裁剪比率)。结果显示这些技术在连续控制中效果有限,无法提供更高的策略熵或显著的性能改善。这个结果突出了不同AI领域之间的根本差异,也进一步证明了ERA跨域适用性的价值。
十一、未来应用前景与潜在影响
ERA方法的成功不仅在于其当前的实验结果,更在于其开启的新研究方向和广阔的应用前景。这种通过架构设计而非目标函数修改来实现约束的思路,为AI系统设计提供了新的范式。
在机器人技术领域,ERA的应用前景特别广阔。现代机器人需要在复杂的真实环境中执行各种任务,保持探索能力对于适应新环境和学习新技能至关重要。ERA可以确保机器人在掌握基本技能的同时,仍然保持尝试新动作的能力。这对于家庭服务机器人、工业机器人的任务适应,以及自动驾驶汽车的异常情况处理都具有重要意义。
在自然语言处理领域,ERA可能对提高大语言模型的创造性和推理能力产生深远影响。当前的大语言模型经常会陷入模式化的回答,缺乏真正的创新思考。ERA通过确保适当的熵水平,可能帮助模型在保持逻辑连贯性的同时,产生更多样化和创造性的输出。这对于科学发现、艺术创作、问题解决等需要创新思维的应用场景具有重要价值。
在计算机视觉领域,ERA的应用可能远不止图像分类。在目标检测、图像生成、视频理解等任务中,适当的不确定性量化都很重要。ERA提供的熵控制机制可以帮助这些系统更好地表达对预测结果的置信度,这对于安全关键应用(如医疗诊断、自动驾驶中的视觉感知)具有重要意义。
更广泛地说,ERA代表了一种新的AI系统设计哲学:通过架构约束而非目标函数修改来实现期望的系统行为。这种思路可能启发更多类似的创新,比如通过激活函数设计来实现公平性约束、鲁棒性约束或其他系统级属性。
十二、方法的局限性与改进方向
尽管ERA展现出了显著的优势,但研究团队也诚实地讨论了方法的局限性和潜在的改进方向。
首先,ERA的性能在不同任务上存在差异。在高维动作空间的复杂控制任务中,ERA的改善非常显著;但在相对简单的MuJoCo任务中,改善相对有限。这表明ERA的效果与任务的复杂度和探索需求密切相关。对于那些本身就不需要太多探索的任务,ERA的价值可能有限。
其次,ERA在不同算法上的表现也不完全一致。虽然它与多种基础算法都能很好地结合,但最佳的超参数设置可能需要针对具体的算法-任务组合进行调优。这在一定程度上限制了ERA的"即插即用"特性。
在大语言模型方面,ERA的当前实现主要关注数学推理任务。对于其他类型的语言任务(如创意写作、对话生成、代码编程等),ERA的效果还需要进一步验证。不同类型的语言任务对探索性的需求可能差异很大,这可能需要针对性的调整。
另外,ERA的理论分析主要基于一些假设条件,比如在LLM的证明中假设了logit近似、正优势质量下界等。在实际应用中,这些假设可能不总是成立,这可能影响理论保证的强度。
从计算效率角度看,虽然ERA的开销相对较小,但在极大规模的应用中(如训练千亿参数的大模型),即使是几个百分点的开销也可能转化为显著的成本增加。如何进一步优化ERA的计算效率,特别是在大规模应用中,仍然是一个有待解决的问题。
研究团队指出了几个可能的改进方向。首先是自适应熵阈值:当前ERA使用固定的熵阈值,但在训练过程中动态调整这个阈值可能会带来更好的效果。其次是多尺度熵控制:在不同的网络层或时间尺度上应用不同的熵约束可能会提供更精细的控制。最后是与其他约束的结合:将ERA与公平性、鲁棒性等其他约束结合,可能开发出更全面的AI系统设计方法。
说到底,ERA代表了AI系统设计中的一个重要进步。它通过一种优雅而通用的方式解决了困扰研究者已久的探索-利用平衡问题,并且在多个重要的AI应用领域都展现出了实际价值。虽然还存在一些局限性和改进空间,但ERA已经为我们展示了通过架构创新来实现系统级约束的巨大潜力。
这项研究的意义远超其具体的技术贡献。它展示了跨学科思维在AI研究中的重要性,证明了理论严谨性与实际效用的完美结合是可能的。对于AI研究者来说,ERA提供了一个新的工具和思路;对于AI应用开发者来说,ERA提供了一个简单而有效的性能提升方案;对于普通人来说,ERA意味着未来的AI系统将会更加智能、更加可靠,能够在保持高效性能的同时,始终保持适当的探索精神和创新能力。
正如研究团队在论文中所说,ERA打开了一个新的研究方向,为设计更简单、更鲁棒的算法提供了可能。在AI技术日新月异的今天,这样的基础性创新无疑具有重要的长远价值。有兴趣深入了解这项研究技术细节的读者,可以通过论文编号arXiv:2510.08549v1查询完整的学术论文。
Q&A
Q1:什么是熵正则化激活ERA?它能解决什么问题?
A:ERA是清华大学开发的一种新的AI训练方法,通过在神经网络输出层添加特殊的激活函数来自动维持AI的探索能力。它解决了AI训练中的"熵坍塌"问题,即AI过于专注单一目标而失去尝试新方法的能力,就像确保厨师在做菜时既能做出好菜又保持尝试新配料的创新精神。
Q2:ERA方法在哪些AI领域有效果?改善效果如何?
A:ERA在三个主要AI领域都有显著效果:在机器人控制中性能提升超过30%,在大语言模型数学推理中AIME2025得分提升37.4%,在图像分类中ImageNet准确率提升0.69%。最重要的是,这是一个通用方法,可以应用于不同类型的AI任务。
Q3:使用ERA会不会让AI训练变得很复杂或耗时?
A:不会。ERA的计算开销不到7%,而且不需要修改现有的训练目标或添加额外的神经网络结构,只需要在输出层换个激活函数就行。就像给汽车加装定速巡航系统一样简单,不会显著影响整体性能但能带来明显的便利性提升。





京公网安备 11011402013531号