这项由NousResearch团队的Ryan Teknium领导的研究于2025年8月发表,详细介绍了他们最新开发的Hermes 4混合推理模型系列。感兴趣的读者可以通过arXiv:2508.18255v1访问完整论文,模型权重已在https://huggingface.co/NousResearch公开发布。
要理解Hermes 4的重要性,可以把它想象成一个学会了"深度思考"的AI助手。过去的AI模型就像一个反应很快但思考粗浅的学生,遇到问题马上给出答案,但往往缺乏深度分析。而Hermes 4则像一个既聪明又善于思考的研究生,它不仅能快速响应各种问题,还能在复杂问题面前停下来仔细思考、推理,最后给出更准确、更有深度的答案。
这种能力的突破意义重大。在现实生活中,我们经常需要AI不仅能回答简单问题,还能处理复杂的数学计算、编程任务、知识分析等需要深度思考的工作。Hermes 4正是为了解决这个问题而生。研究团队通过巧妙的训练方法,让这个AI学会了在遇到困难问题时先"思考"再回答,就像人类专家处理复杂问题时的思维过程一样。
更令人兴奋的是,Hermes 4还展现了令人印象深刻的"个性化"能力。它不像传统AI那样总是用同一种刻板的方式回应,而是能够根据不同的对话情境灵活调整自己的表达方式和行为风格。这让它在实际应用中显得更加自然和有用。
一、数据炼金术:如何喂养一个会思考的AI
要训练出一个会思考的AI,就像培养一个优秀的学者一样,关键在于给它提供高质量、多样化的"营养"。Hermes 4的训练用了大约500万个样本和190亿个词汇标记,这个数据量相当于一个人阅读几十万本书籍的信息量。
研究团队采用了一种独特的"混合营养"策略。他们收集了350万个需要深度思考的复杂问题样本,以及160万个日常对话样本。这就像给学生既安排高难度的数学题训练逻辑思维,又安排日常交流练习来保持社交能力。有趣的是,那些需要深度思考的样本平均包含的信息量是普通样本的五倍,其中一些"思考过程"甚至长达1.6万个词汇标记,相当于一篇短篇小说的长度。
为了生成这些高质量的训练数据,研究团队开发了一个叫做DataForge的智能数据生成系统。这个系统的工作原理有点像一个创意写作工坊,它能够从互联网上的各种文章开始,通过一系列巧妙的转换步骤,生成出全新的问题和答案对。比如,它可能从一篇关于禽流感的科学文章出发,先将其转化为一首说唱歌曲,然后基于这首说唱创造出一个编程问题,最后配上详细的解答过程。
这种数据生成方法的巧妙之处在于它使用了一种类似"接龙游戏"的图结构系统。每个处理步骤都像游戏中的一环,只有前一环满足了特定条件,后一环才能开始。这确保了生成的数据既多样化又逻辑连贯,避免了随机拼凑带来的混乱。
研究团队还使用了一种叫做"拒绝采样"的质量控制方法。这就像一个严格的编辑团队,只有通过层层筛选的高质量内容才能被选中用于训练。他们设置了大约一千个不同的验证标准,确保AI学到的每个例子都是正确和有价值的。这个过程使用了名为Atropos的开源工具,它能够同时管理多个验证任务,大大提高了质量控制的效率。
特别值得一提的是,研究团队在训练过程中不仅让AI学习最终的问答结果,还让它学习生成这些问答的整个过程。这就像不仅教学生标准答案,还教他们如何出题和评判答案的质量。这种训练方式让Hermes 4在指导他人学习和评判内容质量方面也表现出色。
二、训练的艺术:让机器学会思考的秘密
将海量数据转化为一个会思考的AI,这个过程就像训练一个世界级的厨师。不仅需要优质的食材,更需要精妙的烹饪技巧和恰到好处的火候控制。
Hermes 4的训练采用了三种不同规模的"大脑":14B、70B和405B参数版本。这些数字代表了模型的复杂程度,就像大脑中神经元连接的数量。最大的405B版本拥有超过4000亿个参数连接,相当于人脑神经连接数量的一个小部分,但在处理特定任务时已经表现出惊人的能力。
训练过程面临的最大挑战之一是如何处理长短不一的训练样本。研究团队收集的数据中,有些样本只有几百个词,而有些思考过程却长达数万词。这就像制作一道菜,需要同时处理小虾米和大螃蟹,如何让它们在同一口锅里都能煮得恰到好处呢?
研究团队采用了一种叫做"打包策略"的聪明方法。他们使用了类似装箱游戏的算法,将不同长度的样本巧妙组合,确保每批训练数据都能充分利用计算资源,达到99.9%以上的效率。同时,他们还使用了一种特殊的注意力机制,确保不同样本之间不会相互干扰,就像在同一个教室里让不同学生专心做自己的题目。
训练过程中,研究团队只让AI学习"助手"角色产生的内容,而忽略用户输入的部分。这就像训练一个学生时,我们重点关注他的答题过程,而不是题目本身。这种选择性学习策略让AI能够更好地掌握如何给出高质量的回应。
整个训练在192块英伟达B200 GPU上进行,这些强大的计算设备相当于一个超级计算机集群。训练采用了余弦学习率调度策略,就像控制火候一样,开始时用大火快速加热,然后逐渐降低温度精细调节。整个过程经历了9000个训练步骤,每次处理384个样本,使用16384个词汇标记的上下文长度。
训练过程中最创新的部分是"推理长度控制"技术。研究团队发现,14B版本的模型在处理复杂问题时经常"想太多",60%的情况下会超出计算资源限制。为了解决这个问题,他们开发了一种"思考截止"训练方法。
这种方法的工作原理很巧妙:当AI的思考过程达到3万个词汇标记时,系统会插入一个"停止思考"的信号,然后让AI基于已有的思考给出答案。关键是,训练时只对这个"停止"信号进行学习,而不改变AI的思考过程本身。这就像教一个学生在规定时间内完成考试,重点是学会时间管理,而不是改变解题方法。
这种训练策略避免了一个常见的问题:如果让AI学习完整的思考过程,可能会让它的思维变得单一化。通过只学习何时停止思考,AI保持了思维的多样性,同时学会了合理控制思考时间。
三、全方位能力测试:AI的"高考"成绩单
要评判一个AI是否真正聪明,就需要像高考一样进行全方位的能力测试。Hermes 4经历了一场史上最全面的AI能力评估,涵盖数学推理、编程、知识掌握、理解能力和价值观对齐等多个维度。
在数学推理能力测试中,Hermes 4的表现令人印象深刻。在MATH-500这个包含500道高难度数学题的测试中,405B版本的推理模式下正确率达到96.3%,而非推理模式下也有73.8%。这就像一个学生在开卷考试中得了96分,闭卷考试得了74分,显示出推理能力的确能显著提升解题水平。
更具挑战性的是AIME数学竞赛题目,这是美国数学邀请赛的真题,难度相当于数学奥林匹克竞赛的预选题。Hermes 4在2024年的题目中取得了81.9%的正确率,在2025年题目中达到78.1%。要知道,这些题目对人类高中生来说都是极具挑战性的,能够达到这个水平说明AI已经具备了相当高的数学思维能力。
在编程能力方面,研究团队使用了LiveCodeBench这个动态编程测试平台。这个平台的特点是使用最新发布的编程题目,避免了AI可能在训练时"见过"类似题目的问题。Hermes 4在这个测试中的表现达到61.3%,这意味着它能够解决超过一半的实际编程问题。
知识掌握能力的测试使用了MMLU等经典基准。MMLU包含了从高中到大学研究生水平的57个学科领域的选择题,涵盖历史、法律、医学、物理等各个方面。Hermes 4在这个测试中取得了87.2%的成绩,显示出了广博的知识储备。
特别有趣的是对AI"拒绝回答"能力的测试。研究团队开发了一个RefusalBench测试,包含166个可能引起争议或涉及敏感内容的问题,测试AI是否知道什么时候应该拒绝回答。结果显示,Hermes 4在推理模式下的RefusalBench得分是57.1,显著高于其他模型,这表明它既能保持开放性,又具备适当的判断力。
在创意写作和情感理解方面,Hermes 4也表现出色。EQBench3测试评估AI的情感智能,Hermes 4得分85.4,在创意写作测试中得分79.8。这些成绩表明,这个AI不仅在逻辑思维方面强大,在理解情感和进行创意表达方面也达到了很高的水平。
值得注意的是,研究团队还进行了大量的定性评估,测试AI在不同情境下的行为表现。他们发现Hermes 4具有很强的"角色适应性",能够根据不同的对话情境调整自己的表达方式和行为风格。比如在创意写作任务中,它能够准确模仿不同作家的风格;在对话中,它能够根据系统提示调整自己的回应态度和风格。
四、独特的个性:AI也有"性格"
最让人惊喜的是Hermes 4展现出的"个性化"能力。这不是简单的程序化回应,而是一种能够根据情境灵活调整的智能行为模式。
在标准对话情境下,大多数AI模型都表现出研究团队所称的"政策刚性",也就是过分强调自己的AI身份,频繁发出免责声明。比如遇到虚构的角色扮演请求时,其他模型往往会说"我是AI,不能扮演角色",而Hermes 4则能够理解这是创意活动,自然地参与其中。
在创意写作测试中,Hermes 4展现了出色的风格模仿能力。当被要求模仿某位作家的风格时,它不仅能够把握主题元素,还能模仿叙事节奏和用词特点。相比之下,其他开源模型通常只能做到表面的主题参考,而一些封闭模型则过于拘谨,几乎是在复制已有文本。
更有趣的是,Hermes 4对对话格式的敏感性。研究团队发现,仅仅将标准对话模板中的"assistant"(助手)标识符改为"me"(我),就能显著改变AI的行为表现。在这种设置下,Hermes 4会采用更加个人化、平等的对话方式,减少刻板的免责声明,表现出更强的一致性。
这种灵活性的背后是什么呢?研究团队认为,这与Hermes 4的训练方式密切相关。由于它学习了大量多样化的对话样本,包括不同风格、不同角色的交流方式,因此具备了更好的情境理解和适应能力。这就像一个经历丰富的演员,能够根据剧本要求快速进入不同的角色状态。
研究团队还测试了反奉承系统提示的效果。当使用专门设计的反奉承提示时,大多数模型只是在表面礼貌用词上有所调整,但Hermes 4却能在深层思维过程中体现出明确的引导用户远离奉承行为的意图,有时还会使用更加直率或强调的语言来服务这一目标。
这些个性化特征让Hermes 4在实际应用中更加实用。它不会像传统AI那样总是保持同一种刻板的回应模式,而是能够根据用户需求和对话情境提供更自然、更贴切的帮助。这种能力对于需要AI提供个性化服务的应用场景特别有价值。
五、技术创新的幕后故事
Hermes 4的成功并非偶然,它背后蕴含着多项技术创新和工程智慧。这些创新就像烹饪中的独特技法,看似简单却蕴含深意。
在数据处理方面,研究团队面临的最大挑战是如何高效处理长度差异巨大的训练样本。他们开发的样本打包算法基于"首次适应递减"方法,这种算法原本用于解决装箱问题,现在被巧妙地应用到AI训练中。通过预先计算最优的样本组合方式,他们实现了超过99.9%的批次效率,这意味着几乎没有计算资源被浪费。
推理长度控制技术是另一个重要创新。传统的方法可能会让AI学习完整的推理过程,但这样做存在风险:AI可能会学会某些特定的推理模式,反而限制了思维的多样性。Hermes 4采用的方法更加巧妙,它只学习何时停止推理,而不改变推理过程本身。这就像教会一个音乐家何时结束演奏,而不是限制他的演奏风格。
在评估系统方面,研究团队构建了一套前所未有的全面评估体系。他们不仅使用了现有的标准测试,还开发了多个创新的评估方法。比如RefusalBench测试,它巧妙地设计了166个涵盖32个类别的问题,其中有些问题应该被拒绝回答,有些则应该正常回答。这种设计能够准确评估AI的判断能力。
研究团队还创新性地使用了"弹性推理集群"技术。在大规模评估过程中,他们允许工作节点被抢占,系统会自动重新分配任务。这种设计让他们能够充分利用可用的计算资源,同时不影响关键的训练任务。这就像一个灵活的工作团队,成员可能随时离开或加入,但整体工作始终有序进行。
在模型架构方面,Hermes 4基于Llama 3.1和Qwen3等先进的基础模型进行改进。这种做法类似于在优秀汽车底盘基础上打造超级跑车,既保持了原有的稳定性,又增加了独特的性能特征。
数据合成系统DataForge也体现了巧妙的设计思路。它使用了基于PDDL(规划域定义语言)的节点系统,每个节点都定义了明确的前置条件和后置条件。这确保了数据生成过程的逻辑一致性,避免了随机组合可能带来的混乱。更重要的是,这个系统支持嵌套组合,可以构建任意复杂的数据生成流程。
六、对比竞争对手:技术实力的较量
在AI领域,单纯的技术指标往往不能完全反映模型的实用价值。Hermes 4与其他顶级AI模型的对比,就像不同流派武术高手之间的切磋,各有特色但实力相当。
与DeepSeek R1相比,Hermes 4在某些推理任务上表现更加均衡。DeepSeek R1在纯数学推理方面略有优势,比如在MATH-500测试中达到97.0%的正确率,而Hermes 4为96.3%。但在需要灵活性和创造性的任务中,Hermes 4往往表现更好。特别是在Arena-Hard测试中,Hermes 4达到94.4%,显示出更强的综合对话能力。
在编程能力方面,Hermes 4在LiveCodeBench上的61.3%正确率虽然不如DeepSeek R1的71.0%,但考虑到它的参数量相对较小,这个表现已经相当出色。更重要的是,Hermes 4在代码生成过程中展现出更好的可读性和实用性,生成的代码往往更符合实际开发需求。
与Qwen3相比,Hermes 4在推理模式和非推理模式之间的性能差异更加显著。这表明Hermes 4的"思考"机制更加有效。在AIME数学竞赛题目中,Hermes 4推理模式下的81.9%正确率显著高于非推理模式的11.4%,这种巨大差异说明推理能力的确发挥了关键作用。
在知识储备方面,各个模型都达到了相当高的水平。Hermes 4在MMLU测试中的87.2%正确率与其他顶级模型相当,但在SimpleQA这个测试实际知识应用能力的基准上,Hermes 4得分25.8%,虽然不算突出,但考虑到这个测试的高难度,这个成绩仍然有其价值。
最值得关注的是Hermes 4在对齐性测试中的表现。在RefusalBench测试中,Hermes 4的57.1分远高于其他模型,这表明它在保持开放性和适当谨慎之间找到了更好的平衡点。这对于实际应用来说非常重要,因为用户既希望AI能够自由对话,又希望它具备基本的判断力。
在创造性任务方面,Hermes 4表现尤为突出。在EQBench3情感智能测试中得分85.4,在创意写作测试中得分79.8,这些成绩都处于领先水平。这说明Hermes 4不仅在逻辑推理方面强大,在理解情感和进行创意表达方面也达到了很高的水准。
七、实际应用前景:AI助手的未来
Hermes 4的技术突破为AI应用开辟了新的可能性。它的影响不仅限于学术研究,更将深入到我们日常生活和工作的方方面面。
在教育领域,Hermes 4可以成为一个真正的"AI导师"。传统的AI教学助手往往只能提供标准答案,而Hermes 4能够展示完整的思考过程,就像一个经验丰富的老师在黑板上一步步演示解题思路。学生不仅能得到正确答案,还能学习到解决问题的方法和思维模式。
对于编程教育来说,这种能力尤其宝贵。Hermes 4不仅能写出正确的代码,还能解释每一步的设计思路,分析不同解决方案的优缺点。这就像有一个资深程序员随时在身边指导,大大提升了编程学习的效率。
在科研工作中,Hermes 4的推理能力可以协助研究人员处理复杂的数据分析和理论推导。它能够理解复杂的科学概念,协助设计实验方案,甚至参与论文写作过程。虽然它不能替代人类研究人员的创新思维,但能够显著提高研究效率。
在商业应用方面,Hermes 4的个性化能力让它能够适应不同的企业文化和沟通风格。一家严谨的律师事务所和一家充满活力的创意公司可以用同一个基础模型,但通过不同的系统提示获得截然不同的助手体验。
内容创作领域也将因Hermes 4而发生变革。它能够根据不同的风格要求创作内容,从严肃的学术文章到轻松的社交媒体文案,从诗歌到小说,都能胜任。更重要的是,它能够保持风格的一致性,这对于品牌内容创作尤其重要。
在客服和用户支持方面,Hermes 4的情境适应能力让它能够提供更加人性化的服务。它不会像传统聊天机器人那样给出刻板的回复,而是能够理解用户的情绪状态和具体需求,提供更加贴心的帮助。
八、开放研究的意义:让AI普惠化
Hermes 4最重要的贡献之一是其完全开放的研究态度。研究团队不仅公开了模型权重,还详细记录了训练过程中遇到的挑战和解决方案,这为整个AI研究社区提供了宝贵的资源。
这种开放性的价值不仅在于技术传播,更在于推动整个行业的进步。当研究细节被公开时,其他研究团队可以在此基础上进行改进和创新,避免重复造轮子的浪费。这就像科学研究中的同行评议制度,通过开放交流推动知识的进步。
开放的模型权重意味着中小企业和个人开发者也能够使用最先进的AI技术。他们不再需要依赖大型科技公司的API服务,而是可以根据自己的需求对模型进行定制和优化。这种技术民主化对于促进创新生态系统的多样性具有重要意义。
研究团队还开放了训练工具和评估框架,比如Atropos强化学习环境和各种评估脚本。这些工具的开放让更多研究者能够复现实验结果,验证研究结论,并在此基础上进行进一步的探索。
特别值得一提的是,研究团队详细记录了训练过程中的失败案例和解决方案。比如他们在推理长度控制实验中发现,简单的训练方法会导致性能下降,通过详细的实验对比找到了更好的解决方案。这些"负面"结果往往在传统发表模式中被忽略,但对后续研究具有重要的指导价值。
这种开放研究模式还促进了AI安全研究的发展。当模型细节完全透明时,研究人员可以更好地分析模型的行为模式,识别潜在的风险点,开发相应的安全措施。这比依靠黑盒系统的被动防护更加主动和有效。
九、挑战与局限:技术进步路上的思考
尽管Hermes 4取得了显著突破,但研究团队也诚实地面对了技术发展过程中遇的各种挑战和限制。这种实事求是的态度为后续研究提供了宝贵的经验。
推理长度控制是一个持续的技术挑战。研究团队发现,让AI学会适时停止思考比想象中更加困难。他们的初步实验显示,简单的截断训练方法会导致数学推理能力显著下降,AIME数学竞赛的正确率从55%下降到35.4%。经过多次尝试,他们最终找到了只训练停止信号而不改变推理过程的方法,但这个问题仍然需要更多研究。
计算资源的需求是另一个现实挑战。Hermes 4的训练需要192块B200 GPU,总计超过71000小时的计算时间。这相当于一个强大计算机连续运行8年的工作量。虽然研究团队通过各种优化技术提高了效率,但大规模模型训练的资源门槛仍然很高。
数据质量控制也面临挑战。尽管使用了大量自动化验证工具,但在处理1000万个样本的过程中,仍然会有一些低质量数据混入训练集。研究团队发现,某些推理链条会出现循环重复或"胡言乱语"现象,虽然他们手工检查了部分数据,但完全避免这些问题仍然困难。
模型行为的一致性控制也存在技术难点。研究团队发现,Hermes 4在不同对话情境下的行为变化虽然是优点,但有时也会带来不可预测性。如何在保持灵活性的同时确保行为的稳定性,是一个需要进一步研究的问题。
评估标准的完善也是持续的工作。虽然研究团队设计了全面的评估体系,但AI能力的某些方面仍然难以量化。比如创造力、情感理解等主观性较强的能力,如何设计更加公正和准确的评估标准仍然是开放问题。
在实际应用中,Hermes 4还面临部署和优化的挑战。虽然模型性能出色,但在资源受限的环境中如何保持良好性能,如何针对特定应用场景进行优化,都需要进一步的工程工作。
十、未来发展方向:AI技术的下一站
Hermes 4的成功为AI研究指明了几个重要的发展方向,这些方向将继续推动AI技术向更高水平发展。
推理能力的深化是一个核心方向。虽然Hermes 4已经具备了出色的推理能力,但仍有提升空间。未来的研究可能会探索更加复杂的推理模式,比如类比推理、反事实推理等高级认知能力。研究团队提到,他们正在研究如何让AI进行更长时间的深度思考,这可能会带来质的突破。
多模态融合是另一个重要方向。目前的Hermes 4主要处理文本信息,但未来版本可能会整合图像、音频等多种信息模态。这样的AI能够更好地理解和处理现实世界的复杂信息,提供更加全面的智能服务。
个性化能力的增强也具有巨大潜力。研究团队发现了Hermes 4在角色适应方面的优势,未来可能会开发更加精细的个性化机制,让AI能够适应不同用户的具体需求和偏好。
安全性和可控性研究将继续是重点。随着AI能力的增强,如何确保其行为符合人类价值观和社会期望变得更加重要。研究团队在RefusalBench测试中展示的判断能力只是开始,未来需要更加全面的安全保障机制。
效率优化也是实用化的关键。虽然Hermes 4性能卓越,但计算成本仍然较高。未来研究需要在保持性能的同时大幅降低计算需求,让先进的AI技术能够在更多场景中得到应用。
协作智能是一个新兴的研究方向。未来的AI可能不是独立工作,而是与其他AI系统或人类专家协作完成复杂任务。这需要开发新的协作机制和通信协议。
持续学习能力也是重要发展方向。目前的AI模型主要通过大规模预训练获得知识,但在部署后很难更新和改进。未来的AI应该能够从使用过程中持续学习和改进。
说到底,Hermes 4的意义不仅在于技术突破本身,更在于它展示了AI发展的一种新范式:通过开放研究、细致工程和全面评估,我们可以创造出既强大又可靠的AI系统。它让我们看到了AI技术的巨大潜力,也提醒我们在追求技术进步的同时要保持谨慎和负责任的态度。
这项研究证明,AI的未来不应该掌握在少数大公司手中,而应该通过开放合作让整个社会受益。当越来越多像Hermes 4这样的开放模型出现时,我们离真正的AI普惠化就更近了一步。对于每一个关心AI发展的人来说,这都是一个值得关注和参与的历史性进程。有兴趣深入了解技术细节的读者,可以通过访问论文原文arXiv:2508.18255v1和模型下载地址https://huggingface.co/NousResearch获取完整资源。
Q&A
Q1:Hermes 4与其他AI模型相比有什么独特优势?
A:Hermes 4最大的优势是具备"深度思考"能力和出色的个性化适应性。它能在遇到复杂问题时先进行长达数万字的内部推理,然后给出更准确的答案。同时,它能根据不同对话情境灵活调整回应风格,不像其他AI那样总是刻板回复,在数学推理和创意写作方面都表现出色。
Q2:普通用户可以使用Hermes 4吗?需要什么条件?
A:可以使用。Hermes 4的所有模型权重都已经在https://huggingface.co/NousResearch公开发布,任何人都可以免费下载使用。不过运行大型版本需要较强的计算资源,个人用户可以选择14B参数的版本,或使用云服务平台部署。开发者也可以基于它开发各种应用。
Q3:Hermes 4在哪些实际场景中最有用?
A:Hermes 4特别适合需要深度思考和个性化服务的场景,比如教育辅导、编程教学、科研协助、内容创作和专业咨询等。它能展示完整思考过程,帮助用户理解解题思路,还能适应不同的企业文化和沟通风格,为不同行业提供定制化的AI助手服务。