AI 终于会心算了,这不是它在偷懒,而是科学家发现了一种新的推理范式。
在过去几年里,大模型的推理几乎都依赖思维链(CoT,Chain-of-Thought):模型需要把推理一步步写出来,再给出最终答案。这种方式在很多任务中非常有效,但在科学问题中,它也许并不是最自然的计算路径。
在最近的一项研究中,科学家提出了一种新的范式:让模型在连续隐空间中完成推理,再输出文字回答。
简单来理解这项研究:传统的 AI 做化学题需要输出所有思考过程,这就像必须每个步骤都大声念出来再向下一步推进,不仅费时费力还不一定准确;现在 LatentChem 让 AI 可以像化学家那样先“默想”,在内部完成复杂计算后再直接给答案。
在化学任务中,这种方式尤为重要。做过分子优化、分子编辑等任务的研究人员,应该都遇到过这样的场景:模型能写出一长段看似专业的推理过程,谈电子效应、位阻、官能团和反应位点,但最终生成的 SMILES 或分子结构却和前文分析不一致,甚至连修改位置都错了。
这类问题背后,其实指向了一个更根本的矛盾:化学推理未必天然适合被“翻译”成离散的自然语言 token。
来自 Haven 团队的叶新武、尹臻菲、廖雨萱、唐相儒联合斯坦福大学丛乐教授、吴英成博士、吴方博士等研究团队设计了 LatentChem 系统,针对这一问题进行了全新探索。
![]()
图丨叶新武(受访者)
它并不否定推理,也不是简单地压制模型输出思维链,而是换了一种实现路径:将推理的主要载体从显式文本 CoT 转移到连续隐空间中。也就是说,模型会先在隐空间中完成多步计算,再生成最终回答。
这类似于化学家的“默想”过程,例如,化学家在脑海中思考三维分子结构时,并不会把每一步推理都用语言表达出来,而是在形成完整判断后再将结果呈现出来。
更有意思的是,在结果导向的强化学习训练中,模型会主动减少甚至停止输出显式 CoT,只保留极短的过渡符号后直接给出答案。但这并不意味着模型不再思考,恰恰相反,推理并未消失,而是被内化到了隐空间中。
“我们只是训练让它正确地回答,并不是在训练目标中让它做这件事,结果模型会自发地选择在隐空间中进行主要思考。需要大量推理的任务对 token 需求量非常高,而将 token 放到隐空间中的设计,会大大提高效率。”叶新武对 DeepTech 表示。
结果显示,在分子优化任务中,LatentChem 的成功率比“写出”CoT 的 AI 高 59.88%。此外,由于省去了输出时间,其平均推理速度提升了 10.84 倍,甚至在分子优化和反应预测任务中快了近 30 倍。
这意味着,假如从前药物研发、材料设计等需要一年的工作,现在能够 1 个多月就能完成虚拟筛选。
近日,相关论文以《LatentChem:从文本思维链到隐空间思考的化学推理》(LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning)为题发表在预印本网站arXiv[1]。
![]()
图丨相关论文(arXiv)
当化学家“默想”时,AI还在“念推理链”
实际上,化学推理与自然语言存在本质区别:化学推理本质上更像是在连续、结构化的分子空间与性质空间中进行移动、聚焦和更新;而自然语言 token 是离散的、符号化的。
研究团队提出了一个尖锐的问题:用语言进行化学变化的模拟,会不会从一开始就选错了工具?他们注意到,尽管在以往的研究中已有在大模型通过隐空间思考(Latent thinking)的相关探索,但是效果甚微。他们推测,原因可能是用在了一些错误的任务上。
叶新武解释道:“例如,在分子结构空间中寻找更优候选,修改某个官能团,调整分子性质以及优化结合亲和力,这些操作本质上更接近连续空间中的结构变换。”
当用户要求模型将这些连续推理过程逐步写成文字时,就会出现这项研究中所提到的“连续性-离散化差距(Continuity-Discretization Gap)”:如果一个本来更适合在连续表征中完成的推理过程,被强行离散化成语言,不仅效率低,还可能经常出现“说得通、做不对”的现象。
也就是说,模型往往“心口不一”,尽管输出的推理过程看似合理,但最终生成的分子结构却与推理不一致。“从这个角度看,文本 CoT 更像是推理的描述,而不一定是推理真正发生的地方。”叶新武告诉 DeepTech。
![]()
图丨化学推理中连续性-离散化间隙的概念性图示(arXiv)
给AI装上一个会“转弯”的化学大脑
LatentChem 的核心思路是,允许模型在输出文本形式的回复之前,先在隐空间中进行隐式的思考。
整个框架主要包含四个关键模块:ChemAdapter、Latent thinking、ChemUpdater以及 Latent Projector。
·ChemAdapter:把分子信息变成可供语言模型使用的软提示。
模型先通过分子编码器提取结构表示,再压缩成固定数量的 ChemTokens。这些 ChemTokens 会作为软提示拼接到文本指令前,为后续推理提供分子上下文。
·Latent thinking:用连续 latent states 承载多步推理。
不同于逐 token 生成文本 CoT,LatentChem 会在隐空间中生成一系列 latent thought 向量,这些向量构成了模型真正执行中间推理的主要轨迹。
·ChemUpdater:推理过程中反复“再看一眼分子”。
该研究的一个关键设计在于,每一步 latent thought 都可以通过 ChemUpdater 的 cross-attention 机制,递归地更新 ChemTokens。这意味着模型在多步推理过程中,不是一次性读入分子后就“闭门思考”,而是可以不断回看分子表示,并动态聚焦到不同的子结构或关键信息上。
叶新武表示:“我们把 Latent thinking 用于化学推理任务是比较关键的设计。基于这种机制可以动态更新大模型的 Chemtoken,可以将它理解为一种化学的记忆。”
·Latent Projector:把隐状态继续映射回可迭代的输入空间。
更新后的 hidden state 会经由 Latent Projector 映射回输入嵌入空间,作为下一步 latent 推理的基础,从而形成多步迭代的闭环。
![]()
(arXiv)
该研究中最值得关注的观察之一,是强化学习阶段模型行为的变化。在研究人员采用的 GRPO 训练中,奖励并不看思维链写得是否完整,也不要求解释过程是否漂亮,而是只看三件事:输出格式是否正确、答案是否有效以及最终结果是否正确。
在这种纯结果导向的奖励信号下,模型逐渐形成了一种稳定模式:先进行 latent thinking,再输出一个极短的过渡符号(例如 “.” 或 “:”),然后直接给出最终答案。
这说明,一旦不再被显式鼓励去“写推理”,模型会自然倾向于把主要计算留在内部完成,只输出任务真正需要的最终结果。
但需要了解的是,这并不意味着模型是在“跳步”或“偷懒”,研究团队进行了进一步因果验证。他们将前 k 个 latent steps 用高斯噪声替换,结果模型性能随噪声注入步数增加而单调下降。这表明,latent states 确实承载了关键推理信息,而不是可有可无的中间变量。
![]()
(arXiv)
研究中另一个值得关注的发现是,当隐空间预算不够,模型会重新把推理“写出来”。
如果 LatentChem 的本质只是“禁止输出 CoT”,那模型无论在什么条件下都不该再写长推理。但研究人员观察到的现象恰恰更微妙:当 latent thinking 的步数预算被压缩得很低时,模型会重新启用显式 CoT。例如,当 latent step 数量少于约 6 步时,模型更明显地开始输出文字化推理,以弥补内部计算容量不足。
这说明,LatentChem 学到的并不是一个固定的铁律,而是一种类似“液压补偿”的动态分配机制(Hydraulic Trade-off):当 latent 预算充足时,主要推理留在隐空间完成,输出更短、更快;而当 latent 预算不足时,模型则会把部分推理过程“外显”为文本,以帮助完成任务。
因此,LatentChem 的关键意义不是让模型不写 CoT,而在于证明:显式 CoT 只是推理的一种外化形式,而不是推理本身唯一的实现方式。
![]()
图丨预算压力测试(arXiv)
推理更快也更准:速度最高提升近30倍
在多个化学任务 benchmark 上,LatentChem 同时展现出更好的性能和更高的推理效率。
以 ChemCoTBench 为例,相比强 CoT 基线,LatentChem 取得了 59.88% 的非平局胜率优势,同时平均推理速度达到 10.84 倍加速。值得关注的是,在具有挑战性的阿尔茨海默病关键靶点(GSK3-β)的虚拟药物筛选任务中,LatentChem 的成功率达到 82%,相较于显式 CoT 的 67%,提升效果显著。
在更广泛的基准测试中,LatentChem 也表现出稳定优势,具体表现为:ChemCoTBench表达为59.88%,ChEBI-20则实现了85.26%,ChemLLMBench 达到 55.58%,而 Mol-Instructions 的基本持平达到 49.88%。
![]()
表丨化学基准测试的主要结果(arXiv)
推理效率方面, LatentChem 将大量文本 token 推理,压缩为更紧凑的 latent steps,整体实现了 5.4 到 29.9 倍推理加速,打破了以往“思考越深、速度越慢”的认知。对于需要探索巨大化学空间的任务来说,这种效率提升意味着: AI 可以在更短时间内搜索更多候选分子。
![]()
(arXiv)
AI科学家的“直觉”时代或正在到来
LatentChem 的意义不仅仅是一个新的化学模型,它更像是 AI 科学家系统的一块关键组件,为打破 CoT 推理范式、推动其向新方向发展提供了可行路径。
由于目前的系统未加任何限制,模型可能并非表现最优。未来,通过设计专用的方法,有望让它效率更高,以及在隐空间中思考和显式 CoT 之间的切换更准确。
目前,研究团队正在构建能够自动执行科学工作流的 AI 系统,包括:分子设计、文献分析、实验规划、假设生成以及结果验证。在这些复杂任务中,推理往往发生在结构化的连续空间,而不是自然语言中。
据介绍,LatentChem 最直接的应用是在制药领域,未来有望进一步拓展至材料设计、蛋白质折叠、气候模拟等领域。此外,他们还将进一步探索该技术范式的优化空间。
当然,这种“黑箱”式的推理也具有一定局限性。例如,当模型具体的思考推理过程不可见,对于需要严谨论证以及需要可解释性的科研场景来说,仍需要进一步权衡。
但 LatentChem 提出了一个值得思考的问题:显式 CoT 是否只是推理的一种外化形式,而不是推理本身?
该系统所展示的并不是“去掉推理”,而是把推理从文本表面,收回到模型内部。未来的 AI 科学家,或许不会把每一步思考写出来,但它们仍然在持续推理、探索和发现,只是这些推理发生在隐空间中。
LatentChem 为未来的 AI 设计展示了一种“双系统”新方向:一个高效的直觉系统,让 AI 在隐空间中完成科学推理,一个可解释的语言输出系统用于与人类沟通,有可能重塑科学发现的 AI 底层逻辑。
参考资料:
1.相关论文:https://arxiv.org/pdf/2602.07075
2.代码链接:https://github.com/xinwuye/LatentChem





京公网安备 11011402013531号