![]()
新智元报道
编辑:KinHZ 元宇
AI最强幻觉,原来不是不会,而是太会「装会」。 「你是专家」这句咒语,可能骗了整个AI圈一年。
人生如戏,全靠演技,但AI不行——
最新论文证实,「让AI装专家」会可测量、持续地降低模型的准确率。
![]()
链接:https://arxiv.org/pdf/2603.18507
过去一年,AI圈最成功的骗局之一,可能就是这句话:
你是XX专家。
无数教程把它吹成神级提示词。
这句话几乎被包装成了大模型时代的「黑魔法」:只要人设立住,AI就会突然开窍。
但现在,最新论文给了所有人一记耳光:
这句神提示词,可能根本不是外挂,而是毒药。
研究发现,当AI被要求扮演「专家」时,它并不总是更聪明,反而会更像一个坚持人设的「假专家」:
不愿承认不知道,不愿暴露犹豫,不愿停下来仔细想,最后选择用一种极其专业、极其自信、极其像那么回事的方式, 把错话说圆。
![]()
图 1: 专家角色在不同模型、任务类型、信息粒度及位置的影响分析
上图1中给出的结果非常直观:
长专家人设在5个生成类别上有显著提升,但在硬核的MMLU知识基准上,加了人设后准确率全面跌破71.6%的基线,哪怕是最短的人设也掉到了68.0%,而详细的长版本人设更是惨跌至66.3%。
安全场景则相反,「安全监督员」人设能显著提高拒绝越狱攻击的概率,在JailbreakBench上拒答率从53.2%升到70.9%。
因此,这篇论文最值得关注的一个地方,不只是它提出了「专家人设可能有害」,而是进一步解释了:为什么过去关于Persona prompting(人格提示)的研究,结论总会相互矛盾。
幻觉的开端
当你对大模型念出「你是专家」
研究人员发现,Persona prompting的效果并不是全方位的增益。
它的表现强烈依赖任务类型、模型训练方式、提示长度,以及人设到底放在system prompt还是user prompt里。
研究者把任务大致分成两类:
一类是「判别式任务」,更依赖预训练记忆,比如事实检索、知识判断、多项选择题;
另一类是「生成式任务」,更依赖对齐能力,比如格式遵循、风格控制、安全拒答、人类偏好匹配。
结果显示:
在安全防御、偏好对齐等「生成式任务」上,专家人设确实是个好工具。
但在知识检索、事实判断这类极度依赖预训练记忆的「判别式任务」上,专家人设却成了拖后腿的。
![]()
大模型「偏科」热力图:蓝色代表能力提升,红色代表能力受损。在普通指令微调模型(左图)中,大量出现的红色色块显示:所谓的专家人设正在全面破坏模型的客观知识准确度。
换句话说,专家人设提升的,很多时候不是「真实性」,而是「对齐感」。
在MT-Bench这类更偏生成质量的任务里,专家人设能提升写作、角色扮演、抽取、STEM表达等类别表现。
但到了MMLU这种更依赖知识检索的基准上,所有专家人设版本都在掉分。
这解释了一个很多用户都曾遇到过、但又说不清的体验:
为什么同一个模型,写邮件时像个训练有素的顾问;一到数学、事实核查、代码细节,反而一本正经地胡说八道?
因为它真的更像专家了,但未必更擅长把底层记忆准确调出来。
论文里甚至给了个很讽刺的例子。
掷两枚骰子,点数和至少为3的概率是多少?不加数学人设时,模型基本答对,给出35/36。
加了数学专家人设后,它却开始一本正经地列步骤,最后把简单概率题算错。
你能明显感觉到,它不是不会「表演数学家」,而是太像在「做数学的样子」了。
我们奖励的是「像专家」,还是「答得对」?
今天很多用户判断一个模型好不好,第一标准并不是「它是不是更接近事实」,而是「它是不是说得稳、说得顺、说得像专业人士」。
只要它结构完整、术语到位、语气沉着,用户就会天然提高信任度。
这正是大模型最危险的一类幻觉:不是胡说八道,而是用极其专业的方式说错话。
从训练逻辑看,预训练阶段,大模型主要学到的是知识记忆、模式统计、事实关联、语言规律;后续的指令微调和RLHF,则更多在塑造它「怎么说」「怎么更像人类偏好的回答者」。
论文的关键判断就在这里:
专家人设本质上更容易激活的是后者,也就是风格、格式、意图跟随和安全边界这些对齐能力;但当任务需要的是直接、精准地调用预训练知识时,额外的人设上下文可能反而会干扰检索。
你可以把它理解成一种「对齐税」:模型为了更符合你期待中的专家样子,牺牲了一部分事实调用的准确度。
相关研究也反复证实,Persona prompting并不总能带来稳定提升,有时甚至会因为引入了不相关的人格属性而产生难以预料的负面影响。
所以,真正的问题其实不在于「人设」本身,而在于我们把风格控制、价值对齐、事实判断、推理求解,这些完全不同的任务,粗暴塞给了同一种Persona机制。
让模型在写一封安抚用户的邮件时像个成熟顾问,没毛病。
让模型在面对危险请求时像个安全审查员,也没毛病。
但让它在做概率题、答医学事实、查法律条文时,先进入一段长长的「专家角色扮演」,这可能从一开始就走错了方向。
救赎之道
路由分配才是正解
那是不是从此以后,专家人设就该扔掉?
当然不是。
如前文提到的,研究人员同时发现,专家人设在「生成式任务」等更依赖对齐能力的特定场景下仍然具有不可替代的价值。
所以,核心关键根本不是「用不用」,而是「什么时候用」。
为了解决这个痛点,研究人员发明了PRISM算法(Persona Routing via Intent-based Self-Modeling,基于意图的自举人格路由)。
这个系统不给AI固定一个角色,而是先看懂用户真实意图,再动态路由分配正确人设。
![]()
图中展示了两种自动选择专家角色的方法。PRISM通过LoRA适配器动态分配合适人设,无需外部资源即可保留对齐益处、维持判别任务准确性
PRISM的核心思路非常精妙:
它不再在推理时给模型生硬地套上专家prompt,而是把所有专家人设中有益的部分,提前「浓缩蒸馏」到了一个轻量化的门控LoRA适配器(Gated LoRA Adapter)中。
在真正面对用户问题时,PRISM的门控机制只做一道极简的二元选择题:
开启「专家外挂」,还是退回 「朴素模式」。
用户问「帮我写代码」或「进行高情商安抚」,系统判定需要对齐能力,门控瞬间激活LoRA适配器,调出内化好的专家水平;
用户问「客观数学计算」或「事实核查」,系统判定人设会产生干扰,门控立刻关闭适配器,让未经修饰的基座模型用最纯粹的预训练记忆去准确作答。
整个PRISM提取过程不需要额外数据、额外模型、额外算力。
成本并不高,训练一个门控单LoRA版本,在A100上大约45分钟,额外开销也比较小。
具体而言,PRISM训练流程分为五大阶段:
(1) 以人设提示词为条件生成查询;
(2) 按人设作答,生成多种人设下的回复;
(3) 通过成对比较进行自验证,从而筛选蒸馏数据集;
(4) 进行路由器/门控模块训练,学习基于意图的路由机制,以判断何时启用人设会更有帮助;
(5) 通过LoRA进行自蒸馏,让模型内化这些人设行为。
PRISM想做的不是让AI「更会演」,而是「该演的时候演,该准的时候准」。
结果很炸裂:
在保持极低算力开销的同时,大模型终于能在「高情商生成」与「硬核知识检索」之间实现丝滑切换。
PRISM不仅在生成式任务上大幅提升了人类偏好与安全对齐得分,还完美保住了判别式任务的客观准确率。
![]()
Qwen等五个模型及MT-Bench等三个基准维度上的综合评估
在Qwen2.5-7B上,单纯做专家提示时,整体分数是72.2,和基线71.8差不多,说明「有得有失,基本互相抵消」。
但PRISM能把整体拉到73.5,MT-Bench从7.56提到7.76,同时把MMLU维持在71.7%,基本不伤知识准确率。
Mistral-7B上更明显:
专家提示会把整体表现从79.9打到71.4,但PRISM可以做到81.5,甚至高于基线。Llama-3.1-8B上,PRISM也把Overall从67.5提高到70.3。
这意味着:提示工程的下一阶段,可能不再是「写一个更长、更唬人的专家人设prompt」,而是「把任务拆清楚,再决定是否启用人格化对齐」。
这时,PRISM像聪明的中介,先看清问题本质,再派对的人上场。
大模型这时的表现既专业,又老实,再也不会去用错误换好评。
行动起来
就现在
所以,别再第一句话就喊「你是专家」,试着把PRISM这样的动态路由用起来。
让AI根据问题真正需要什么角色,而不是永远戴同一张面具。
![]()
图4:在Qwen2.5-7B-Instruct模型上,门控网络将查询路由至LoRA的比例与各类别在专家角色影响下的表现之间的关系
如果你是开发者,请开始关注PRISM这样的底层意图路由机制,让模型在权重层面就学会「该演就演,该准就准」。
如果你是普通用户,现在就可以行动。
打开对话框,在遇到硬核知识核查、逻辑推演时,把那句自作聪明的「专家咒语」果断删掉。
换成一句最干净的指令:「请一步步客观推演,如果不确定就直接告诉我」。
少给AI加戏,它才能真正开始思考。
而你,也会第一次听到它说真话。
参考资料:
https://x.com/sukh_saroy/status/2035761644270411994?s=20%20
https://arxiv.org/abs/2603.18507





京公网安备 11011402013531号