当前位置: 首页 » 资讯 » 新科技 » 正文

国产医疗大模型斩获三项SOTA!幻觉率优于GPT-5.2,问诊能力超过人类医生

IP属地 中国·北京 智东西 时间:2026-01-14 18:30:25


智东西
作者 陈骏达
编辑 漠影

我盯着屏幕上的AI诊断建议,反复读了三次。AI用清晰的专业术语罗列了可能的病因,可我的焦虑却没有丝毫缓解。

如果疼痛加剧该怎么办?这些药需要一起吃吗?我该先去哪个科室挂号?这些真正困扰普通患者的问题,答案里只字未提。AI似乎什么都懂,可我依然不知道该怎么做。


这也正是当前将AI大模型应用于医疗健康产场景的尴尬所在:它们能给出看起来专业感十足的回应,却撑不起一个真正的医疗决策。

作为患者,我们既不知道该怎么描述症状才算准确,也不清楚该提供哪些关键信息。最终,AI只能谨慎地给出一段涵盖各种可能性、却难以落地的建议。

如果,它能更像一位真正的医生呢?不急于抛出结论,而是先一步步引导,主动补齐医疗决策中缺失的那几块关键信息,比如疼痛的具体变化、用药史,或是过往的检查结果。

这,或许才是大模型真正走入现实医疗场景、发挥作用的转折点。

一、从机械问答到主动提问,会问诊的“AI医生”什么样?

昨天,百川智能开源的新一代医疗大模型Baichuan-M3,正是在上述方向上做的一次革新。

如果说传统医疗大模型像是医学知识问答机或医生角色扮演器,那么百川的追求,是尽可能还原真实的医疗决策过程,让模型具备主动收集关键信息、构建医学推理链路、动态抑制内容幻觉等原生医疗增强能力。

我们可以用下方这个案例,来感受Baichuan-M3与此前其他大模型的区别。

比如,当我向通用大模型发送“胸口长了个痘痘,两个月没消”这样的模糊消息时,没有主动收集信息能力的大模型,往往会基于有限的信息,直奔结论,列举出海量相关症状,让人一时间不知如何是好。


而当我与Baichuan-M3交互时,其“严肃问诊”带来的体验则完全不同。发送了相同的信息后,模型会主动要求我给予更多描述,比如具体长在哪个位置,看起来是什么样的,还贴心地给了对应的选项,供我回复。


Baichuan-M3逐步排查了吸烟史、手术史、外伤史、感染史等关键要素,也问了问我的饮食习惯,家族病史,直到它认为获取了足够完整的信息后,才决定给出判断。


这种直观的体验提升,也在榜单上得到了充分体现。去年5月,OpenAI发布了Healthbench。这一基准测试由来自60个国家的262位医生共同构建,收录了5000组高度逼真的多轮医疗对话,是目前较为权威、且贴近真实临床场景的医疗评测集。

长期以来,在Healthbench和HealthBench-Hard榜单上,霸榜的一直是GPT系列模型,Baichuan-M2此前曾冲到开源第一的位置,仅次于GPT-5。

此次发布的Baichuan-M3,则在HealthBench总分上超越OpenAI最新模型GPT-5.2,也在HealthBench Hard上登顶,成为当前全球医疗沟通和推理能力最强的医疗大模型。


在严肃的医疗场景,幻觉率也是一个十分重要的指标。常常被不少患者带着一同前往诊室,寻医问药的DeepSeek,幻觉率大概在6.1%左右,目前业内做得最好的GPT-5.2-High,幻觉率则在3.8%左右。Baichuan-M3则做到了3.5%的幻觉率,同样也是行业SOTA水平。


随着Baichuan-M3的问世,百川也同期发布了一项新的测评集——SCAN-bench。这项基准测试由150多位一线医生联合打造,能将诊疗过程拆解为更符合真实场景的病史采集、辅助检查、精准诊断三大阶段,对模型能力做出更全流程的评估。

在SCAN-bench上,M3在四个重要维度上,均显著高于人类医生基线水平,还大幅领先于国内外顶尖模型。


全新的使用体验与亮眼的榜单成绩背后,百川究竟做对了什么?

二、SCAN原则、强化学习多管齐下,教会AI“像医生一样思考”

在与百川的沟通中,我们了解到,百川内部其实有不少真正的临床医生,他们有的是从大医院辞职到百川全职工作,也有的在业余时间深度参与。这些一线医疗场景的Know-how,成为指导百川提升医疗大模型表现的重要参考。

比如,临床医生在面对患者时的行事逻辑往往是先排除危急重症,然后进行常规诊疗。但基于角色扮演的医疗AI问诊模式,往往无法践行这种安全优先级。没有关键风险点的牵引,问诊本身有可能失去重点,无法支撑安全可靠的临床判断。

为解决上述问题,百川需要的是一种范式的革新。他们提出了“严肃问诊范式”与“SCAN原则”,把临床问诊里的思维过程归纳为:Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与Normative Protocol(规范化输出)。

Baichuan-M3登顶的SCAN-bench,正是在这一原则的指导下打造的。这一基准测试的三大阶段、多轮动态考核模式,可以更完整地模拟医生从接诊到确诊的全过程。


如果说SCAN原则、严肃问诊范式,像是给大模型出了一套医疗AI领域的模拟题,那么百川接下来要做的,就是把这套模拟题中的解题思路与评分标准,系统地内化为模型的核心思维框架与行为本能。

传统的强化学习算法,往往基于最终的结果给予模型奖励信号,但是这套模式在医疗决策场景往往会水土不服。一个医疗决策的背后,往往涉及诸多复杂的环节,一个环节出错,就有可能影响最终的结果。

百川的解法是把医疗流程划分为病史采集、鉴别诊断、检验检查和精确诊断四个阶段,这些阶段相互依赖,但是目标是独立的。这就允许百川的团队在训练过程中给每个环节配备独立的奖励机制,让长程决策的复杂度降低。

在强化学习中,另一个常见的问题是“奖励破解”——模型总是能以千奇百怪的捷径,找到拿高分的方式。比如,只要疯狂提问,或许就能刷高分数,但这往往不是我们想要看到的结果。

为此,百川开发了SPAR(基于相对基准的分步惩罚优势算法)。这一算法进一步细化了步骤惩罚机制,还加入了自适应课程学习的因素,最终有效遏制了无效提问。这一算法还解决了模型出现单步瑕疵时的奖励误判,能更为准确地给模型提供指导。


此外,百川使用的强化学习奖励模型还融入了医学教育中的OSCE(客观结构化临床考试) 理念,将可计算的动态量表作为奖励标准,不再单纯追逐结果的对错,而是进行全维度的过程考核。

最终效果就是,经过训练的“AI医生”,整个问诊过程变得流畅、清晰、有逻辑,每一步都稳扎稳打,像一个真正在思考的医生,而不是一个只会背诵知识或耍小聪明骗分的机器学生。

Baichuan-M3在医疗推理能力方面的提升,以及幻觉率的下降,则得益于他们提出的事实感知强化学习(Fact-Aware RL)训练架构

在这一架构中,百川没有把幻觉约束和推理能力作为两个单独的目标进行优化,而是将其结合成一套统一的工程化目标。这样既能保证模型敢于给出坚定、明确的医学判断,也不会使其因过度追求安全而陷入“正确但无用”的沉默,或为追求流畅而滋生危险的事实性幻觉。

简单来说,这套方法让模型学会了一种“负责任的自信”

三、医疗AI奇点到来,有望缓解行业四大问题

在Baichuan-M3发布之际,我们也来到了百川在北京的办公室,与百川智能创始人兼CEO王小川面对面深度沟通。

此前,百川已在医疗AI方面取得一系列成绩。其开源模型M2发布后,月下载量超过十万次,累计下载近百万次,被业界视为“2025年影响力最大的开源医疗模型之一”。

随后的M2 Plus进一步引入“六元循证”系统,将幻觉降至基线模型的约三分之一,技术实力已吸引同行跟进甚至“挖人”。

对王小川而言,他认为今年是医疗AI奇点到来的一年,范式变革已经真正开始了。以医生为权威、为中心的模式正在逐步开始变化,AI工具提供的更多信息,让患者开始能够对自己健康负责任。

其实,做医疗,一直是百川的一条主线,这源自王小川对当前医疗体系四个根本性问题的认知。

首先,尽管如今我们已经能治愈各种复杂的疾病,但作为一门学科,医学本身仍是高度不发达的,仍处于“现象密集、理论滞后”的阶段。

这并不是百川的一家之言,此前,AI教母李飞飞也曾表达过类似的观点,医疗其实是一个黑暗的空间。人的行为和动作在其中扮演了重要,甚至是过于重要的角色。

同时,医患角色也存在错位的问题,决策权与受益权分离。患者是健康的最终受益者和责任人,但决策权和海量相关信息却掌握在医生手中。然而,医生并不总是能有时间、有条件准确地传达这些信息,可能会沟通不畅、患者体验不佳。王小川比喻,这如同“圣经的解释权只在教士手中”

此外,医疗体系还面临优质医生资源不足且分布不均,就医体系重心偏高,大医院负荷重,基层与居家健康环节薄弱等结构性问题。

而像Baichuan-M3这样的医疗AI的价值,正在于能够同时从这几个维度寻求突破。大模型熟练掌握全科知识,能对一项具体的病症展开跨学科、跨领域的分析,往往超越人类医生的知识范畴。

医疗AI也让优质医疗服务进一步下沉,并通过为患者提供更多看得懂、能理解的信息,推动决策权回归患者自身。王小川相信,就像不懂法律的陪审团也能通过律师和法官的充分解释,得出判断一样,患者只要掌握了足够的信息,也能对自己的健康做出负责任的决定。

结语:走少有人走的路

在采访中,王小川向我们提及了一组数据:“去年行业发了500个AI医疗模型。”不过,相信对许多患者和普通用户而言,更多与医疗相关的AI对话,可能是发生在DeepSeek、豆包这样的通用AI助手中。

王小川对这一现象并不焦虑,他认为垂直模型能在医疗上做得比通用底座更好。百川对医疗行业理解更深,选择了一条少有人走的路,对医疗AI本身也有信仰。

今年,百川计划陆续推出2款面向C端的产品,除了全科覆盖之外,还会在肿瘤、儿科这两大最复杂、最能体现严肃医疗价值的领域重点发力。未来,我们或许还能看到百川在更多领域,给广大用户带来的惊喜。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。