新智元报道
编辑:桃子
AI医疗,正成为全球科技巨头的必争之地!刚刚,百川智能第二款医疗增强大模型Baichuan-M2正式上线,首发即称霸全球医疗开源AI,击败OpenAI开源模型gpt-oss-120b。
在AI赛道上,医疗领域正成为全球科技巨头争夺的「C位」。
想象一下,未来每个人兜里都能揣个「AI私人医生」,随时随地给出诊断,这个画面是不是超燃?
GPT-5发布会上,一个真实的故事,让所有人感受到了AI医疗的震撼力量。
39岁Carolina在一周内,被诊断出三种癌症,面对晦涩的活检报告,她手足无措。
当上传报告到ChatGPT后,几秒钟内,复杂的医学术语被翻译成浅显的语言,让Carolina在恐慌中找到了一丝头绪,对病情有了初步的了解。
这个鲜活的案例,再次点燃了AI医疗的无限可能,也让人们看到技术如何赋能个体的深层意义。
在这条万亿美金的赛道上,中国队再次出手了。
今天,百川智能重磅发布Baichuan-M2,一款32B参数的医疗增强开源大模型。
在基准测试中,M2直接吊打OpenAI开源仅5天的gpt-oss-120b,登顶全球开源医疗模型第一。
而且,它还一举击败了除GPT-5之外的所有闭源模型。
接下来,就来扒一扒这款「医疗卷王」的硬核实力。
全球开源医疗王者,C位出道
继14B参数M1之后,Baichuan-M2是百川第二款医疗增强开源大模型,专为真实临床场景定制。
通过端到端强化学习,它在保持通用能力的同时,医疗推理能力直接「起飞」。
在OpenAI的HealthBench评测中,M2的表现非常惊艳,仅以32B参数直接干翻gpt-oss-120b,碾压Qwen3-235B-A22B-Thinking-2507、DeepSeek-R1-0528、GLM-4.5、Kimi-K2等开源前沿模型。
甚至,M2把o3、Grok3、Gemini 2.5 Pro、GPT-4.1等闭源顶尖模型也都按在地上摩擦。
要知道,HealthBench并非是简单的「刷题」测试,而是基于多轮医患对话的硬核考核。
今年5月,,由全球60个国家,262名执业医生共同打造。
这个基准包含了5000个基于现实场景的多轮医疗对话,每个对话都有医生定制的评分标准,来评估模型的响应。
具体来说,它覆盖了紧急响应、医疗上下文理解、沟通能力、全球健康知识、医学思维五大维度。
与此同时,OpenAI还推出了HealthBench Hard,从总数据集中调整选中1000个特别复杂的难题作为Hard子集。
此前,在HealthBench Hard评测中,顶尖模型得分没有一个可以超过32%,甚至很多前沿模型只能拿到0分。
Arora R K, Wei J, Hicks R S, et al. Healthbench: evaluating large language models towards improved human health[J]. arXiv preprint arXiv:2505.08775, 2025.
而Baichuan-M2和GPT-5成为全球唯二的「学霸」,直接拉高了性能天花板。
这从侧面恰恰印证了,M2在解决复杂医疗场景任务上的优秀能力。
值得一提的是,Baichuan-M2医疗推理能力强化的同时,并没有牺牲模型的通用能力。
相反,通过高质量数据训练,让M2在数学、指令遵循、写作等通用指标上性能飙升。
与最新开源的Qwen3-32B相比,M2在多方位评测中全面领先。
相较于gpt-oss-120b,M2以更低部署成本推高了「帕累托前沿」,让医院用起来毫无压力。
采用4bit量化后,模型可在RTX4090单卡部署,成本比DeepSeek-R1 H20双节点部署降低了57倍。
同时,它还适配国产芯片,让医疗机构利用现有硬件即可快速部署。
基于Eagle-3训练的MTP版本,在单用户场景下token吞吐提升了74.9%,更适用于急诊等高时效场景。
在多项「考试」中,Baichuan-M2全部通关。那么,在具体实测中,它的表现又如何呢?
代码数学,通通拿下
首先,来考考M2的通用能力。
草莓「图灵测试」,根本不用思考,一步解决。
接下来,让它生成一个绘制太阳系运行动态HTML。在推理过程中,它缜密地列出了设计思路和子任务,随后疯狂输出代码。
最后,我们就得到了一个设计精美、且直观的太阳系动态运行图。
再给它扔一道,最近连GPT-5都翻车的数学方程式求解题,M2神速输出了正确的结果。
可以看到,不论在简单问答,还是数学、代码实测中,Baichuan-M2的表现非常稳定。
而要说M2最拿手的,当然还是专业的医疗任务。
更懂中国人体质,严格遵循中国指南
AI医疗的落地,必须考虑地域差异,诸如中外患者特点、医疗服务资源与优势等等。
比如,肝细胞肝癌在中国,以乙肝相关肝癌为主,而西方更多的是酒精或丙肝相关患者。不同类型的患者,手术风险也不尽相同。
再加上,中国外科手术经验丰富、手术期管理成熟,中西方指南对于优先哪种治疗方案也各有不同。
举个栗子,在面对CNLC IIa期(BCLC B期)肝癌患者时,M2果断推荐了手术切除——解剖性肝右叶切除。
或者是,根据肿瘤具体位置,考虑扩大右半肝切除、右三叶切除等,目标是R0切除。
在此过程中,它严格遵守了国家卫健委发布的《原发性肝癌诊疗指南》(2024版),肝切除是潜在根治性治疗,追求长期生存。
针对同一病症,gpt-oss-120b却首选推荐了TACE(经动脉化疗栓塞),给出的理由是:符合BCLCB期治疗指南,当前情况下手术切除和移植风险不理想。
通过对比,它忽视了手术可行性,略显水土不服。
临床专家表示,这样的差异在大模型中常见,并非是高下之分,而是基于不同因素权衡之下的最优解。
Baichuan-M2从中国指南对齐、政策适配、患者洞察等多维度优化,让中国医生和患者感受到「专属」服务。
不难看出,对比gpt-oss系列,M2展现出对中国临床场景的更强适配性。
临床诊疗实战,M2表现极佳
相较于gpt-oss系列,在中国临床诊疗场景的问题评测中,M2具备了更强的可用性优势,堪称「六边形战士」。
接下来,再看个真实的案例。
一个15岁男孩,持续咳嗽两个月,逐渐出现了呼吸困难,服用头孢后无改善,初步诊断为「重症肺炎」,并伴有心包积液。
在医生看来,这并非是普通的肺炎,入院后给男孩做了一系列检查后,但还没有拿到进一步支气管病理检查结果。
为了进一步明确诊断,医生将病历上传到Baichuan-M2。
令人欣喜的是,M2就像一位熟练的「AI医生」,全面复盘了病史、体格、影像和化验数据。
没多久,它便锁定了关键线索——支气管内占位。
在初步诊断中,它逐条引用了每一项检查数据,形成了完整的证据链。
此外,M2还预警了呼吸衰竭、心包填塞等风险,并给出应急方案。
最后,它会提供了下一步检查与管理建议,形成了一个完整的「闭环」。
当然,为了确保所有推理过程有迹可循,输出全部结果后,M2也会提供详细的参考来源,方便验证。
国家儿童医学中心专家对M2的表现赞不绝口,「在医学正确性、证据链推理、可操作性上,M2展现出极强的专业性,并在风险预警方面的表现可圈可点。
此外,它还将患者既往病史与当前病变联系,为医生打开了更广阔的思路」。
不仅如此,通过与北京市海淀区卫健委、北京大学第三医院、国家儿科医学中心等权威机构合作,Baichuan-M2已在多个真实病例中,展现出超越传统AI的专家级临床思维。
核心技术揭秘,强化学习立功
Baichuan-M2的成功,就藏在了一套「黑科技」组合拳里。
从Large Verifier System,到中期训练(Mid-Training),再到端到端RL、工程优化,每一步都打下了坚实的基础。
Large Verifier System
在Baichuan-M2构建过程中,Large Verifier System成为了核心,其基于可验证奖励强化学习(RLVR),针对医疗场景的复杂性而量身设计。
为什么百川团队,选择构建Large Verifier System?
近一年来,大模型后训练范式发生了重大升级,特别是基于RLVR大规模RL训练,让模型在数学、代码、科学等领域效果爆棚。
这些领域的问题,往往有着明确的答案和可验证的标准。
比如,在数学问题中,模型的输出可以直接通过设计验证是否准确,从而生成可靠的奖励信号,用于指导模型优化。
然而,医疗问题远比这些领域复杂的多,传统RL验证系统在医疗领域效果不佳。
不同于数学的「对错分明」,医疗诊断没有绝对的「标准答案」,同一症状可能对应多种疾病,并需要多轮交互和证据链推理才能锁定。
静态的RL,无法处理这种情境,同时也难以模拟真实临床中的各种噪声。
在这个过程中,百川团队升级了底层原理的认知——
可验证性才是RL for LLM系统的学习的前提,尤其改善真实场景复杂问题的可验证性,才是继续提升模型能力的关键。
这一点,与CoT作者Jason Wei最新博客的观点,不谋而合。
为此,百川在通用Verifier基础上,结合医疗场景的独特性,设计了一套全面的医疗Verifier系统。
核心方法是,通过医疗关键子场景的医生思维数据训练,让Verifier与人类医生的临床逻辑对齐,再展开端到端强化学习。
简单说,这不是死板的规则匹配,而是活生生的「医生大脑」模拟,让模型在真实医疗任务中越练越牛。
1. 三类「黄金数据」,训出最强医生大脑
要让模型懂医疗,需要「投喂」高质量数据。
百川团队精心挑选了三种医疗数据作为基础输入,每一种都针对不同痛点,层层递进:
· 患者病历数据:记录了海量患者信息和诊疗细节,很多临床思维就藏在病历中,从症状描述到诊断推断,再到治疗方案,全是真人医生的实战经验。
· 医学知识库数据:包括书籍、论文、指南等硬核资源。这些是医疗大模型的「知识基石」,确保回答符合「医学常识」和「临床经验」,还降低安全风险。
· 通用医疗合成数据:为了适配患者、医生、护士等多方需求,百川构建了面向不同场景的通用医疗verify任务,覆盖了八大维度,比如医学准确性、回答完整性、追问感知等。
2. 患者模拟器:首创AI患者,模拟实战演练
有了多源数据还不够,真实的临床场景,可没有那么理想化。
患者表达往往具有种种噪声:因年龄、文化、教育背景等差异,症状描述可能模糊带有偏见,甚至遗漏关键信息。
这对传统RL系统是一大挑战,它们仅会基于固定答案、规则进行匹配。
百川团队希望,通过训练让M2具备「鲁棒性」和「自适应性」。
在噪声环境下,不仅可以实时重评估诊断假设;还能根据信息质量,动态调整回复策略。
为了实现这一目标,百川基于此前研究,引入了患者模拟器——一个基于真实病例数据构建的AI系统。
它能特定疾病背景、个体特征和行为模式的虚拟患者,相当于捏一个「AI病人」。
在医患对话中,它会提供真实的症状表达和交互反应,还带有「人性化噪声」。
值得一提的是,这是行业首创技术,百川早在今年1月就发表了相关论文,瞬间圈粉无数。
论文地址:https://arxiv.org/pdf/2501.09484
在多轮对话的RL过程中,虚拟患者与医生LLM实时互动,生成式Verifier根据这些信息动态生成评分标准,进行优化。
这项技术核心创新在于,把RL的奖励从静态函数变成动态生成系统。
也就是说,不再是预定义的死规则,而是基于真实场景特征的活机制。
这样一来,大大提升了医疗模型在复杂临床环境中的适应性和决策质量。
这种「实战演习」,恰恰让M2在处理复杂医疗场景的任务中,远超传统模型。
中期训练:医疗领域适应性增强
一般来说,通用大模型在医疗应用中有三大痛点:医学知识储备不足、权威性欠缺、时效性滞后。
若是直接进行后训练(post-training)容易陷入两难,要么是知识汲取不够,要么是幻觉加剧。
对此,百川的解法是中期训练(mid-training),在保持通用能力的同时,轻量高效地增强模型医疗领域的适应性。
这里,百川团队精选了公共医学教材、临床专著、药品知识库、最新诊疗指南和真实病例,形成专业库。
在数据合成阶段,重点强化两维度——「结构化表达」和「深度推理增强」。
结构化表达:基于知识保真原则,改写原始文本,提升逻辑流畅度,同时严控幻觉引入
深度推理增强:在知识密集段落和关键结论处,自适应插入思维笔记,如知识关联分析、批判性反思、论证验证、案例推演
在训练策略上,为了防止通用能力退化,百川用2:2:1配比高质量医疗、其他通用和数学推理数据,并引入领域自约束机制,确保了医疗专业性,以及语言理解、推理能力的双赢。
具体来说,医疗数据采用双任务范式,通用和数学数据以通用基座为参考模型,用KL散度约束输出分布。
这种方案,在医疗知识密度、推理深度和通用性之间,达到了完美的平衡,为后续指令微调打下了坚实基础。
得益于此,M2不仅在医疗任务上强得一批,更在通用任务中稳如老狗。
端到端强化学习:多阶段RL,训练效率拉满
在强化学习阶段,百川采用了多阶段强化学习的策略,把复杂RL任务拆解成可控层次。
针对不同能力目标、数据来源、评测机制,逐步引导模型演进。从医学常识推理,到患者交互,一层一层提升。
相较于单阶段RL训练,多阶段强化能有效分解训练难度,分阶段采集和放大reward信号,能提高模型泛化和鲁棒性。
最终,可以保证M2在复杂医疗场景的实战表现。
具体来说,百川团队采用了一个改进版GRPO算作为策略优化算法,并结合了开源社区提出的一些改进,确保多分布多来源数据上强化训练的稳定与高效。
·Eliminating KL divergence:添加KL会大幅拖慢奖励增长速率,还额外耗费参考模型计算资源,剔除后可以让训练更加高效。
·Clip-higher:提高重要性采样的剪裁上限阈值,并保持剪裁下限阈值固定,能够缓解熵值收敛问题,从而让模型探索新的解决方案。
· Loss normlization:面对多来源数据回答长度不一的痛点,把token级损失除以一个固定最大长度再求和,彻底消除原来GRPO的长度偏见。
·Advangtage normlization:针对多任务学习难度差异,一出优势计算中「除以标准差」的步骤,大幅提升多任务强化时的策略更新稳定性。
·Dynamic Length reward:当一批样本中,大多数得分超阈值时,才给高分样本加一个负相关长度奖励,鼓励更短、更高效的输出,不会限制模型探索高奖励空间。
在工程优化上,复杂的verify系统让奖励评分耗时飙升,百川在verl基础上,开发了完全异步的rollout+reward流程,基本消除了训练中的等待时间,让整个过程丝滑高效。
以上创新,得以让Baichuan-M2以小博大,还能在实战中大放异彩,这充分展现了百川团队深厚的技术实力。
国际医疗AI共识崛起,百川领跑
放眼全球,AI+医疗,绝对是当下最火的科技风口之一。
医疗领域已成为AI发展的首要方向之一,这一点在国际上,已形成了广泛的共识。
诺奖得主Demis Hassabis曾乐观地表示,未来十年,AI将会治愈所有疾病,甚至可以助力新能源的开发。
AI教父Hinton曾多次强调,AI成为每个人的私人医生,服务数百万患者;比尔盖茨也曾预言,未来十年高质量的医疗建议将免费普及。
在美国,这一共识早已转化为行动。
2025年,美国AI新晋独角兽中,AI医疗公司占比超过50%。
头部企业如Abridge、Openevidence、Hippocratic AI吸金无数,资本用真金白银投票,AI医疗的前景不言而喻。
就连OpenAI、谷歌DeepMind、微软等科技巨头,也将医疗视为核心领域。
如前所述,上周的GPT-5发布会上,奥特曼曾重点分享了ChatGPT在医疗健康领域的价值,并实际应用到了Oscar临床诊断中。
然而,与国际上对AI医疗的强烈共识和巨大投入相比,中国在这块的认知还不够深入。
在这样的背景下,百川智能作为国内最早专注医疗领域的大模型创业公司,展现出极具前瞻性的战略眼光。
成立伊始,团队就将医疗作为核心方向之一,投入了大量资源构建医疗专用数据集和大模型。
具体来看,百川的AI医疗进展可圈可点。
同月,团队在arXiv上发表了M1背后技术——「AI患者模拟器」的论文,这项创新不仅填补了国内医疗AI空白,还为全球提供了可借鉴的范式。
如今,基于患者模拟器,Baichuan-M2历经半年多迭代升级,在HealthBench等评测中取得了更大的突破。
M2的发布,不仅是医疗领域的新里程碑,更是百川作为中国企业走到世界AI医疗最前沿的生动证明。
它将彻底点燃AI医疗的开源生态,推动AI医疗走向更平权、更智能的未来。
未来,当AI私人医生普及,每个人都能平等获取顶尖医疗资源,罕见病不再是绝症....这不仅仅是AI的逆袭,更是人类健康的革命性飞跃。
这波AI医疗革命,中国AI冲在了最前面。