王小川继今年4月发布全员信、表明未来聚焦医疗方向后,8月11日,旗下百川智能发布开源医疗增强大模型Baichuan-M2。
8月8日在GPT-5发布会上,OpenAI首席执行官山姆·奥特曼强调在AI医疗大模型标准HealthBench的测试中,GPT-5得分高于其之前的任何模型。百川智能方面则透露,此次开源的更小尺寸模型实现了医疗能力反超,在所有开源模型中位居世界第一。
测试排名出自AI医疗大模型标准HealthBench。
据了解,早在今年1月,百川智能就在行业内首发“AI患者模拟器”。据介绍,人类医生在听取患者描述病情时,很容易分辨患者描述中的逻辑漏洞、从含混不清的表达中辨别出真实病因。现实中患者几乎无法全面准确表达自己的症状,仅基于静态的病例、指南等医疗数据训练,模型无法掌握人类医生的这一能力,AI患者模拟器就为突破这一瓶颈。
今年1月,百川智能用真实数据构造上万个不同年龄性别症状的AI患者模拟了数百万次诊疗过程,并开源了首个医疗增强模型Baichuan-M1。7个月后,百川技术团队升级迭代了AI患者模拟器,并引入模型端到端强化学习、训练的Baichuan-M2在HealthBench等评测上取得更大突破。
针对医疗领域用户隐私考虑下的模型私有化部署需求,百川智能对Baichuan-M2进行了极致轻量化,量化后的模型精度接近无损,可以在RTX4090上单卡部署,相比DeepSeek-R1 H20双节点部署的方式,成本降低了57倍。针对国产主流芯片的开发和适配,多数医疗机构利用现有硬件条件即可实现快速部署。
百川智能方面还表示,Baichuan-M2医疗能力极大增强后模型通用能力不会下降。据悉,头部大模型企业主要用数学和代码数据进行强化学习,百川是首个将医疗数据用作强化学习的中国团队,同时也验证了高质量医疗数据对于模型通用能力的增长具有较高价值,M2模型在数学、指令遵循、写作等通用核心性能上不降反升,因此这个模型也可应用于医疗以外的其他领域。
另外,百川智能方面透露,在中国临床诊疗场景的问题评测中,对比GPT系列模型,Baichuan-M2展现出更明显的可用性优势。“在一个具体的真实案例中,针对CNLC IIa期(BCLC B期)的肝细胞肝癌患者,Baichuan-M2首推在具备手术条件的情况下进行解剖性肝右叶切除手术(或根据肿瘤具体位置,可考虑扩大右半肝切除、右三叶切除等),目标是R0切除。在国家卫健委最新发布的《原发性肝癌诊疗指南》(2024版)中,肝切除术是潜在根治性治疗,可提供最佳的长期生存获益,Baichuan-M2严格遵循这一方案。”
据悉,目前Baichuan-M2已在北京市海淀区卫健委、北京大学第三医院、国家儿童医学中心等一线医疗场景中实测验证。
采写:南都N视频记者 林文琪