1 月 13 日,美国食品药品监督管理局(Food and Drug Administration, FDA)发布了一份指导草案,正式表态支持在药物和生物制品临床试验中使用贝叶斯方法论(Bayesian Methodology)。
![]()
(FDA)
所谓贝叶斯方法,是一种基于贝叶斯定理的统计推断框架。其核心逻辑是:在观察到新数据之前, 研究者对某个参数 (比如药物在儿科人群中的疗效) 已有一定的先验认知。
比如知道该药物在成人群体的药效,这被称为“先验分布”:当新的试验数据产生后,通过贝叶斯定理将先验认知与观测数据结合, 计算出更新后的“后验分布”,从而对参数做出概率性推断。
简单来说,贝叶斯方法允许研究者合法地、系统地利用历史信息和外部证据,而不是每次试验都从零开始。
FDA 局长马蒂·马卡里(Marty Makary)在声明中直言:“贝叶斯方法论有助于解决药物开发的两大难题:高昂的成本和漫长的时间线。”这一政策调整源于《处方药使用者付费法案》第七次重新授权(Prescription Drug User Fee Act VII, PDUFA VII)的承诺,旨在加速创新疗法从实验室走向患者床边。
![]()
图 | 马蒂·马卡里发布关于新指南的视频(X)
长期以来,FDA 临床试验的设计与分析几乎完全依赖频率学派统计方法(Frequentist Statistics)。这套体系建立在假设检验和 p 值的基础上——研究者需要预设一个“零假设”,然后通过试验数据判断能否以足够小的概率(通常是 5%以下)推翻它。
频率学派要求每个临床试验都是相对独立的统计单元,只能使用当前试验中收集的数据进行推断。历史试验的结果、真实世界的疾病数据、甚至已经发表的研究结论,都无法正式纳入统计分析框架。
更关键的是,频率学派给出的是一个二元判断——要么“有统计学显著差异”,要么“无显著差异”——却无法直接回答临床医生和患者最关心的问题:这个药物有多大概率真正有效?
尤其是在罕见病和儿科药物开发中,频率学派的限制格外突出。假设一种遗传性疾病全球仅有数百名患者,按照传统设计,一项具有统计效力的随机对照试验可能需要招募几十甚至上百名患者才能达到“显著性”标准,但这在现实中根本无法实现。即便勉强凑够样本量,试验周期也会拖得极长。
以杜氏肌营养不良症(Duchenne Muscular Dystrophy, DMD)为例,这种影响儿童的罕见肌肉疾病全球患者不足数万人,且病情进展迅速。传统频率学派试验设计要求数年随访才能观察到足够的临床事件,而患者的身体状况根本无法等待。
此外,频率学派严格的“试验独立性”原则意味着,即便某种疗法在成人群体中已经证明安全有效,但针对儿童的试验仍需从零开始收集数据。这不仅浪费资源,也带来伦理困境——明知可能有效的药物,却要让一部分儿童接受安慰剂对照,或者因为无法招募足够受试者而让整个儿科适应症开发计划搁浅。
相较之下,贝叶斯方法提供了一种截然不同的思路。它的将“先验信息”(Prior Information)与当前试验数据结合,形成“后验分布”(Posterior Distribution),从而给出关于疗效或安全性的概率陈述。
举个具体例子:假设一款治疗高血压的药物已经在 18 岁以上成人中完成了大规模临床试验,证实能降低血压且安全性良好。现在需要在 12-17 岁的青少年中进行试验。
![]()
图 | 贝叶斯统计示意图及创始人托马斯·贝叶斯(Medium)
传统频率学派要求青少年试验完全独立设计,可能需要数百名受试者。而贝叶斯框架允许研究者将成人试验的数据作为先验信息,基于药代动力学和药效学的相似性,合理推断青少年群体的预期疗效范围。这样一来,青少年试验只需要 50-100 名受试者就能获得可靠结论,试验时间也从 3 年缩短至 18 个月,同时推断的精度反而更高,因为整合了更多相关信息。
FDA 此次发布的指导文件列举了贝叶斯计算的几种典型应用场景。第一,在适应性试验(Adaptive Trials)中提前判断无效性或成功。传统试验通常设定固定的中期分析时点,而贝叶斯框架可以根据累积数据动态计算“成功概率”和“无效概率”。如果某个治疗组在招募 100 名患者后,后验分布显示有效概率低于 10%,可以立即终止该组,将资源转向更有希望的剂量或治疗方案。
第二,为后续试验提供剂量选择依据。早期探索性试验往往样本量有限,频率学派分析可能无法给出明确的剂量建议。贝叶斯建模可以整合药代动力学数据、生物标志物反应和初步疗效信号,计算出不同剂量在后续试验中成功的概率分布,帮助申办方做出更有信息量的决策。
第三,整合外部对照组或非同期对照的数据。在某些罕见病中,由于疾病自然史数据充分且疾病进展模式稳定,可以使用历史对照数据作为先验信息,减少甚至避免安慰剂对照组的设置。
第四,支持亚组分析,特别是在不同年龄、性别或基因型亚组中评估疗效差异时,贝叶斯层次模型(Bayesian Hierarchical Model)可以“借用”总体数据的信息,提高小样本亚组的估计精度。
第五,作为试验主要推断的基础,即用后验概率陈述直接支持药品上市申请。
这套方法最直接的受益者是罕见病和儿科药物的开发团队。FDA 在指导文件中特别强调,贝叶斯方法对于瞄准罕见病或儿科适应症的申办方“尤其有价值”,因为这些领域的患者群体规模天然较小。
对于那些希望加速上市的创新疗法,贝叶斯框架的灵活性意味着可以在试验进行过程中动态调整设计。比如根据中期数据提前终止无效治疗组,或者扩大有效剂量组的招募规模,从而缩短整体研发周期,降低成本。
研究估算显示,传统药物从临床前研究到获批上市平均耗时 10-15 年,总成本超过 20 亿美元,其中临床试验阶段占据了大部分时间和费用。如果贝叶斯方法能将 III 期试验样本量减少 30-40%,或将试验时间缩短 6-12 个月,对整个行业的经济效益和社会效益都将产生显著影响。
但贝叶斯方法的应用,也伴随着一系列挑战和争议。首先是“先验信息”的选择问题。如果先验数据来自不同人群、不同疾病阶段或不同治疗背景,直接借用可能引入偏倚,导致结论失真。比如成人与儿童的药代动力学和药效学特征存在差异,儿童的代谢率通常更快,器官功能尚未完全成熟,某些药物在成人中安全的剂量在儿童中可能产生毒性。
简单外推成人数据作为先验,可能低估儿科用药风险。因此,先验分布的构建需要深入的临床药理学理解和严谨的统计建模,不能机械套用历史数据。FDA 在指导文件中明确要求,申办方必须充分论证先验信息的“可交换性”(Exchangeability)——即历史数据与当前试验的相似程度,以及先验权重的合理性。
其次,贝叶斯分析往往需要更复杂的统计建模和计算。尽管现代计算工具如 Stan、JAGS 等软件已经大幅简化了操作流程,但模型的构建、先验分布的设定、马尔科夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)采样的收敛诊断,以及后验结果的解释,仍然需要深厚的统计学和临床专业知识。
监管层面的担忧同样存在。频率学派严格控制 I 型错误率(即错误地宣称药物有效的概率),通常设定为 5%,这是药品审批的重要安全阀。而贝叶斯方法在形式上不直接对应 I 型错误的概念,尽管可以通过模拟验证其频率学派操作特性(Frequentist Operating Characteristics),但监管机构仍需逐案评估是否满足审批标准。
FDA 在指导文件中明确指出,申办方在考虑贝叶斯设计时应尽早与监管部门沟通,必要时可通过“复杂创新试验设计配对会议项目”(Complex Innovative Trial Design Paired Meeting Program)获得额外的技术指导。这意味着,尽管政策大门已经打开,但具体能走多远,仍取决于监管方与申办方的共识程度和案例积累。
从全球视角看,欧洲药品管理局(European Medicines Agency, EMA)也在同步推进类似议程。其 2025 至 2026 年工作计划中明确提出要加速临床试验,贝叶斯方法被视为关键工具之一。
国际人用药品注册技术协调会(International Council for Harmonisation, ICH)早在 1998 年发布的 E9 指南中就允许使用贝叶斯方法,前提是“理由充分且结果稳健”;而 2024 年定稿的 E11A 指南则进一步鼓励在儿科药物开发中应用贝叶斯外推。FDA 此次发布指导草案,或者也是与国际监管趋势对齐的战略选择。
![]()
(ICH)
这份指导草案将在今年 3 月 13 日前接受公众评论,随后 FDA 将根据反馈修订并发布最终版本。尽管 FDA 在 2010 年就发布了针对医疗器械的贝叶斯指南,但在药物开发中全面开放贝叶斯方法,仍需监管机构、学术界和产业界的持续磨合。对于那些手握创新靶点、却苦于样本量限制的研发团队而言,这或许是一个值得抓住的窗口期。
1.https://www.fda.gov/news-events/press-announcements/fda-issues-guidance-modernizing-statistical-methods-clinical-trials?utm_medium=email&utm_source=govdelivery
3.https://www.nature.com/articles/s41573-023-00638-0
运营/排版:何晨龙





京公网安备 11011402013531号