当前位置：首页 » 资讯 » 新科技 » 正文

微软发布医疗时序基座模型：4540亿数据预训练，解决不规则采样

IP属地中国·北京 量子位 时间：2026-01-24 14:16:36

在大模型（LLM）与计算机视觉（CV）争相重塑医疗行业的今天，我们似乎已经拥有了无所不能的数字助手：它们能够像放射科医生一样精准解读CT影像，也能像内科医生一样撰写病历摘要。
但医疗AI世界中，仍有一块关键拼图缺失——那就是理解“生命动态演变”的能力。

△图1.不同模态的医疗数据
正如图1所示，如果将患者的生命历程比作一部电影，现有的AI往往只能捕捉到零散的帧画：
影像（Image）是“快照”：定格的仅仅是某一瞬间的解剖结构；
文本（Text）是“叙述”：往往只是对既往病情的主观回顾；
唯有时间序列（Time Series），才忠实记录了生命体征的连续轨迹。
然而，读懂这条“曲线”远比处理静态图像复杂。为此，微软亚洲研究院推出了专为医疗时序数据设计的通用基座模型——MIRA。
该模型基于4540亿个医疗数据点进行大规模预训练，通过两大核心技术突破了传统模型对规则采样的依赖，旨在解决真实世界医疗数据“不规则、异构性”的难题。
实验表明，MIRA在关键预测任务上的表现超越了现有SOTA模型，并展现出卓越的零样本（Zero-shot）迁移能力。
一起来看具体方案。
真实医疗数据：大模型的“噩梦”
长期以来，医疗时序模型的通用化进程面临诸多挑战，其核心问题在于“理想假设”与“现实数据”的错位。
通用深度学习模型通常基于“规则采样”的理想化假设，即数据是整齐划一、均匀分布的。
然而，在真实医疗场景中，尤其是重症监护室（ICU），生命体征的记录往往呈现出“时疏时密”的特点：心跳以秒为单位波动，血压可能以小时为单位记录，而血液检测指标可能需要一天甚至更长时间才能更新一次。
这种多时间尺度交织、采样频率不规则的特性，构成了医疗时序数据最显著的挑战，也是大模型在医疗领域落地应用的核心障碍。

△图2.医疗时间序列数据典型样例
图2医学时间序列数据具有以下特点：①时间间隔不规则，②采样率异质，③由于临床工作流程不标准或仪器按照不到位造成的数据缺失。
传统方法为了让模型处理这些数据，往往不得不采用插值（Imputation）等手段强行对齐。这种做法不仅容易引入人为的“噪声”，还可能丢失原本的时间动力学信息，属于典型的“削足适履”。
而MIRA的提出，正是为了解决这一难题。它不再局限于单一场景训练，而是从海量医疗数据中学习跨场景、跨模态的生理动态模式，成为一个具备卓越迁移能力的通用医疗基座模型。
两大核心技术：读懂不规则律动
面对医疗数据“杂乱无章”的特性，MIRA设计了两大核心技术模块，分别解决了“历史”与“未来”的建模难题。

△图3.MIRA的架构
MIRA的架构如下：①接收不规则时间序列和时间戳作为输入，并应用CT-RoPE进行连续时间编码。②混合专家层根据频率路由到不同的Expert。③Neural ODE模块将潜在状态演化到任意目标时间戳，从而实现灵活的时间感知预测
1.CT-RoPE：给“历史”一把弹性标尺
传统模型处理时间序列习惯用离散的整数索引（1，2，3…）来标记顺序，默认每一步距离相等，忽略了医疗数据中“时疏时密”的真实间隔。
MIRA创新性地提出了连续时间旋转位置编码（CT-RoPE）。它摒弃了离散索引，直接将真实的连续时间戳代入旋转矩阵计算。
这意味着，模型能够精准感知历史记录中任意时间间隔的变化，而不是机械地记录采样次数。
2. Neural ODE：描绘“未来”的连续曲线
人体状态是连续流动的，而非离散跳变。为了精准推演病情走向，MIRA引入了神经常微分方程（Neural ODE）模块。
如果说CT-RoPE是为了读懂过去零散的点，那么Neural ODE就是为了画出未来连续的线。它模拟生物体内部的动力学变化，能基于离散数据推导出连续时间下的潜在状态演化轨迹。
这意味着，即使未来的采样时间点不确定，模型也能依循生理规律，给出符合动力学逻辑的合理预测。
实验验证：零样本与高鲁棒性
研究团队在MIMIC-III、MIMIC-IV等多个权威数据集上对MIRA进行了评估。
1. 零样本（Zero-shot）预测突破
最值得关注的是MIRA的迁移能力。在未经过任何特定目标数据集训练的情况下，MIRA直接被部署到全新的医疗场景中。
数据显示，其在分布外（OOD）测试集上的表现，甚至超越了部分专门训练的全监督模型。这说明MIRA学到了生理信号变化的“通用规律”，而不仅仅是拟合了某家医院的数据分布。

△图4.与baseline相比，MIRA out-of-distribution表现
2.极度稀疏数据的“高鲁棒性”
面对缺失值，传统模型往往依赖插值预处理。这种做法不仅引入人为噪声，还可能破坏数据的原始分布特性。
而MIRA得益于Neural ODE，无需任何插值操作即可原生适配。通过建模时间序列的连续动力学特性，MIRA能够直接处理数据中的缺失值，无需额外的预处理步骤。
实验表明，即便在数据极度稀疏（例如仅保留30%观测点）的条件下，MIRA的性能依然保持稳健，并未像传统预测模型那样出现性能的显著下滑。这种对真实世界“脏数据”的适应能力，证明了其在复杂临床环境下的高鲁棒性。

开启医疗AI的“通用基座”时代
MIRA的提出可谓是医疗时序预测向“通用基座”时代迈进的重要探索。通过解决不规则采样和异构数据难题，MIRA为医疗AI摆脱“烟囱式”开发模式提供了可能。
未来，医院或可利用MIRA作为底座，配合少量本地数据微调，快速获得高精度的定制化模型。这为构建更智能的ICU早期预警、慢病管理以及通用AI助手奠定了坚实基础。
论文链接：
https://arxiv.org/abs/2506.07584
项目链接:
https://github.com/microsoft/MIRA

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

张文宏再谈AI：“灵魂”与“共情”无法被取代

5小时众筹破百万美金，Tiiny AI为什么能卖爆

拨快创新的“秒针”：上海三本新刊如何将学术表盘交还实验室？

小鹏天玑AI OS 6.1今日开启全量推送：辅助驾驶重磅升级原地就能开启NGP

今日最佳：自制力太差怎么赚钱？

少爷兵”腾讯，被AI揪出空调房

全站最新

张文宏再谈AI：“灵魂”与“共情”无法被取代

5小时众筹破百万美金，Tiiny AI为什么能卖爆

拨快创新的“秒针”：上海三本新刊如何将学术表盘交还实验室？

小鹏天玑AI OS 6.1今日开启全量推送：辅助驾驶重磅升级原地就能开启NGP

热门推荐

兆瓦级氢燃料航空涡桨发动机首飞成功

张文宏再谈AI：“灵魂”与“共情”无法被取代

何小鹏：中国汽车行业已进入转折最关键阶段，规模只是第一个门槛

5小时众筹破百万美金，Tiiny AI为什么能卖爆

拨快创新的“秒针”：上海三本新刊如何将学术表盘交还实验室？

小鹏天玑AI OS 6.1今日开启全量推送：辅助驾驶重磅升级原地就能开启NGP

秀我中国｜备战人形机器人半程马拉松，“西湖o1”“智能背包”亮相

今日最佳：自制力太差怎么赚钱？

少爷兵”腾讯，被AI揪出空调房

关停Sora后OpenAI转身收购TBPN播客，亲自下场做媒体

中小公司小程序制作平台推荐？开发一套小程序要多少钱？

北京市互联网新闻信息服务单位许可信息（截至2026年3月31日）

热点炸屏！美团京东屏蔽竞品AI大模型，2026大模型发展何去何从？

Patagonia关联公司曾因虚假宣传被罚

皖能电力旗下新能创业投资公司增资至78.2亿增幅约104%