当前位置: 首页 » 资讯 » 新科技 » 正文

新加坡国立大学推出SAM2S:让手术视频分析像追踪电影主角简单

IP属地 中国·北京 科技行者 时间:2026-01-18 17:22:39


这项由新加坡国立大学刘昊峰、王子岳、Sudhanshu Mishra等研究团队,联合谢菲尔德大学高明琦共同完成的突破性研究,于2025年11月发表在计算机视觉领域的顶级会议上。研究编号为arXiv:2511.16618v1,有兴趣深入了解的读者可以通过该编号查询完整论文。

想象你正在观看一部紧张刺激的手术纪录片,画面中医生的手术器械在复杂的人体内部灵活穿梭,就像电影中的主角在迷宫般的场景中前进。对于我们普通观众来说,可能很难准确追踪这些器械的每一个动作,更别说分析它们的运动轨迹了。但是,如果有一种智能系统能够像电影特效一样,自动识别并追踪画面中的每一个重要物体,那该有多神奇?

新加坡国立大学的研究团队就开发出了这样一套系统,他们称之为SAM2S。这套系统最令人惊叹的地方在于,它能够在长达几个小时的手术视频中,始终准确地追踪医生的每一件手术器械和人体组织,就像给每个"演员"都配备了一个专属的摄像师。

在传统的视频分析技术中,大多数系统都像是近视眼,只能看清眼前几秒钟的画面。一旦目标物体暂时消失在画面中,比如手术器械被血液遮挡或者移出视野,系统就会"失忆",再次出现时往往认不出来,就像换了个陌生人一样。这种问题在手术视频中尤其严重,因为手术过程通常持续数小时,期间会有大量的遮挡、光线变化和器械更换。

SAM2S的创新就像是给这个"近视眼"配上了一副神奇的眼镜,不仅能看得更远更清楚,还拥有了超强的记忆力。研究团队首先构建了一个名为SA-SV的庞大数据库,这就像是为系统准备了一本超厚的"手术视频教科书"。这本"教科书"包含了572个不同类型的手术视频,总共61,000多帧画面,涵盖了胆囊切除术、结肠镜检查、妇科手术等8种主要手术类型。

更重要的是,研究团队还为SAM2S开发了三项核心技能。第一项技能叫做DiveMem,可以理解为"多样化记忆机制"。就像一个经验丰富的侦探,不仅会记住案件中的关键线索,还会特意保留那些看似不重要但可能关键时刻派上用场的细节。传统系统往往只记住最近看到的几个画面,而DiveMem会智能地选择那些最具代表性和差异化的画面存入长期记忆,确保即使目标物体消失很久后再次出现,系统也能立刻认出来。

第二项技能是TSL(时间语义学习),这就像是教会系统理解每种手术器械的"身份证"。手术器械虽然种类繁多,但每一类都有自己独特的形状和功能特征。TSL技能让系统不仅能从外观上识别器械,还能理解它们的语义含义,比如明确区分手术剪刀和止血钳,即使它们在某个角度看起来很相似。

第三项技能ARL(模糊性适应学习)则解决了一个非常实际的问题。不同医院、不同国家的医生在标注手术视频时可能会有细微差别,就像不同的人对同一个物体的轮廓描绘可能略有差异。ARL技能让系统能够容忍这些不一致性,不会因为训练数据中的微小差异而产生困惑。

在实际测试中,SAM2S的表现确实令人印象深刻。研究团队使用了一个名为"J&F评分"的评估标准,这个评分综合考虑了识别的准确性和边界的精确度,满分是100分。传统的SAM2系统在手术视频上只能得到63.32分,而SAM2S则达到了80.42分,提升幅度超过17分。更重要的是,SAM2S能够以每秒68帧的速度进行实时处理,这意味着它可以在手术进行的同时提供即时分析,而不需要事后处理。

为了验证系统的长期追踪能力,研究团队特意测试了一些超长时间的手术视频,其中最长的一个片段持续了30分钟,相当于1800多帧画面。在这样的超长视频中,SAM2S依然能够准确追踪目标对象,而传统系统往往在几分钟后就开始出现明显错误。

这项研究的意义远不止于技术层面的突破。在实际应用中,SAM2S可以帮助外科医生进行手术技能培训,通过精确分析手术动作来识别可能的改进点。它还可以用于手术安全监控,实时检测是否有器械遗留在患者体内,或者分析手术过程中的风险点。对于医学教育来说,这套系统能够自动生成详细的手术分析报告,帮助医学生更好地学习复杂的手术技巧。

研究团队在论文中详细描述了他们如何克服手术视频分析中的各种挑战。手术环境的复杂性远超一般场景,不仅有血液、烟雾等遮挡物,还有频繁的相机移动和缩放操作。光照条件也会因为手术灯的调整而发生变化,这些都会影响传统视频分析系统的准确性。

SAM2S通过巧妙的设计解决了这些问题。它的记忆机制不是简单地按时间顺序存储画面,而是通过计算画面之间的相似性来选择最具代表性的关键帧。当系统发现某个目标在连续5帧画面中都稳定出现时,它会将这个时刻的画面标记为候选记忆,然后从中选择与已有记忆最不相同的画面加入长期记忆库。

这种策略就像是一个摄影师在拍摄纪录片时的选择过程,不会拍摄大量重复的镜头,而是会选择那些最能代表不同场景和角度的关键画面。通过这种方式,SAM2S能够在有限的存储空间内保存最有价值的信息,确保长期追踪的准确性。

在语义理解方面,SAM2S采用了一种类似于语言学习的方法。系统不仅学习识别手术器械的视觉特征,还学习理解它们的文本描述。这就像是同时学习看图识字和阅读理解,两种能力相互补充,让识别结果更加准确可靠。系统通过对比学习的方式,将视觉特征和文本描述关联起来,形成更加丰富的语义理解能力。

对于注释不一致的问题,SAM2S采用了一种"柔性学习"的策略。传统的机器学习系统通常要求训练数据具有绝对准确的标注,就像考试中的标准答案一样严格。但在实际的医学图像中,不同专家对同一个区域的边界判断可能会有细微差别,这是完全正常的现象。SAM2S通过引入高斯平滑处理,将这种硬性的边界要求转换为更加灵活的概率分布,让系统能够适应这种正常的变异性。

研究团队还进行了大量的对比实验来验证SAM2S的有效性。他们不仅与原版的SAM2系统进行了比较,还测试了多种最新的视频分析方法,包括SAM2Long、DAM4SAM、SAMURAI等改进版本。实验结果显示,无论是在短期追踪还是长期追踪任务中,SAM2S都表现出了明显的优势。

特别值得注意的是,SAM2S在跨手术类型的泛化能力测试中也表现出色。研究团队故意选择了一些在训练过程中完全没有见过的手术类型进行测试,比如肾脏切除手术。即使面对这些全新的场景,SAM2S依然能够准确识别和追踪目标对象,这说明系统确实学到了通用的视觉理解能力,而不是简单的模式记忆。

从技术实现的角度来看,SAM2S保持了良好的计算效率。在512像素分辨率下,系统能够达到每秒68帧的处理速度,完全满足实时应用的需求。相比之下,一些追求更高精度但计算复杂度更大的方法,虽然在准确性上可能略有优势,但处理速度只有每秒20多帧,无法满足实时处理的要求。SAM2S在准确性和效率之间找到了很好的平衡点。

研究团队还特别关注了系统在不同提示方式下的表现。在实际使用中,用户可能通过不同的方式来指定需要追踪的目标,比如点击、框选或者提供初始掩膜。实验结果显示,SAM2S在所有这些不同的交互方式下都能保持稳定的高性能,这为实际应用提供了很大的灵活性。

这项研究的另一个重要贡献是SA-SV数据集的建立。这个数据集是目前最大规模的手术视频交互式分割数据集,包含了从17个不同开源数据集中精心整理和重新标注的内容。研究团队花费了大量的时间和精力来确保数据质量,仅仅是对CholecSeg8k数据集的修正就涉及了超过20,000个标注错误的纠正。这种严格的数据处理态度为整个研究领域提供了宝贵的资源。

说到底,SAM2S代表了人工智能在医疗辅助领域的一个重要进步。它不仅解决了手术视频分析中的技术难题,更为未来的智能医疗系统奠定了基础。随着这类技术的进一步发展和普及,我们有理由相信,未来的手术室将变得更加智能和安全,医生们将获得更强大的技术支持来挽救更多的生命。这项研究虽然看起来很技术性,但它最终指向的是一个更加美好的医疗未来,在那里,技术真正成为了医生和患者的得力助手。对于关心医疗技术发展的读者来说,SAM2S代表的不仅仅是一项学术成果,更是人工智能造福人类健康的一个生动例证。

Q&A

Q1:SAM2S与普通的视频分析系统有什么区别?

A:SAM2S专门针对手术视频设计,具有超强的长期记忆能力。普通系统只能记住最近几秒的画面,而SAM2S能在长达数小时的手术视频中持续追踪目标物体,即使器械被血液遮挡或暂时离开画面,系统也能在重新出现时准确识别。

Q2:SA-SV数据集包含哪些内容?

A:SA-SV是目前最大的手术视频数据集,包含572个手术视频,61,000多帧画面,涵盖胆囊切除、结肠镜检查、妇科手术等8种手术类型。研究团队从17个开源数据集中精心整理,并修正了超过20,000个标注错误,确保数据质量。

Q3:SAM2S的处理速度能满足实时应用吗?

A:完全可以。SAM2S在512像素分辨率下能达到每秒68帧的处理速度,远超实时视频的要求。同时准确率达到80.42分,比传统SAM2系统提升17分以上,在速度和精度之间实现了很好的平衡。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新