![]()
新智元报道
编辑:LRST
水下机器人在复杂环境中导航和建模,需解决深度感知难题。研究人员提出StereoAdapter框架,结合单目和双目视觉,利用自监督学习,在无水下真实深度标签下,高效适配视觉基础模型,实现高精度深度估计,显著提升水下机器人导航和目标检测能力。
水下环境中的深度感知对水下机器人自主导航、目标检测和三维重建等任务至关重要。
相比单目方法,双目视觉可以通过双目相机直接获得具有度量尺度的3D深度,避免了单目深度固有的尺度不确定性。
然而,将现有视觉算法直接应用于水下场景会遇到显著挑战。
水下成像因光学特性差异引入严重的域偏移:水对不同波长光的吸收导致颜色和亮度随距离衰减,水体中的悬浮颗粒会产生前向/后向散射,摄像机与水的界面产生复杂折射。
这些因素违背了陆地视觉中常用的光度一致性假设,使得在水下获得可靠的双目匹配变得更加困难。
在此背景下,目前的方法面临两大挑战:
如何参数高效地将庞大的视觉基础模型(如在海量陆地数据上训练的单目深度编码器)适配到水下域,而不依赖大量有标注的水下数据;
如何将全局一致但存在尺度模糊的单目深度先验与局部精确但光度敏感的双目匹配约束紧密融合,在自监督条件下充分发挥双方优势。
此前一些研究尝试从不同角度结合单目和双目信息,例如TiO-Depth提出了「二合一」的单目-双目联合框架,Stereo Anywhere利用视觉基础模型提供的单目先验来增强双目匹配,实现了在低纹理或反光场景下的零样本泛化能力。
但在水下场景,剧烈的域差异依然使这些方法效果受限。
针对上述难题,北京大学等机构的研究人员提出了全新的StereoAdapter框架,以自监督学习为基础,在不需要水下真实深度标签的情况下,将强大的单目深度基础模型与双目几何有机结合。
![]()
论文链接:https://arxiv.org/pdf/2509.16415
具体来说,研究人员通过低秩适配(LoRA)技术,将预训练的单目深度模型高效地微调到水下域;然后以其输出的单目深度作为全局先验,结合一个循环迭代细化的双目匹配模块,在逐步优化中融合单目与双目的优势。
这样既保证了深度预测的全局合理性,又利用双目约束纠正了单目先验可能存在的尺度和细节误差。整个设计注重参数效率和训练效率,使模型能够以较小开销完成水下域的适配和部署。
![]()
论文作者张泽宇是Richard Hartley教授和Ian Reid教授指导的本科研究员。他的研究兴趣扎根于计算机视觉领域,专注于探索几何生成建模与前沿基础模型之间的潜在联系。张泽宇在多个研究领域拥有丰富的经验,积极探索人工智能基础和应用领域的前沿进展。
唐浩现任北京大学计算机学院助理教授 / 研究员、博士生导师、博雅和未名青年学者,入选国家级海外高水平人才计划。曾获国家优秀自费留学生奖学金,连续两年入选斯坦福大学全球前 2% 顶尖科学家榜单。他曾在美国卡耐基梅隆大学、苏黎世联邦理工学院、英国牛津大学和意大利特伦托大学工作和学习。长期致力于人工智能领域的研究,在国际顶级期刊与会议发表论文 100 余篇,相关成果被引用超过10000次。曾获ACM Multimedia最佳论文提名奖,现任ACL 2025、EMNLP 2025、ACM MM 2025领域主席及多个人工智能会议和期刊审稿人。
LoRA适配与双阶段框架
StereoAdapter采用了双阶段结构,包括单目深度估计阶段和双目深度细化阶段。
![]()
如图所示,第一阶段使用预训练的Depth Anything V2单目深度模型作为基础。研究人员在其Transformer编码器中插入LoRA模块进行水下域适配,只需增加极少量参数,就能让模型学习水下图像的特有特征,而原有的大量权重保持冻结。
通过这种方式,模型保留了预训练过程中学到的通用几何先验,同时针对水下场景进行了调整。在编码器输出的多尺度特征(金字塔分辨率从1/4到1/32)基础上,研究人员引入SDFA模块逐级融合相邻尺度特征,以兼顾局部细节和全局上下文。
接着,单目阶段的解码器生成一个稠密视差体积(离散采样多个视差假设)并输出初始的粗略视差图。
由于Depth Anything V2具备很强的跨数据集泛化能力,这个初始视差预测在水下也具有全局一致的深度结构但精度较粗。
在第二阶段,StereoAdapter利用第一阶段提供的视差作为初始值,结合双目图像进行循环匹配细化。
研究人员构建了一个基于GRU的递归双目匹配模块。首先,从左、右图像提取特征金字塔并计算多尺度相关体积——这类似于生成不同尺度下的代价空间,用于表示视差假设的匹配代价。
与此同时,将第一阶段得到的初始视差转换为深度,并与稀疏双目匹配得到的可靠深度点进行比对:通过特征匹配获取一些高置信度的对应点,计算出对应的真实尺度深度,然后与单目深度进行比较。
如果发现单目预测的整体尺度存在偏差,研究人员会估计一个尺度和偏移校正项来调整单目深度;同时,根据这些锚点对局部误差进行插值传播,以细化初始深度图。
这一混合尺度对齐过程确保进入循环细化模块的初始深度既保持单目先验的全局尺度,又在局部尽可能贴近真实度量值。
接下来,经过尺度校正的初始视差送入迭代细化单元。循环模块借鉴RAFT-Stereo等方法,引入ConvGRU网络来多次更新视差。
具体而言,在每次迭代中,根据当前视差估计从多尺度相关体积中提取一组匹配特征(类似「lookup」操作),并与当前迭代的隐藏状态、单目上下文特征一起输入GRU单元。
这里,研究人员使用一种融合上下文编码器:一方面直接复用单目阶段适配后的Transformer特征(即基础模型在水下调优后的多尺度特征),另一方面引入一个轻量级CNN提取左图像的局部细节特征。
Transformer提供高层语义和全局信息,CNN提供局部纹理和边缘,二者经过通道对齐后逐元素相加融合,形成多尺度的上下文特征集合。这些特征用于初始化GRU的隐藏状态,并在每次迭代中与相关体积特征一起为GRU提供指导。GRU每迭代输出一个视差增量Δd,将其加到当前视差估计上,实现逐步细化。
在多次循环更新后,可以获得精细的视差预测,并通过上采样恢复到原始分辨率,最终转换为深度图。
这种循环匹配机制使StereoAdapter能够反复优化匹配误差,逐步逼近高精度的结果:它利用单目提供的全局先验引导每次匹配搜索,从而在低纹理或存在散射的区域也能逐渐收敛到正确的视差。
值得一提的是,双目模块充分复用了单目阶段的基础模型编码器。通过在双目阶段继续使用融合了LoRA权重的Depth Anything编码器,避免了训练和部署额外的大型网络,既节省了参数又确保两阶段特征表述的一致性。
配合小型CNN补充局部信息,这种设计在保证精度的同时控制了计算开销,使得StereoAdapter具备实际部署的轻量性。
自监督训练策略
研究人员采用自监督学习来训练StereoAdapter的两阶段网络,从而摆脱对水下真值深度数据的依赖。在单目阶段,借鉴Monodepth等经典方法,利用左右视图的一致性构造训练信号。
具体来说,让单目网络预测左图的视差后,将右图向左重建,得到合成的左图像,并与真实左图进行比较。这种光度重建损失由加权的像素强度差异(如L1范数)和结构相似性(SSIM)组成,用以度量重建图像和原始左图之间的差距。
与此同时,添加一个多尺度边缘感知的平滑损失,约束视差图在纹理较平坦区域的平滑性,同时保持深度边缘与图像梯度对齐。单目阶段的总损失即为重建损失和平滑项的加权和。
训练时,仅优化LoRA模块和解码器等新增参数,预训练的编码器权重仍然冻结不动。通过这种方式,第一阶段实现了对水下域的自适应:LoRA模块调整基础模型的特征提取使其适应水下图像分布,而网络通过与右图的重建对比学会输出合理的视差。
在双目细化阶段,研究人员设计了多项自监督损失共同优化。
首先是双目重建损失,类似单目阶段,用最终迭代得到的视差将右图向左拼合,得到重建的左图像ĨL,并与真实左图进行光度一致性约束(L1+SSIM)。
考虑到双目视差无法在遮挡区域重建出左图有效像素,研究人员利用单目初始视差估计遮挡掩膜
对于判定为右目不可见的区域,不强行让去逼近真实左图,而是引入单目预测的左视图重建来填补,形成混合重建图
这样在有遮挡的像素位置采用单目重建,避免了双目重建误差。
这种遮挡处理策略提高了训练稳定性,使网络不用在无效的对应关系上浪费精力。
其次,框架中引入视差引导损失,鼓励最终精细视差与初始单目视差保持一致的结构趋势。
具体包括两部分:
1)初始和最终视差图的梯度(水平和垂直方向)差异损失,保证细化后的深度边缘不要偏离单目先验提供的主要轮廓;
2)对未发生视差投影错误的像素,直接约束初始与最终视差的差值,防止网络过度偏离单目提供的合理值。
最后,同样在最终视差上施加边缘感知的平滑正则化,以消除局部噪声。双目阶段的总损失是上述重建项、平滑项和引导项的加权和。
通过单目阶段的全局引导和双目阶段的局部校正相结合,StereoAdapter实现了一个纯自监督的训练流程。在训练初期,单目先验为双目匹配提供了良好的起点;随着迭代优化,双目细化模块又不断提升局部精度。值得强调的是,研究人员还引入了动态LoRA机制来进一步提升训练效果和模型的持续适应能力。
动态LoRA机制
传统LoRA方法为每层预先设定一个固定的低秩r,通过增加
来微调预训练权重,其中
然而,不同网络层在适配水下时所需的容量各异,固定秩可能要么限制高层次特征的调整(秩过低),要么浪费参数引入冗余(秩过高)。
为此,研究人员设计了动态LoRA策略,让每层的有效秩由数据自适应决定。做法是为每个低秩分量引入一个可学习的重要性权重,替代简单的BA相加。
具体地,LoRA的权重增量被改写为
初始时所有随机赋值,训练过程中,在损失中加入L1范数正则来促使权重产生稀疏化。
通过软阈值迭代等近端优化方法,每次更新后将小于阈值的权重压至0,从而逐渐裁剪掉贡献不显著的秩分量。
训练前期从0缓慢提高,让模型先充分探索各个秩方向的作用,再逐步加大稀疏力度避免重要方向过早被裁掉。
此外,研究人员采取「两阶段」训练:先进行一定比例(例如45%)的迭代不应用阈值操作(密集阶段),再在剩余迭代中开启稀疏正则(稀疏阶段)。这样保证模型先在完整秩空间学习,再精简。
训练完成后,将剩余的非零低秩分量合并回主干权重——也就是直接将作为新的编码器权重。
这意味着在推理时无需额外的LoRA分支,模型已将水下知识无缝融合入基础模型中,不增加任何计算开销。
动态LoRA实现了自动秩选择:让模型自行决定每层需要多大调整容量,同时保证最终模型的参数量和推理效率几乎不受影响。
该机制对跨域持续学习尤为有效,在不同水下数据集上持续自监督训练时,编码器能够不断调整各层的秩来适应新场景,使单目先验和双目细化模块始终协同工作。
UW-StereoDepth-40K 合成数据集
由于水下真实双目数据匮乏,研究人员构建了一个大规模合成水下双目数据集UW-StereoDepth-40K,以支持模型预训练和验证其泛化性。
借助Unreal Engine 5 (UE5)的高保真渲染能力,研究人员创建了逼真的水下虚拟环境,并严格保证左右相机的几何一致性。
具体而言,设计了四种多样的水下场景:珊瑚礁、工业结构(如水下管道设施)、沉船以及自然海床等,每个场景都使用了丰富的3D素材(高精度扫描的珊瑚和海洋植物、水下机器人模型、沉积物和岩石、各种水下人造结构等)进行细节填充。
与基于生成模型的方法不同,UE5渲染确保了左右视图像素级对齐,杜绝了由随机差异引起的伪匹配问题。在此基础上,研究人员对环境进行了多方面的随机化和多样化:
相机基线:在4cm、10cm、20cm、40cm等多个距离中随机取值,涵盖从小型观测ROV的窄基线到大型作业ROV的宽基线配置。这样确保模型可适应不同平台的双目相机参数。
光照和介质:模拟真实的焦散效应(水面波动形成的光斑)、漂浮粒子(附带物理运动)、以及与深度相关的色偏和雾化。这些效果逼真地再现了阳光照射、水体悬浮物和水色随深度变化等现象,使数据涵盖各种典型水下视觉退化情形。
数据集通过在每个场景中沿连续轨迹移动双目相机采样获得。每隔固定距离截取一对立体图像,共计获得40,000对高分辨率(1280×960)图像及其对应的真值深度图和语义分割掩膜。为保证数据质量,实行了严格的筛选和质检:自动滤除纹理过于贫乏或深度范围异常(>50米)超出一般水下操作距离的帧;
计算左右图像的结构相似度以确保立体一致性,并由领域专家人工检查图像的逼真度、剔除可能的渲染瑕疵。最终的UW-StereoDepth-40K涵盖多种环境和条件,从明亮的浅海到幽暗的深水,都具有高度逼真的视觉效果和准确的深度标签。
这为水下双目深度估计提供了一个大型高质量的训练资源,有助于在无真实数据时提高模型对水下域的适应性。
在StereoAdapter中,首先在UW-StereoDepth-40K上进行预训练,使模型先掌握水下场景的一般几何和视觉特性。由于合成数据提供了充足的跨视角、跨条件样本,模型能够学到鲁棒的特征表示,为后续在真实水下场景中的零样本迁移打下基础。
实验表明,在该合成数据上预训练,再在下游任务上微调或直接评估,显著优于不利用该数据集的情形,证明了UW-StereoDepth-40K在弥合模拟与真实差距方面的重要作用。
![]()
仿真实验结果
研究人员在仿真环境和真实数据上对StereoAdapter进行了全面评测,结果显示出明显优势。首先,在仿真数据集上,选用TartanAir数据集中的水下子集和SQUID水下数据集作为基准。
TartanAir水下子集包含22段模拟水下航行序列,共13,583对立体图像;SQUID数据集由4个不同真实水下场景下采集的57对立体图像组成。评测采用标准的深度估计指标:绝对相对误差(REL)、均方根误差(RMSE)以及δ<1.25精准度(A1)等。
在TartanAir水下集上,StereoAdapter在零样本设置(仅用合成数据训练,未在TartanAir上微调)下就超越了现有所有方法,取得了最优的精度。
该模型实现了最低的RMSE ~2.89,REL也仅有0.0527,同时准确率A1达94.67%,均为该基准下的最佳表现。
相比之下,传统双目网络如RAFT-Stereo等在同样未微调情况下RMSE约在4.0以上;即便结合基础模型的Stereo Anywhere,其RMSE也有3.16,A1为94.42%。
该方法显著降低了误差。例如相对于此前性能最好的Stereo Anywhere,RMSE降低了约6.1%。这证明了单目先验+LoRA适配+循环细化的设计在水下环境下具备卓越的泛化能力。
将StereoAdapter在TartanAir上进行微调后,性能进一步提升:RMSE降至2.78,A1提高到95.12%
这进一步表明,合成预训练 + 真实微调可以协同发挥作用,使模型在目标域达到更高精度。
在SQUID数据集上,该方法同样表现优异。SQUID场景更接近真实拍摄,很多传统方法在零样本迁移时误差较大。
然而StereoAdapter在未见过SQUID的情况下,取得了仅1.88的RMSE和0.0806的REL,以及94.13%的A1准确率,全面领先于其他对比方法。
例如,著名的RAFT-Stereo(在Scene Flow上训练)在SQUID上的RMSE约1.96,Selective IGEV在微调后RMSE也有1.93,而文中提出的方法在零样本就达到1.88的水平。若再加上TartanAir数据微调,RMSE进一步降至1.86,A1达94.28%
总体来看,StereoAdapter在仿真环境(TartanAir)和真实静态数据(SQUID)上均取得新的SOTA成绩:相较之前最好的结果,RMSE分别降低约6.11%和5.12%。
这些结果也凸显了合成数据预训练的价值——模型在UW-StereoDepth-40K上学到的表示使其在陌生真实场景中也能保持低误差。
除了定量指标,研究人员还比较了深度图的可视化效果。如图5所示,StereoAdapter输出的深度图在远距离区域的尺度预测更准确,且整体连贯性和细节保真度均优于基准方法。
![]()
例如,在一些水下弱纹理的背景区域,该方法依然生成了清晰平滑的深度,而某些对比方法要么深度噪声很大要么直接无法给出合理值。这进一步验证了该框架在困难视觉条件下的鲁棒性。
实际部署与水下测试表现
研究人员将StereoAdapter部署在实际的水下机器人平台上,验证其在真实环境中的效果和速度。
研究人员使用BlueROV2水下机器人搭载ZED 2i双目相机,在一个室内水池环境中进行了测试。
![]()
机器人搭载了NVIDIA Jetson Orin NX(16GB)嵌入式计算模块用于在线深度估计。
为了评估算法精度,研究人员在实验前获取了测试场景的高精度三维重建:通过在水池中放置AprilTag定位板,使用体感相机和多视几何方法离线生成了场景的带度量尺度的三维网格。
运行过程中,机器人在水池中分别设置的三种障碍布局(稀疏分散、并排排列、密集聚集)下执行九段不同轨迹,摄像头捕获同步的双目视频。
研究人员利用先验标记的位置将每帧相机姿态对准预构建的场景网格,并渲染出对应视角下的「参考深度」(作为近似真值)。这样就获得了每帧图像的评估基准,用于计算REL、RMSE等指标,以衡量各方法在真实水下的表现。
实验结果(表III)表明,StereoAdapter在真实水下环境中依然保持了最佳性能。
![]()
与两个具有代表性的最新方法相比(Stereo Anywhere和FoundationStereo),提出的方法误差更低、准确度更高:StereoAdapter的RMSE约1.97,A1准确率94.78%,而Stereo Anywhere的RMSE为2.51(A1=91.20%),FoundationStereo的RMSE为2.14(A1=89.61%)
相比之下,TiO-Depth在该场景下表现不佳,RMSE高达6.76,说明缺乏双目几何约束的单目方法在水下极易失效。
该方法对各种玻璃杯和岩石障碍都生成了清晰准确的深度映射,在物体边缘和无纹理水区域都显著优于对比方法。
![]()
值得关注的是,StereoAdapter不仅精度高,而且推理速度快、适合部署。在Jetson Orin NX上,将输入分辨率调整为640×360并进行了实时测试,各方法的单帧处理时延如表VII所示:FoundationStereo平均每帧需约1815毫秒,Stereo Anywhere约1440毫秒,而StereoAdapter仅约1113毫秒。
![]()
也就是说,该方法在同样硬件上比Stereo Anywhere快约327ms,比FoundationStereo快约702ms。
这一速度优势源自对基础模型的高效利用和架构优化:StereoAdapter只使用了Depth Anything的小型基座版本(B模型)且仅在单目阶段前向一次,就提供先验和特征,随后轻量的GRU模块进行迭代 refinements;
而Stereo Anywhere需要两次调用大型Depth Anything-L模型并额外进行3D卷积融合,FoundationStereo则使用了沉重的Transformer和3D成本体积处理。
因此,该方法在保证精度领先的同时,将计算量和时延控制在了嵌入设备可接受的范围。
这对于实际水下机器人在线避障和导航来说是非常关键的。
BlueROV2上的实验充分展示了StereoAdapter在真实条件下的鲁棒性和实用性:它能够以接近实时的速度提供稳定可靠的深度估计,为水下机器人的环境感知提供了有力支持。
消融分析与效率对比
为深入理解各组件的作用,研究人员进行了多组消融实验。
循环细化模块配置
尝试改变GRU的层数、隐藏维度和迭代次数,以观察对精度和效率的影响。
结果发现,增加GRU深度(从2层增至3层再到4层)可以持续降低误差,例如4层128隐单元32迭代的配置取得了RMSE 2.614的最好成绩。但考虑到部署效率,最终选择了3层128维32步的配置,在精度(RMSE ~2.78)和速度之间取得平衡。
若将隐藏维度增大到256虽有轻微精度提升(RMSE ~2.62),但计算量也显著增加。另外,研究人员发现过多迭代(如64步)反而可能造成收敛不稳定并损伤效果,因此32次迭代已足够。
动态LoRA策略
验证了动态秩调整的有效性。
对比固定秩的LoRA,该方法能以更少参数达到更高精度。研究人员尝试了不同的动态LoRA超参数组合,包括基秩大小(16或32)、稀疏阈值κ(如0.005或0.01)以及密集训练比例(50%或45%)等。
消融结果表明,当前采用的配置(秩16、阈值0.01、45%密集迭代)取得了最优的REL 0.049和RMSE 2.783,优于其他设定。这说明使用动态LoRA能够自动找到合适的秩, 比如在模型中每层平均有效秩最终大大低于16,使参数更精简却不损失精度。
如果不使用动态策略而是固定较高秩(如32),虽然也能适配水下域,但参数量增加且未显著提升精度;相反固定过低秩又会限制性能。因此动态LoRA在参数效率和效果上取得了良好折中。
训练超参数
研究人员也考察了训练过程中的关键超参数设置,如batch size、学习率和单双阶段的训练epoch分配。
实验显示,中等批大小(8或16)要比小批量(4)稳定且效果更好;学习率1×10^(-4)比2×10^(-4)收敛更平稳,后者可能引入震荡。
此外,将总训练分成阶段一20轮+阶段二40轮这种比例可以取得最佳结果——首先20个epoch专注单目先验学习,然后40个epoch在双目任务上细化,使模型先打好单目基础再充分调整双目模块。
这种多阶段训练策略明显优于让模型同时训练单目和双目任务或者缩短某一阶段的情况。
最终,最佳组合为:batch=8,lr=1e-4,阶段一20轮+阶段二40轮,对应REL约0.051,RMSE约2.783。
这一消融分析验证了各设计选择的合理性:循环GRU深度、动态LoRA和两阶段训练均对StereoAdapter的高性能有重要贡献。
同时,通过优化设计,研究人员确保了模型在推理效率上的优势:如前述,该方法在嵌入平台上的推理速度快于其他方案(1113ms vs 1440ms/1815ms),体现了参数高效微调和轻量级细化模块带来的整体效率收益。
综合来看,StereoAdapter在保持领先精度的同时做到了模型小、速度快,非常适合实际应用。
未来展望
尽管StereoAdapter取得了良好效果,研究人员也认识到当前工作中仍有一些局限,值得在未来进一步探索。
首先,模型局部匹配的局限:双目细化模块基于RAFT风格的GRU迭代,更偏重短距离、局部的逐步匹配记忆。
在极端恶劣的水下条件下(例如严重浑浊导致可视距离极短、大范围高亮反射或者大片无纹理区域),仅靠当前的局部递归可能难以捕获全局线索。
换言之,当水下图像质量极差或场景缺乏可辨识特征时,网络可能仍会遇到困难。这提示我们在模型架构上可以引入更长程依赖的机制,结合局部匹配与全局推理来提升鲁棒性。
其次,模拟数据域隙:尽管精心构建了UW-StereoDepth-40K,并已覆盖许多水下现象,但毕竟虚拟数据的分布相对有限且理想化。
现实海洋环境的复杂度更高:例如多次散射、偏振光效应、动态水体颗粒浓度变化、相机传感器的特定噪声(滚动快门失真、镜头畸变)等等,这些在UE5中仅被部分建模或根本无法完全还原。
因此,该模型在实际部署中可能遇到某些未见过的分布偏差。尽管BlueROV2实验已证明了一定的泛化性,但拓展数据源以进一步弥合模拟-真实差距仍然非常必要。
为应对上述问题,未来研究人员计划在数据和模型两方面改进:
数据层面,将探索更丰富的训练数据生成方案。
一方面,在UE仿真中引入更多样的随机化和更逼真的物理模型:例如结合程序化生成手段,扩大场景和环境效果的覆盖范围,
引入粒子光学模型以模拟多路径散射、根据真实水质光谱校准渲染参数等。
另一方面,考虑利用无标注的真实水下视频对模型进行自适应训练:通过自训练(self-training)策略,让模型在真实序列上进行推断并根据高置信度预测更新自身,从而逐步提升对真实域特性的适应能力。配合必要的置信度筛选和约束,这将有望大幅减少剩余的域差异影响。
模型层面,计划引入多任务学习和更长时空上下文来增强模型能力。
一方面,可以尝试让模型同时学习预测深度、法向、语义等多种输出,使其在训练中吸收更丰富的几何和语义信息,从而提升对场景的理解深度。
另一方面,在架构上探索具有更长依赖的高效解码器,例如近期提出的线性时间序列模型(如Mamba或RWKV等),以捕获更广域的匹配关系。
同时,还考虑拓展到时间序列和多视角的输入,让模型利用连续帧或多相机的数据获取时序/多视图约束,提高在动态场景或更大范围场景中的稳定性,并输出不确定度估计帮助判断哪些区域深度不可靠。
最后,在部署方面,将研究模型压缩和量化技术,使StereoAdapter更好地适应嵌入式平台的资源限制。
通过上述改进方向,研究人员希望进一步提高StereoAdapter在更加多变的真实水下环境中的表现和效率,使之成为水下机器人可靠可信的视觉模块。
总的来说,StereoAdapter的提出展示了将视觉基础模型与自监督双目几何相结合的巨大潜力。
随着数据和模型的不断完善,此类方法将在自主水下导航、基础设施巡检、海洋生态监测等领域发挥关键作用,推动水下机器人技术向前发展。
参考资料:
https://arxiv.org/pdf/2509.16415





京公网安备 11011402013531号