![]()
本文第一作者为王赞毅,本科毕业于西安交通大学,现为加州大学圣迭戈分校(UCSD)ECE 系硕士一年级学生。其主要研究方向为:视频理解,生成式建模。本工作为作者在国家电网思极 AI 实验室(SGIT AI Lab) 实习期间的成果。
长期以来,计算机视觉领域陷入了一个 “表征(Representation)” 的执念。我们习惯设计各种精巧的 Encoder,试图将动态世界压缩成一组特征向量。然而,视频作为现实的高维投影,其熵值之高、动态之复杂,让这种试图 “定格” 的表征显得力不从心。特别是在指代视频分割(RVOS)中,传统 “先定位、后分割” 范式遭遇了信息坍缩的瓶颈 —— 一旦特征被压缩,细粒度的时空对应关系便随之瓦解。
如果换一种思路呢?如果不再执着于 “压缩” 和 “表征”,而是利用生成式模型对物理规律的深刻理解去‘重演’这个过程,是否能实现降维打击?在刚刚公布的 ICLR 2026 中,来自SGIT AI Lab,UCSD, HKUST等机构的研究团队给出了肯定的答案。他们提出的FlowRVS,跳出了传统‘冻结骨干提取特征 + 独立解码器预测’的桎梏。不同于以往将大模型仅仅视为一个特征提取器(Feature Extractor),FlowRVS 彻底释放了 DiT(Diffusion Transformer)全参数的生成能力,将分割任务重塑为一个在潜空间中、直接从视频流向 Mask 的条件流匹配过程。这不仅是 SOTA 的提升,更是一种视觉感知范式的代际转换。
![]()
论文标题:Deforming Videos to Masks: Flow Matching for Referring Video Segmentation论文链接:https://arxiv.org/abs/2510.06139代码链接:https://github.com/xmz111/FlowRVS
生成式建模:从 “压缩” 到 “仿真” 的降维打击
"What I cannot create, I cannot understand." — Richard Feynman
这句物理学界的至理名言,或许是 FlowRVS 最底层的注脚。极致的生成,本身就是极致的理解。视频理解的本质困难在于其极高的不确定性与时空连续性。传统的判别式模型往往试图在这些不确定的像素中强行划定边界,这就像是在湍急的河流中试图用网兜住每一滴水,费力且由于遮挡或运动模糊而常常失效。
相比之下,Sora, Wan 2.1, 以及最近大火的 Seedance2 等生成式模型之所以强大,是因为它们在预训练过程中通过学习 “如何生成视频”,掌握了物体恒常性、光影变化乃至物理运动的元知识。这种 “World Simulator” 级别的先验,恰恰是解决复杂视觉判别任务的终极答案。试想,Seedance 2 能够生成长达数分钟、且符合人体动力学的复杂舞蹈,这证明了 生成模型足以捕捉极高维度的时空演变规律。FlowRVS 的核心洞察正基于此:与其训练一个模型去死记硬背像素的分类,不如利用 T2V 模型已有的生成能力,引导视频特征 “自然生长” 出目标的分割掩码。这本质上是同一套物理法则在不同方向上的应用。
确立了利用生成式模型的大方向,仅仅是推开了真理的大门,而通往最优解的路径依然迷雾重重。回溯 Table 2 的消融实验,我们看到的是一条从直觉出发,在碰壁中不断修正,最终回归物理本质的探索轨迹。
最初的构想往往是最朴素的:既然目标是分割,能否直接训练模型将高维视频特征 “压缩” 为二值 Mask?这种 “一步映射(One-step Prediction)” 看似最符合判别式任务的习惯,但实验结果却相当残酷(J&F 38.9)。事实证明,试图让模型在一步之内跨越如此巨大的信息鸿沟,如同要求它从悬崖直接跳入谷底,剧烈的特征坍缩导致了训练的极度不稳定。
![]()
既然直接映射行不通,那么模仿 Sora 等主流生成模型,从高斯噪声开始生成 Mask 呢?这种 “从噪声出发(Noise-to-Mask)” 的范式将视频降级为辅助条件,试图在一张白纸上 “幻视” 出分割结果。然而,这一尝试带来了灾难性的 32.3 分。这个全场最低分揭示了一个被忽视的常识:视频本身包含了极高熵的空间和纹理细节,舍弃这些宝贵的先验,强行从零开始生成,无异于买椟还珠,舍近求远。
真正的转机,出现在对 “残差” 思维的回归上。当不再强求模型凭空预测绝对的 Mask,而是转而预测相对于视频特征的 “变化量(速度)” 时,性能瞬间跃升至 50.8。这一数据的暴涨成为了至关重要的路标 —— 它证明了保留视频本身作为基底(Source)的巨大价值。既然预测 “一步变化” 如此有效,那么将其扩展为连续的、平滑的变形过程,便是顺理成章的进化方向。顺着这一逻辑,FlowRVS 最终确立了Video-to-Mask Flow的范式:直接以视频为流的起点,学习一个确定性的 ODE 轨迹,引导高维特征平滑地 “流淌” 为目标 Mask。这种范式完全解锁了预训练模型的钱呢。最终 60.6 的 SOTA 成绩,不仅是分数的胜利,更是对 “如何正确利用视频信息” 这一物理本质的深刻回归。
![]()
非对称的流:当 “生成” 遇到 “判别”
如果说将判别任务重构为生成任务是 FlowRVS 的 “第一性原理”,那么如何处理这两个过程在物理形态上的根本差异,则是决定模型生死的关键细节。让我们把目光投向论文中的 Figure 3—— 这张图揭示了一个被长期忽视的拓扑学矛盾。标准的视频生成(如 Sora 或 Wan)是一个语义的发散过程(Divergent Process)”。模型从一个单纯的高斯噪声出发,就像宇宙大爆炸一样,可以在潜空间中向任意方向扩散,最终坍缩成无数种合理的视频 —— 一只猫可以跑向左边,也可以跑向右边,只要符合物理规律即可。在这种发散场中,每一加噪步(Timestep)的重要性相对均衡,模型享受着 “探索” 的自由。
![]()
然而,RVOS 这样的判别式任务是一个收敛过程(Convergent Process)。输入是蕴含了亿万像素信息的复杂视频,目标却是唯一确定的二值掩码(Mask)。这就好比要将奔涌的江河强行收束进原本的源头。在这个过程中,t=0(流的起点)拥有着至高无上的决定权。
BBS:抢占 t=0 的 “决策权”
在传统的 Flow Matching 训练中,时间t 是均匀采样的(Uniform Sampling)。这意味着模型会花费同样多的算力去学习 t=0.9 时的微调(此时 Mask 轮廓已经基本成型),和 t=0.1 时的初始变形。但在 RVOS 的收敛漏斗中,这完全是资源错配。
t=0 时刻,是视频特征与文本指令发生剧烈化学反应的 “奇点”。文本必须在这一瞬间,从视频纷繁复杂的万千物体中,精准地 “抓住” 那只 “较小的猴子”。如果在这一步失之毫厘,后续的流场无论如何精细演化,都将是谬以千里的徒劳。
FlowRVS 提出的 边界偏置采样(BBS) 正是基于这一物理直觉。它打破了均质流的假设,强行扭曲了训练的时间分布,让模型在训练初期疯狂地 “死磕” 起点(Oversampling start point)。实验数据证明了这一直觉的准确性:仅仅引入 BBS,性能就暴涨了 10 个点。这说明,对于收敛任务,“出发的方向” 远比 “路途的修饰” 重要。
多步不如一步?判别任务的物理必然
最后,我们不得不面对一个看似矛盾的现象:我们费尽周折引入了 ODE 求解器和 Flow Matching,但在最终推理时,竟然发现与传统判别模型一样的 “一步推理(1-step)” 效果反而优于精细的多步求解。
这并非 Flow Matching 的失败,恰恰相反,这正是唯一 target 的判别式任务的物理必然。
标准的视频生成是一个随文本指令的 “探索” 过程 —— 从一个噪声出发,终点是不确定的,模型需要在多步迭代中慢慢 “画” 出细节,每一步都充满了随机性与创造性。但 RVOS 截然不同,它是一个极致的收敛过程。无论输入视频多么复杂,对于给定的文本指令,目标的 Mask 是唯一、固定且确定的(Deterministic)。
在这种强约束下,Flow Matching 训练出的向量场不再需要去 “探索” 路径。因为终点已经锁死,模型学到的流场实际上就是一个直指终点的 “坍缩” 向量。当 BBS 策略确保了起点的精准后,这条从高维视频到低维 Mask 的轨迹变得笔直而确定。既然方向已经如此清晰且唯一,我们自然不需要分多步去小心翼翼地逼近 —— 直接沿着切线迈出一步,就能精准 “撞线”。这正是生成式框架在判别任务中展现出的独特魅力:用生成的手段训练,却获得了回归的极速推理。
看见 “熵减”:不仅仅是 SOTA
当我们将 FlowRVS 的性能量化时,数字确实令人振奋:在最考验动作理解的 MeViS 基准上,FlowRVS 刷新了 SOTA 记录(51.1 J&F),基于 WAN2.1 T2V 1.3B 的模型即便与那些使用了更大参数量的模型相比也毫不逊色。更令人惊讶的是它的零样本(Zero-shot)能力 —— 在从未见过的 Ref-DAVIS17 数据集上,仅凭 T2V 底座的通用知识,它就跑出了 73.3 的高分。但数字背后,FlowRVS 真正的魅力在于其处理视频时的 “确定性”。既然我们将 RVOS 视为一个收敛过程,那么这种物理直觉在实际场景中究竟带来了哪些代际优势?
![]()
1. 穿越迷雾的 “物理直觉”
传统的判别式模型往往在逐帧检测,一旦物体被遮挡或环境变得混沌(如烟雾、强光、阴影),“检测框” 往往会发生抖动甚至丢失。但在 FlowRVS 的视角里,视频是一个整体的流场。即便在严重的遮挡(Occlusion)或非刚体形变下,分割 Mask 依然像胶水一样紧紧吸附在物体表面。这说明模型并非在机械地匹配像素,而是利用 T2V 底座中蕴含的物理规律,理解了物体的 “恒常性”。
2. 极速推理的秘密:被拉直的时空
得益于对视频全局建模的特性,FlowRVS 在超长序列的处理上展现出了传统模型难以企及的稳定性。在长达 81 帧的超长测试中,FlowRVS 的推理效率几乎没有波动。更重要的是,它彻底解决了长距离追踪中的 “轨迹漂移” 难题,在更长帧数与视频(200 帧,25s)下依旧能保持让人惊讶的外推能力。
这种稳定性源自于 Flow Matching 训练出的流场具有极强的方向确定性,模型表现出了一种近乎 “直觉” 的预测力:即便物体的动作超出了训练集的分布范畴(如 “翻跟头的狗”,“打篮球的人”),它依然能凭借对物理运动轨迹的理解,顺着流场的方向完成精准分割 。这种从已知推向未知的泛化红利,证明了 FlowRVS 捕捉到的是视频运动的本质规律,而非简单的模式记忆。
万流归宗:Flow Matching 的跨模态大一统
FlowRVS 的成功,不仅是一个 Vision 任务的胜利,更是对 Flow Matching 理论普适性的又一次有力实证。
无论是 Seedance 2 将音频律动映射为肢体动作,还是 Sora 将文本映射为光影像素,亦或是 FlowRVS 将视频像素映射为语义掩码,其数学本质都是一致的:利用向量场(Vector Field)构建两个概率分布之间的最优传输(Optimal Transport)路径。
在 Flow Matching 的视角下,模态的壁垒被打破了。Input 可以是噪声、是视频、是音频;Output 可以是图像、是 Mask、是深度图,甚至是 3D 动作。 FlowRVS 证明了,只要我们能定义好源分布(Source)和目标分布(Target),Flow Matching 就能在两者之间架起一座确定性的桥梁。
这或许预示着视觉感知的未来:我们不再需要为检测、分割、生成分别设计特异化的架构(Encoder-Decoder, R-CNN...),所有的任务,终将被统一在一个简洁优美的 ODE 方程之中。





京公网安备 11011402013531号