单GPU每秒76帧，重叠对象完美分割，多模态Transformer用于视频分割( 二 ) _分割

方法介绍
任务定义。 RVOS 的输入为帧序列

文章图片

，其中

文章图片

；文本查询为

文章图片

，这里t_i是文本中的第i个单词；大小为

文章图片

的感兴趣帧的子集为

文章图片

，目标是在每一帧

文章图片

中分割对象

文章图片

。
特征提取。该研究首先使用深度时空编码器从序列 V 中的每一帧中提取特征。同时使用基于 Transformer 的文本编码器从文本查询 T 中提取语言特征。然后，将空间-时间和语言特征线性投影到共享维度 D 。
实例预测。之后，感兴趣的帧特征被平化（flattened）并与文本嵌入分开连接，产生一组T_I多模态序列，这些序列被并行馈送到 Transformer 。在 Transformer 的编码器层中，文本嵌入和每帧的视觉特征交换信息。然后，解码器层对每个输入帧提供N_q对象查询，查询与实体相关的多模态序列，并将其存储在对象查询中。该研究将这些查询（在图 1 和图 2 中由相同的唯一颜色和形状表示）称为属于同一实例序列的查询。这种设计允许自然跟踪视频中的每个对象实例。
输出生成。 Transformer 输出的每个实例序列，将会生成一个对应的掩码序列。为了实现这一点，该研究使用了类似 FPN 的空间解码器和动态生成的条件卷积核。最后，该研究使用文本参考评分函数（text-reference score function），该函数基于掩码和文本关联，以确定哪个对象查询序列与 T 中描述的对象具有最强的关联，并将其分割序列作为模型的预测返回。
时间编码器。适合 RVOS 任务的时间编码器应该能够为视频中的每个实例提取视觉特征（例如，形状、大小、位置）和动作语义。相比之下，该研究使用端到端方法，不需要任何额外的掩码细化步骤，并使用单个主干就可完成。最近，研究者提出了 Video Swin Transformer [27] 作为 Swin Transformer 对视频领域的泛化。最初的 Swin 在设计时考虑了密集预测（例如分割），Video Swin 在动作识别基准上进行了大量测试。
据了解，该研究是第一个使用Video Swin （稍作修改）进行视频分割的。与 I3D 不同， Video Swin 仅包含一个时间下采样层，并且研究者可以轻松修改以输出每帧特征图。因此， Video Swin是处理完整的连续视频帧序列以进行分割的更好选择。
实例分割过程
实例分割过程如图 2 所示。

文章图片

首先，给定 F_E ，即最后一个 Transformer 编码器层输出的更新后的多模态序列，该研究提取每个序列的视频相关部分（即第一个 H × W token）并重塑为集合

文章图片

。然后，该研究采用时间编码器的前 n ? 1 个块的输出

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。