CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer( 二 )


文章图片

(1)
其中 i 是满足 i^2 = -1 的虚数单位 , |·| 表示绝对值运算 , ⊙是逐元素乘法 。 幅值 |z_j| 是实值的特征 , 表示每个 Token 所包含的内容 。 θ_j 表示相位 , 即 Token 在一个波周期内的当前位置 。
两个 Token 之间的相位差对它们的聚合过程有很大影响 (如下图 3 所示) 。 当两个 token 具有相同的相位时 , 它们会相互增强 , 得到幅值更大的波(图 3(b));当两个 token 相位相反时 , 他们合成的波将相互减弱 。 在其他情况下 , 它们之间的相互作用更加复杂 , 但仍取决于相位差(图 3(a)) 。 经典方法中使用实值表示 token 的 , 这实际上是上式的一个特例 。
CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
文章图片

图 3:两个具有不同相位的波的聚合过程 。 左侧表示两个波在复数域中的叠加 , 右侧表示它们在实轴上的投影随着相位的变化 。 虚线表示两个初始相位不同的波 , 实线是他们的叠加 。
相位感知的 Token 聚合
公式(1)中包含幅值和相位两项 , 幅值 z_j 类似于实值特征 , 可以采用标准的 Channel-FC 生成:
CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
文章图片

(2)
对于相位 , 可以使用多种方式来估计 。 为了使得相位可以捕获每个输入的特定属性 , 该研究使用一个可学的估计模块来生成相位 θ_j 。 在获得幅值 z_j 和相位 θ_j 之后 , 可以根据公式(1)得到 Token 的波函数表示
CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
文章图片

。 同时 , 公式(1)可以采用欧拉公式展开成连个实值向量拼接的形式:
CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
文章图片

(3)
表示不同的 Token 波函数会通过一个 Token-FC 聚合起来 , 得到复数域的输出:
CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
文章图片

(4)
类似于量子计算中的测量过程 , 复数域的需要映射到实数域里才能得到有意义的输出值 。 将实部和虚部做按照一定的权重进行求和 , 得到模块的输出:
CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
文章图片

(5)
在视觉 MLP 中 , 该研究构建了一个相位感知模块(PATM , 图 1)来完成 Token 聚合的过程 。 交替堆叠 PATM 模块和 channel-mixing MLP 组建了整个 WaveMLP 架构 。
实验结果
该研究在大规模的分类数据集 ImageNet, 目标检测数据集 COCO 和语义分割数据集 ADE20K 上都进行了大量实验 。
ImageNet 上图像分类的结果如表 1 , 表 2 所示:相比于现有的 Vision MLP 架构和 Transformer 架构 , WaveMLP 都取得了明显的性能优势 。
CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
文章图片

在下游目标检测、语义分割等任务中 , Wave-MLP 同样表现出更优的性能 。
CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
文章图片

【CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer】CVPR | 华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
文章图片

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。