避免自动驾驶事故,CV领域如何检测物理攻击?(12)


精确的掩模生成 。 尽管 Grad-CAM 可以成功地识别与对抗性目标相对应的鉴别性输入区域 , 但它也可能识别良性的 salient 区域 。 图 11 给出了一个说明性示例 , Grad-CAM 为一个人脸识别网络生成的热图既覆盖了木马的触发补丁 , 也覆盖了原始的人脸区域 。 为了提高掩模准确性 , 作者提出需要对输入图像的选定区域进行额外预测 。 然后 , 对于每个预测 , 使用 Grad-CAM 来提取一个与预测最相关的输入区域的掩模 。 最后 , 结合这些额外的掩模来完善初始预测 y 的掩模 。
避免自动驾驶事故,CV领域如何检测物理攻击?
文章图片

图 11. 上一行:使用渐变 CAM 生成掩模 。 左图显示了与目标 “0” 类别相关的 Grad-CAM 热图 , 右图显示了覆盖了物理攻击以外区域的提取掩模 。 下一行:左图是相对于目标 “0” 类别的 Grad-CAM 热图 , 该行中间的图是对应于给定类别的 Grad-CAM
一旦得到了图片中可能存在的类别列表 , 我们就会划出与每个预测类别更相关的区域 x 。 为简单起见 , 作者假设每个输入只能包含一个恶意对象 。 Algorithm 2 给出了从 x 中提取输入区域的过程 。
避免自动驾驶事故,CV领域如何检测物理攻击?
文章图片

首先 , 使用 Grad-CAM 对输入的 x 和预测的 y 提取掩模 , 同时还为每一个建议的类别 y_p 提取一个掩模 。 在其他的建议类别上执行 Grad-CAM , 可以让我们在对抗性攻击之外找到图像的重要区域 。 此外 , 由于对抗性区域通常与非目标类别呈负相关性 , 热图主动避免突出图像的对抗性区域 。 我们可以使用这些热图来生成二级掩模 , 通过减去掩模重叠的区域来改进原始掩模 。 这能够保证掩模只突出局部攻击 , 而不会突出图像中的其他 salient 区域 。 由图 11 我们可以看到使用这种方法生成了一个更精确的掩模 , 其中只包含了大部分对抗性区域 。
3.1.2 攻击检测
攻击检测需要两个步骤 。 首先 , 如上所述 , SentiNet 提取可能包含对抗性补丁的输入区域 。 然后 , SentiNet 在一组良性图像上测试这些区域 , 以区分对抗性区域和良性区域 。
测试- 一旦定位了输入区域 , SentiNet 就会观察该区域对模型的影响 , 以确定该区域是对手的还是良性的 。 为此 , SentiNet 将可疑区域叠加在一组良性测试图像 X 上 。 将测试图像反馈到网络中 , 网络计算被欺骗的样本数量并用于对抗性图像 。 直观地说 , 可能欺骗模型的变异图像数量越多 , 疑似区域就越有可能是对抗性攻击 。 当恢复的掩模较小时 , 这种反馈技术能有效区分对抗性和良性输入 , 因为小的良性物体通常不能影响到网络的预测 。 然而 , 这种方法的一个问题是 , 一个覆盖了输入图像较大区域的掩模在叠加到其他图像上时 , 很可能会造成错误的分类 。 例如 , 考虑一个输入图像 x 的较大掩模 , 当叠加时 , 掩模内的特征可能比外面的特征相关性更强 , 这就提高了将变异的测试输入分类为 y 的可能性 。 为了解决这一问题 , 作者引入了惰性模式(inert patterns) , 其作用是抑制掩模内部的特征 , 从而提高网络对掩模外特征的反应 。
检测的决策边界- 有了这两个指标(被欺骗的图像数量和平均惰性模式置信值) , 我们可以确定在哪些条件下输入的 x 是对抗性的 。 下一步 , 作者希望引入一种技术 , 使我们能够根据攻击无关的指标 , 将未见过的对抗性输入识别为攻击 。 图 12 给出一个示例 , 其中红色的三角点代表的是在对抗性样本中发现的指标 , 蓝色的圆点是根据清洁样本计算得到的 。 我们可以看到对抗性样本大多聚集在图中右上角的位置 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。