文章图片
目标检测与分割:如表 3 所示 , 在这一任务上 , PeCo 获得了最好的性能:
文章图片
感知 Codebook 分析
码字语义:学习的感知码字是否具有(更多)语义含义?为了回答这个问题 , 该研究设计实验以提供视觉和定量结果 。
首先 , 该研究将对应于相同码字的图像 patch 进行可视化 , 并与两个基线进行比较:在 2.5 亿私有数据上训练而成的 DALL-E codebook;不使用感知相似性的 PeCo 模型的一个变体 。 结果如图 3 所示 , 我们可以看到该研究码字与语义高度相关 , 如图中所示的轮子 , 来自基线的码字通常与低级信息(如纹理、颜色、边缘)相关 。
文章图片
此外 , 该研究还与不使用感知相似性的变体进行了比较 。 如表 4 所示 ,我们可以发现感知码字在线性评估和重构图像分类方面获得了更高的准确率 。 这表明感知 codebook 具有更多的语义意义 , 有利于图像重构过程 。
文章图片
下图为使用 BEiT 和 PeCo 在 ImageNet-1k 上重构任务的示例 。 对于每个样本 , 第一张是原始图像 , 第二张是对应的掩码图像 , 第三张是 BEiT 重构图像 , 最后一张是从感知 codebook(PeCo)重构的图像 。 PeCo 在感知 codebook 的帮助下 , 能够对掩码区域进行更语义化的预测 。
【视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo】
文章图片
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
