机器之心报道
机器之心编辑部
来自中国科学技术大学、微软亚研等机构的研究者提出了 PeCo , 用于视觉 transformer 的 BERT 预训练 , 在多项任务上实现最高性能 。基于大型语料库训练的 Transformer 模型在自然语言处理中取得了巨大的成功 , 作为 Transformer 构建块 , self-attention 极大地改变了计算机视觉任务 。 NLP 的成功不仅依赖于 Transformer 的计算效率和可扩展性 , 还依赖于对大量文本进行自监督学习 。 目前 NLP 领域存在两种主流的学习范式:基于自回归语言建模的 GPT 和基于掩码语言建模的 BERT , 这两者在计算机视觉领域中也被重新设计 , 以便充分利用海量的网络图像 。
然而 , 在视觉任务上设计具有相似风格的目标是具有挑战性的 , 因为图像作为一种高维和冗余的模态 , 在两个方面与文本不同:首先 , 文本由离散字符组成 , 而图像在颜色空间中呈现连续值;其次 , 文本中的离散 token 包含高级语义含义 , 而离散化的图像在像素级和 patch 级包含大量冗余 token 。
因此 , 我们不禁会问是否有一种方法可以学习感知离散视觉 token , 这将有助于图像预训练 。
基于上述观察 , 来自中国科学技术大学、微软亚研等机构的研究者提出了学习感知 codebook( perceptual codebook, PeCo) , 用于视觉 transformer 的 BERT 预训练 。 目前 , BEiT 成功地将 BERT 预训练从 NLP 领域迁移到了视觉领域 。 BEiT 模型直接采用简单的离散 VAE 作为视觉 tokenizer , 但没有考虑视觉 token 语义层面 。 相比之下 , NLP 领域中的离散 token 是高度语义化的 。 这种差异促使研究者开始学习感知 codebook , 他们发现了一个简单而有效的方法 , 即在 dVAE 训练期间强制执行感知相似性 。
该研究证明 PeCo 生成的视觉 token 能够表现出更好的语义 , 帮助预训练模型在各种下游任务中实现较好的迁移性能 。 例如 , 该研究使用 ViT-B 主干在 ImageNet-1K 上实现了 84.5% 的 Top-1 准确率 , 在相同的预训练 epoch 下比 BEiT 高 1.3 。 此外 , 该方法还可以将 COCO val 上的目标检测和分割任务性能分别提高 +1.3 box AP 和 +1.0 mask AP , 并且将 ADE20k 上的语义分割任务提高 +1.0 mIoU 。
文章图片
论文地址:https://arxiv.org/pdf/2111.12710v1.pdf
方法
在自然语言中 , 词是包含高级语义信息的离散 token 。 相比之下 , 视觉信号是连续的 , 具有冗余的低级信息 。 在本节中 , 该研究首先简要描述了 VQ-VAE 的离散表示学习 , 然后介绍如何学习感知 codebook 的过程 , 最后对学习感知视觉 token 进行 BERT 预训练 。
学习用于可视化内容的离散 Codebook
该研究利用 VQ-VAE 将连续图像内容转换为离散 token 形式 。 图像表示为 x∈ R^H×W×3 , VQ-VAE 用离散视觉 Codebook 来表示图像 , 即
文章图片
其中 , VQ-VAE 包含三个主要部分:编码器、量化器和解码器 。 编码器负责将输入图像映射到中间潜在向量 z = Enc(x);量化器根据最近邻分配原则负责将位置 (i, j) 处的向量量化为来自 Codebook 对应的码字(codewords):
文章图片
然后得到如下公式:
文章图片
其中 q 是量化编码器 , 可以将向量映射到 codebook 索引 , r 是量化解码器 , 可以从索引重构向量 。 基于量化的码字为 z_q , 解码器旨在重构输入图像 x 。 VQ-VAE 的训练目标定义为:
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
