文章图片
词汇 - 图块对齐的可视化 。 研究者使用预训练模型 Wukong_ViT 和 Wukong_Swin 进 行可视化 。 如图 4 所示 , 其中可视化来自中文的 ImageNet 的六个标签(即豆娘、救生艇、蜂鸟、平板手机、教堂和电风扇)的图像 。 然后应用与 FILIP(Yao 等人 , 2022)相同的可视化方法来对齐文本和图块 token 。
从下图 4 中 , 研究者发现两种模型都能够预测目标物体的图像块 。 对于具有更多图像块的 Wukong_ViT , 这种词汇 - 图块对齐比 Wukong_Swin 更加细粒度 。
【华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白】
文章图片
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
