华为诺亚开源首个亿级中文多模态数据集，填补中文NLP社区空白( 四 ) _语言

文章图片

词汇 - 图块对齐的可视化。研究者使用预训练模型 Wukong_ViT 和 Wukong_Swin 进行可视化。如图 4 所示，其中可视化来自中文的 ImageNet 的六个标签（即豆娘、救生艇、蜂鸟、平板手机、教堂和电风扇）的图像。然后应用与 FILIP（Yao 等人， 2022）相同的可视化方法来对齐文本和图块 token 。
从下图 4 中，研究者发现两种模型都能够预测目标物体的图像块。对于具有更多图像块的 Wukong_ViT ，这种词汇 - 图块对齐比 Wukong_Swin 更加细粒度。
【华为诺亚开源首个亿级中文多模态数据集，填补中文NLP社区空白】
文章图片

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。