文章图片
图 8. 中山大学 HCP 实验室利用视觉推理技术去解决大规模类别数量下的小样本单分类和多分类视觉物体识别问题 。
我们第二个工作专注于利用外部知识推理去辅助小样本分类的建模 。 现有基于元学习的解决办法在不同的小样本类别的子任务之间的偏差较大 , 而我们的工作通过外部知识构建小样本类别和多数类别之间的全局联系 , 其优势在于稳定小样本分类模型训练和提高其分类鲁棒性 。 具体来说 , 它首先构建一个结构化的知识图谱 , 通过推理不同的类别的共现概率去建模所有类别的全局联系 , 然后引入标签语义来指导学习特定于语义的特征初始化标签 。 我们将知识图谱中每一个节点看作某个类别的单分类模型 , 并通过图神经网络推理去实现它们的消息传播机制从而进行语义关联的模型训练 。 该方法能有效解决超大规模类别的单分类小样本物体识别问题 , 同时也能够轻易扩展到多标签小样本分类问题当中 。
文章图片
图 9. 中山大学 HCP 实验室利用视觉推理技术去解决视觉关系分类中的长尾问题 。
我们第三个工作研究的是以判别对象和关系标签为目的的长尾视觉关系分类 。 当前大多数方法通常通过遵循 {主体 , 客体} 的固定推理路径来识别低频率出现的关系三元组 。 然而 , 这种固定的依赖路径的知识整合往往忽略了常识知识和真实场景之间的语义差距 , 容易受到对象和关系标签的数据集偏差影响 。 为了缓解这种情况 , 我们提出了可配置图推理来分解视觉关系的推理路径 , 并结合外部知识 , 实现对每幅图像中每种关系类型的可配置知识选择和个性化图推理 。 给定常识知识图 , 可配置图推理网络学习匹配和检索不同子路径的知识 , 并有选择地组合知识路由路径 , 弥合了常识知识与现实场景之间的语义鸿沟 。 大量的实验表明 , 可配置图推理网络在几个流行的基准测试中始终优于以前的最新方法 。
在第四个工作中 , 我们专注于图像描述分割问题 。 该任务的实质是在给定某个自然语言描述下作出跟该表述相关的图像分割 , 而难点在于如何在抽象的语言表述中实现精细化的分割结果 。 我们试图通过解析给定语言表述的依赖树结构去实现多模态推理结果 。 技术上来说 , 我们提出了基于树结构的多模态循环神经网络模块 , 将低层特征通过语义引导融合到高层特征中 , 贯彻自底向上的语义一致性 。 实验证明了我们这个方法能够有效学习语言描述的粗粒度语义与像素层面的精细语义的对应 , 从而在该任务中进行多模态推理实现优秀的分割效果 。
文章图片
图 10. 中山大学 HCP 实验室利用视觉推理技术去实现描述性图像分割中的多模态推理 。
文章图片
图 11. 基于构建辅助任务去实现数学推理题求解
最后值得一提的是 , 我们基于高效自监督学习和知识推理的研究思想也可拓展到一些自然语言处理的领域 。 在今年 ACL 上(图 11) , 我们提出了一个基于自监督辅助任务学习进行推理 , 再实现数学应用题求解 。 每一个辅助任务所解决的都是关于应用题里条件的具体描述情况 , 而对这类信息的正确把握实际上是推理过程中的中间结果 , 对最终求解起着重要作用 。 我们利用神经符号模型将辅助任务信息和树结构推理模型结合起来 , 最后的模型在四个现有的基准数据集上达到了目前最优的效果 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
