说到深度学习架构中的预测编码模型,还得看PredNet( 五 )

  • 第三 , 深度学习体系结构允许使用大型学习模块(如 LSTM) , 可以处理更宽松的统计假设 , 从而在更一般的情况下运行 。
  • PredNet 属于第二类预测编码模型(如上文所述:像在泰勒级数展开中一样学习高阶误差的层次结构) 。 PredNet 的架构见图 4 。 PredNet 由一系列重复堆叠的模块组成 , 这些模块对输入进行局部预测 , 然后从实际输入中减去该预测并传递到下一层 。 具体的 , 每个模块由四个基本部分组成:输入卷积层(A_l)、递归表示层(R_l)、预测层((a_l)^)和误差表示层(E_l) 。 R_l 是一个循环卷积网络 , 它生成 A_l 在下一帧上的预测(a_l)^ 。 该网络获取 A_l 和(A_l)^ 之间的差值 , 并输出误差表示形式 E_l , 包括单独的校正正误差总体和负误差总体 。 E_l 通过卷积层向前传递 , 成为下一层(A_l+1)的输入 。 R_l 接收 E_l 的副本以及来自下一级网络(R_l+1)的表示层的自顶向下的输入 。 网络的组织是这样的 , 在操作的第一个时间步骤中 , 网络的“右侧”(A_l’s 和 E_l’s)相当于标准的深度卷积网络 。 网络的 "左侧"(R_l’s)相当于一个生成性去卷积网络 , 每个阶段都有局部递归 。 与上一节介绍的经典预测编码模型不同 , PredNet 构建为一个深度学习框架 , 它使用梯度下降法进行端到端的训练 , 同时隐式嵌入了一个损失函数作为误差神经元的触发频率 。
    说到深度学习架构中的预测编码模型,还得看PredNet
    文章图片

    图 4. PredNet 架构 。 左图:两层内信息流的图示 。 每一层由表示神经元(R_l)组成 , 表示神经元(R_l)在每个时间步((a_l)^)输出特定于层的预测 , 并与目标(A_l)进行比较以产生误差项(E_l) , 然后误差项(E_l)在网络中横向和垂直传播
    PredNet 架构适用于各种模拟数据 , 文献 [3] 具体关注图像序列(视频)数据 。 给定图像序列 x_t , 下层的目标设置为实际序列本身 , 上层的目标则是通过对下层的误差单元进行卷积 , 然后通过 ReLU 和 Max pooling 处理得到的 , 使用 LSTM 作为表示神经元 。 (R_l)^t 利用 (R_l)^(t-1)、(E_l)^(t-1) 更新 , 以得到(R_l+1)^t 。 (A_l)^t^ 则通过(R_l)^t 堆的卷积附加 ReLU 处理得到 。 对于下层 , (A_l)^t^ 通过一个设置为最大像素值饱和非线性集:
    说到深度学习架构中的预测编码模型,还得看PredNet
    文章图片

    最后 , (E_l)^t 计算为(A_l)^t^ 和(A_l)^t 的差 , 然后被分为 ReLU 激活的正预测误差和负预测误差 , 这些误差沿特征维度串联 。 完整的更新公式如下:
    说到深度学习架构中的预测编码模型,还得看PredNet
    文章图片

    对模型进行训练以使误差单元活动的加权和最小 。 训练损失为:
    说到深度学习架构中的预测编码模型,还得看PredNet
    文章图片

    对于由减法和 ReLU 激活组成的误差单元 , 每层的损失相当于 L1 误差 。 虽然本文没有针对此问题进行探讨 , 但作者表示也可以使用其他误差单元实现 , 甚至可能是概率的或对抗性的 。 完整的流程如下:
    说到深度学习架构中的预测编码模型,还得看PredNet
    文章图片

    状态更新通过两个过程进行:一个自上而下的过程 , 其中计算(R_l)^t 状态 , 然后一个向前的过程 , 以计算预测、误差和更高级别的目标 。 最后一个值得注意的细节是 R_l 和 E_l 被初始化为零 , 这是由于网络的卷积性质 , 意味着初始预测在空间上是一致的 。
    3.2 PredNet 的预测编码分析
    本小节介绍 PredNet 的图形化展示[1] 。 图 5 示出了模型最下层的 PredNet 预测元素(PE) , 其中左侧的表示模块实现为 cLSTM(convolutional LSTMs , 卷积 LSTM) 。 由于 PredNet 处理视频数据 , 因此该模型中的表示模块由卷积 LSTM(cLSTMs)组成 。 cLSTM 是对 LSTM 的一种修改 , 它使用多通道图像作为其内部数据结构来代替特征向量 。 cLSTM 将基于仿射权乘(用于常规 LSTM)的门操作替换为适用于多通道图像的卷积门操作 , 以生成图像序列(如视频)的有用表示 。 表示模块的输出投射到误差计算模块 , 该模块将其输出发送回表示模块 。 该模型通过将预测结果与目标帧进行比较 , 并使用预测误差作为代价函数 , 来学习预测视频(目标)中的下一帧 。 由于图 5 没有显示前馈和反馈连接如何链接到下一个更上层 , 我们无法确定它是否是预测预测误差的模型 。 在这一点上 , 它作为预测编码模型是通用的 。

    特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。