我们先了解一下不同层级的神经系统的响应特点:大脑中初级视觉皮层(V1)的神经元对特定方向的条形和边缘作出反应 , 而 V2 和 V4 区的神经元对更复杂的形状和轮廓特征作出反应 。 内侧颞上区(medial superior temporal , MST)的神经元对视觉运动有反应 。 这些反应的选择性可以从自然输入的分层预测编码的角度来理解 。 例如 , 由于视觉系统是分层组织的 , 皮层区域之间有相互的联系 。 根据 Rao 和 Ballard 提出的分层神经网络的架构(RB 架构) , 来自高阶视觉皮层区域的自上而下的反馈连接承载了对低阶神经活动的预测 , 而自下而上的连接则传达了预测的剩余误差 。 在对取自自然场景的图像斑块进行模型网络训练后 , 他们发现模型神经元发展出与 V1 相似的感受野特性 , 包括定向感受野、末端停顿和其他背景效应 。
预测编码的一个早期应用是创建视网膜的模型 , 这些模型具有较低的信息传输要求 , 因为视神经是向大脑传输视觉信息的瓶颈 。 连续的视觉输入具有高冗余度 。 如果视网膜上的细胞从空间上和时间上计算出传入光线的移动平均值 , 就可以得到对当前输入的预测 。 通过将实际输入与预测进行比较 , 视网膜可以将预测误差发送到后来的处理区域 , 从而减少传输带宽 。 如果脊椎动物的视网膜从头开始创建当前输入图像的表征 , 信息传输的要求将取决于建立当前环境的完整表征所需的带宽 。 然而 , 大脑通常可以利用其对过去环境的现有表征以及关于环境如何变化的约束条件 , 对环境的当前状态做出非常好的预测 。 与从头开始建立当前环境状态的表征相比 , 预测误差只需要较少的带宽来表示 。 如果大脑已经有了一个相当准确的默认预测 , 那么用预测误差来更新默认预测就可以创造一个最新的、信息传输需求较低的表征 。 此外 , 预测误差可以提供很好的信息来指导学习 , 以改善表征并减少未来的预测误差 。
随着预测编码模型的发展 , 人们开始尝试将其构建为生成模型 , 以使其能够直接生成预测的感觉输入 。 这通常将其表示为一个层次结构 , 其中上层预测下层的输出(即对上层的输入) , 任何预测误差都提供信息来指导上层的学习 。 涉及前馈和反馈连接的分层结构也与灵长类动物的新皮层结构一致 。 在感知推理和识别的背景下 , 一个训练好的生成模型具有这样的特性:学习到的表征可以重建原始感觉输入的分布 , 并在不同的空间和时间尺度上估计输入中的隐性原因 。 学习到的表征能够捕捉到首先产生输入的因果因素 , 因此使得重建变为可能 。 它需要一个从感觉到原因的逆向映射 , 以便构建表征 。 这很有挑战性 , 因为计算物理世界中感觉和原因之间的逆向映射是一个 ill-posed 问题 , 也就是说 , 它的解决方案不是唯一的 。 在贝叶斯方法中 , 这可以通过使用适当的先验概率来解决 , 在某些情况下 , 如果有足够的输入 , 可以学习这些先验概率 。 一种方法是通过学习使预测误差最小化(即预测性编码) 。
早期的预测编码模型一般被表述为统计模型 , 如分层期望最大化(hierarchical expectation maximization)和变分自由能量模型(variational free energy models) 。 尽管这些模型提出了计算预测的精确计算方法但仍存在一些问题和挑战 , 实施这些模型具有非常庞大的计算量 , 而且模型的假设具有高度的限制性 。 在近期的研究工作中 , 研究人员提出了利用深度神经网络结构来解决这一问题[3] , 从而可以直接调用深度学习框架附带的大型工具集已解决计算量的问题 。
2、 预测编码学习层次化的背景知识[1][5]
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
