机器之心分析师网络
作者:仵冀颖
编辑:Joni
本文中 , 作者对经典预测编码模型和深度学习架构中的预测编码模型进行了简单回顾 , 其中重点介绍了用于视频预测和无监督学习的深度预测编码网络 PredNet 以及基于 PredNet 进行改进的一些版本 。0、 引言
预测编码(predictive coding)是一种认知科学的假说 。 与一般认为高层次的神经活动都是由感官输入引起的理念不同 , 该假说认为更高层次的神经表征会参与定义感觉输入(Sensory Input) 。 预测编码的概念起源于神经科学界 , 近年来 , 机器学习领域的一些研究人员也开始致力于研究预测编码相关的模型 。 本文以来自路易斯安那大学拉菲特分校(University of Louisiana at Lafayette) 的 Hosseini M 和 Maida A 近期发表的文章为基础[1] , 探讨预测编码是如何在深度学习的架构中应用的 。
预测编码的一个决定性特征是:它使用自上而下的重构机制来预测感觉输入或其低级别的表征 。 具体来说 , 预测编码首先确定预测值和实际输入之间的差异(称为预测误差) , 然后启动后续学习过程 , 以改进所学的更高层次表征的预测准确度 。 在深度学习发展之前 , 旨在描述新皮质计算(computations in the neocortex)的预测编码模型就已经出现 , 这些模型构建了模块之间的通信结构 , 称之为 Rao-Ballard 协议(RB protocol) 。 RB 协议是由贝叶斯生成模型得出的(通过结合感觉输入与先前的预期 , 以做出更好的未来预测) , 包含了一些强统计假设 。 而非贝叶斯预测编码模型(不遵循 RB 协议)一般用于减少信息传输要求和取消自身行动的影响 , 而不是用于预测 。
预测编码可以看作是一种表征学习(representation learning) 。 支持贝叶斯预测编码的学习机制能够改进所获取的内部表征的质量 , 这可以看做是减少未来预测误差的一种副作用 。 预测 / 重构能力确保获得的表征能够完全代表输入中所包含的信息 。 由于整个学习过程是由预测误差所驱动的 , 所以是一种无监督学习 , 只需要预测的数据流的信息 。
在应用方面 , 预测编码可用于学习重叠图像组件、物体分类、视频预测、视频异常检测、偏向竞争(Bias competition)建模、灵长类视觉皮层的反应特性以及脑电图诱发的大脑反应健康问题 。 此外 , 它还被提出作为新皮层功能的统一理论 。
到目前为止 , 在深度学习架构中构建大型的预测编码模型的示例非常少见 , 最著名的为文献 [3] 中提出的 PredNet 模型 , 我们会在文章中对其进行介绍 。 大多数预测编码模型都是在深度学习框架出现之前实现的 , 所以这些经典的模型规模都很小 , 而且都没有专门的时间处理模块 。
1、 预测编码的基本知识
首先 , 我们参考来自华盛顿大学的研究人员发表的一篇预测编码综述性文章 , 从神经学的角度对预测编码进行介绍 [2] 。 预测编码是一个试图解释认知现象和理解神经系统的统一框架 , 它提出了神经系统中如何减少冗余和进行高效编码:通过只传输传入的感觉信号中未预测的部分 , 预测编码允许神经系统减少冗余并充分利用神经元的有限动态范围 。 预测编码为一系列神经反应和大脑组织的许多方面提供了功能性解释 。 自然界中视网膜和外侧膝状核(lateral geniculate nucleus , LGN)接受区(receptive field) 的侧向和时间拮抗(temporal antagonism)是自然图像预测编码的结果 。 在预测编码模型中 , 视网膜 / LGN 中的神经回路主动地从空间中的附近值或时间中的先验输入值的线性加权总和来预测局部强度的数值 。 这些电路中的细胞传达的不是原始图像强度 , 而是预测值和实际强度之间的差异 , 这种处理方式减少了输出冗余 。 而在高级视觉系统中 , 预测编码为定向感受区和背景效应以及大脑皮层的分层互连组织提供了解释 。 从不同脑区获得的各种神经生理学和心理物理学数据也与预测编码的猜想一致 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
