chris cole alex丶kael(11) _「广东龙网」

18. 我的博士毕业论文（1991）
1991 年，我发表了我在慕尼黑工业大学的博士论文 [PHD]，总结了我自 1989 年以来的一些早期工作，其中包括：第一个强化学习（RL）神经经济学方法（Neural Bucket Brigade）[BB1][BB2]、用于局部时空循环神经网络的学习算法 [BB1]、具有端到端可微子目标生成器的分层强化学习（HRL，详见第 10 章）、通过两个被称为控制器 C 和世界模型 M 的循环神经网络组合进行强化学习和规划、顺序注意力学习神经网络、学着调整其他神经网络的神经网络（包括「合成梯度」，详见第 15 章），以及用于实现「好奇心」的无监督或自监督的生成对抗网络（详见第 5 章）。
当时，许多其他人的神经网络研究受到了统计力学的启发（例如，[HOP]）。我在 1990-1991 年间的工作（以及我早先于 1987 年发表的学位论文）呈现了另一种面向程序的机器学习的观点。

文章插图

1931 年，Kurt G?del 在创立理论计算科学时用基于整数的通用编码语言表示数据（例如公理和定理）和程序（例如针对数据进行的操作的证明生成序列）。众所周知，他使用这种语言构建正式的声明（statement），这些声明可以说明其它正式声明的计算过程，特别是「自我参照」的正式声明，声明它们不能通过任何计算定理被证明。这样一来，他便给出了数学、计算和人工智能的基本极限。
自从 1990 年发表 [AC90] 以来，我经常指出：神经网络的权值应该被看作是它的程序。一些研究者认为深度神经网络的目标是学习观测数据的有用的内部表示（甚至针对表征学习举办了名为 ICLR 的国际学术会议），但我一直倾向于认为神经网络的目标是学习一个计算此类表征的程序（参数）。
在 G?del 的启发下，我构建输出为其它神经网络的程序或权值矩阵的神经网络，甚至是可以运行和检查自己的权值变化算法或学习算法的自参照循环神经网络（详见第 8 章）。
与 G?del 的工作不同的是，这里的通用编程语言并不是基于整数，而是基于实数值，这样一来典型神经网络的输出对于其程序而言就是可微的。也就是说，一个简单的程序生成器（高效的梯度下降过程 [BP1]）可以在程序空间中计算出一个方向，在该方向上可以发现更好的程序 [AC90]，尤其是更好的「程序生成」程序（详见第 8 章）。我自 1989 年以来的大量工作都利用了这一事实。
19. 从无监督预训练到纯粹的监督式学习（1995-1995，,2006-2011）
正如第 1 章中所提到的，我构建的第一个非常深的学习器是 1991 年的栈式循环神经网络，它使用无监督预训练学习深度大于 1000 的问题。但不久之后，我们发表了更多无需任何预训练的解决「深度学习」问题的通用方法（详见第 3 章），通过纯粹的监督式长短时记忆网络（LSTM）来替代无监督的栈式循环神经网络 [UN1-3]（详见第4 章）。
也就是说，在公元 2000 年之前，无监督的预训练已经不再那么重要了，因为 LSTM 并不需要它了。实际上，这种从无监督预训练到纯粹的监督式学习的转变早在 1991 年就开始了。
多年之后，在 2006 年到 2010 年间，也出现了非常类似的转变，但这次这种转变并不是针对于循环神经网络（RNN），而是发生在没那么通用的前馈神经网络（FNN）上。同样的，我的小实验室在这次转变中也起到了核心作用。2006 年，研究者通过栈式 FNN 的无监督预训练改进了 FNN 中的监督学习 [UN4]（详见第 1 章）。但是在 2010 年，我们的团队以及我杰出的罗马尼亚博士后 Dan Ciresan [MLP1] 说明可以通过简单的反向传播训练深度 FNN，而且对于重要的应用来说完全不需要无监督预训练。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。