chris cole alex丶kael( 七 )

因此，正如我们在 1991 年所指出的，在随机环境中，C 的奖励不应该是 M 的误差，而应该是 M 的误差在后续训练迭代过程中的一阶导数的近似，即 M 获得的改进[AC91][AC91b] 。因此，尽管面对上述充满噪声的电视屏幕会导致很高的误差，但 C 也不会在陷入这种困境时获得奖励。完全可预测和根本不可预测的情况都会使好奇心消失。这种思路催生了许多人工智能科学家和艺术家 [AC09] 的后续工作 [AC10] 。
7. 用于无监督数据建模的对抗性网络（1991）
在我 1990 年发表首篇关于对抗生成网络的工作（详见第 5 章）后不久，我在科罗拉多大学博尔德分校做博士后时，又提出了一种无监督对抗性极小极大值原理的变体。神经网络最重要的任务之一就是学习图像等给定数据的统计量。
为了实现这一目标，我再次在一个极小极大博弈中使用了梯度下降 / 上升的原理，其中一个神经网络将最小化另一个神经网络最大化的目标函数。这种两个无监督对抗性神经网络之间的对抗被称为可预测性最小化 (PM，1990 年代提出) 。与后来的 [GAN1] 不同，PM 是一个纯粹的极大极小博弈，例如 [PM2] 中的等式 2 。相关综述文章请参阅 [AC19]) 。
第一个关于 PM 的小型实验 [PM1] 是在大约 30 年前进行的，当时其计算成本大约是现在的 100 万倍。5 年后，当计算成本降低了 10 倍时，我们得以说明，应用于图像的半线性 PM 变体会自动生成在神经科学领域广为人知的特征检测器（例如，从中心到周围的检测器、从周围到中心的检测器，以及方向敏感的棒状检测器 [PM2]）。
8. 端到端的可微「快速权值」：能学着对神经网络进行编程的网络（1991）
一个典型的神经网络拥有比神经元更多的连接。在传统的神经网络中，神经元的激活值变化较快，而连接权值变化则较慢。也就是说，大量的权重无法实现短期记忆或临时变量，只有少数神经元的激活值可以做到。具有快速变化的「快速权值」的非传统神经网络则克服了这一局限性。
神经网络的动态连接或快速权值是由 Christoph v. d. Malsburg 于 1981 年提出的 [FAST]，其他学者对此进行了更深入的研究，例如 [FASTb] 。然而，这些作者并没有采用端到端可微的系统，通过梯度下降学习来迅速操作「快速权重」的存储。我在 1991 年发表了下面这样的系统 [FAST0][FAST1]，其中慢速神经网络学着去控制独立的快速神经网络的权值。也就是说，我将存储和控制像在传统计算机中那样分开，但是，是以完全的神经方式（而不是以混合方式）做到这一点。这种思路催生了许多后续的工作，下面我将列举其中的一些。
一年之后，我提出了基于梯度下降的、通过二维张量或外积更新实现的对快速权值的主动控制 [FAST2]（可以与我们在该领域最新的工作对比 [FAST3][FAST3a]）。我们的动机是，在端到端可微控制下获得比同样大小的标准 RNN 更多的可能的临时变量：从 O（H）变成O（H^2），其中 H 为隐藏单元的数量。25 年后，其他研究者也采用了这种方法 [FAST4a] 。论文 [FAST2] 也明确地讨论了对端到端可微网络中「内部注意力关注点」（Internal Spotlights of Attention）的学习问题。相关工作请参阅第九章有关学习注意力的内容。
【chris cole alex丶kael】我也曾说明了「快速权值」可以如何被用于元学习或「Learning to Learn」，这也是我自 1987 年以后的一个主要的研究课题 [META1] 。在 1992 年后的参考文献 [FASTMETA1-3] 中，慢速 RNN 和快速 RNN 是相同的：网络中每个连接的初始权值都是由梯度下降法训练的，但是在一个迭代周期中，每个连接都可以由网络本身编址、阅读、并修改（通过 O（log^n）个特殊的输出单元，其中 n 是连接的数目）。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。