chris cole alex丶kael( 四 )


假设有一个「老师」神经网络和一个「学生」神经网络,「老师」神经网络已经学会了对在给定其它数据的情况下,预测数据(的条件期望) 。那么我们可以通过训练「学生」神经网络模仿「老师」神经网络的行为,将「老师」神经网络的知识压缩到一个「学生」神经网络中(同时重新训练学生神经网络去完成之前学过的技能,从而避免它遗忘这些技能) 。
我将这种操作称作将一个网络的行为「折叠」或「压缩」到另一个网络中 。如今,这种方法被广泛使用,有的研究者(例如,Hinton)也将它称为将「老师」网络的行为「蒸馏」[DIST2] 或「克隆」到一个「学生」网络中 。
3. 根本性的深度学习问题(梯度弥散/爆炸,1991)
在介绍背景知识的第 0 章中,我们指出深度学习是很困难的 。但是为什么它很困难呢?我喜欢将其中的一个主要原因称为「根本性的深度学习问题」,而我的第一个学生 Sepp Hochreiter 于 1991 年在他的毕业论文 [VAN1] 中提出了这个问题,并且对其进行了分析 。
作为这篇论文的一部分,Sepp 实现了上面(第 1 章)介绍的「神经历史压缩器」和其它基于 RNN 的系统(第 11 章) 。除此之外,他还做了更多的工作——他的工作正式说明了,深度神经网络受困于如今非常著名的「梯度弥散」或「梯度爆炸」问题:在典型的深度网络或循环网络中,反向传播的误差信号要么迅速衰减,要么增长得超出界限 。在这两种情况下,学习都会失败 。这样的分析催生了如今的 LSTM 的基本原理 (详见第 4 章) 。
(在 1994 年,还有其他研究者的研究成果 [VAN2] 和 Sepp 于 1991 年发表的有关梯度弥散的研究成果 [VAN1] 基本一模一样 。甚至在公开发表了论文 [VAN3] 之后,本文参考文献 [VAN2] 的第一作者还发表了一系列论文(例如 [VAN4]),并且只引用了他自己在 1994 年发表的论文,但对 Sepp 的原创性工作只字不提 。)
请注意,在 Sepp 的论文指出那些深度神经网络中反向传播的问题之前 20 年,有一位名字相似的学生(Seppo Linnanimaa)于 1970 年在他的论文中发表了现代的反向传播算法,或称自动微分的逆向模式[BP1] 。
4. 长短时记忆网络(LSTM):有监督的深度学习
长短时记忆虚幻神经网络(LSTM)[LSTM1-6] 克服了 Sepp 在其 1991 年发表的毕业论文 [VAN1](详见第 3 章) 中提出的根本性的深度学习问题 。我认为这是机器学习历史上最重要的论文之一 。它还通过我们在 1995 年发布的技术报告 [LSTM0] 中所称的 LSTM 的基本原理(例如,恒定误差流)为解决根本性的深度学习问题提供了重要的思路 。这催生了如下所述的大量后续工作 。
明年,我们将庆祝 LSTM 首次未能通过同行评审的 25 周年 。1997年,在经过了主要的同行评审出版物 [LSTM1](现在是「Neural Computation」期刊历史上引用量最多的文章)发表之后,LSTM 模型和它的训练过程都得到了进一步的改进,这些工作由瑞士人工智能实验室「IDSIA」的瑞士 LSTM 基金支撑,我后来的学生 Felix Gers、Alex Graves 等人参与到了这些工作中 。
其中一个具有里程碑意义的工作是:带有遗忘门 [LSTM2] 的「vanilla LSTM」架构,这是1999年到 2000 年间被提出的 LSTM 变体,直到现在仍然被广泛使用(例如,在谷歌的 Tensorflow 中) 。LSTM 的遗忘门实际上是一种端到端可微的快速权值控制器,我们在 1991 年也提出了这种结构[FAST0](详见第八章) 。
Alex 是我们首次成功地将 LSTM 应用于语音领域的工作的第一作者 (2004)[LSTM10] 。2005 年,我们发布了第一个具有完全基于时间的反向传播功能的 LSTM 和双向 LSTM 发 [LSTM3](现在被广泛使用) 。2006 年,另一个重要的里程碑是:用于同时对齐和序列识别的训练方法 「连接时序分类」(简称 CTC)[CTC] 。自 2007 年以来,CTC 成为基于 LSTM 的语音识别的必要技术 。例如,在 2015 年,「CTC-LSTM」的组合显著提升了谷歌语音识别系统的性能 [GSR15][DL4] 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。