chris cole alex丶kael(12) _「广东龙网」

我们的系统在当时著名并广为使用的 MNIST 手写数字识别数据集上取得了新的最佳性能记录 [MLP1] 。这一成就是通过在高度并行的图形处理单元 GPU 上加速传统的 FNN 实现的。一位著名的评论员将此成为「唤醒了机器学习社区」。今天，很少有商业深度学习应用仍然使用无监督的预训练。

文章插图

我在瑞士人工智能实验室 IDSIA 的团队，通过将传统的 FNN 替换为另一种名为卷积神经网络（CNN）的神经网络，进一步改进了上述关于 FNN 中纯粹监督式深度学习的工作（2010）。自 1970 年起，研究者们便发明并不断改进了 CNN [CNN1-4] 。
我们对基于 GPU 的快速 CNN 的监督式集成（请参阅 Ciresan 等人于 2011 年发表的论文）[GPUCNN1] 是一个重大的突破（相较于早期对 CNN 进行加速的工作快了许多 [GPUCNN]），并在 2011 年 5 月 15 日至 2012 年 9 月 10 日期间连续 4 次在重要的计算机视觉竞赛中夺冠 [GPUCNN5] 。尤其是，我们的快速深度卷积神经网络是第一个在手写汉字识别竞赛（ICDAR 2011）中夺冠的算法，也是在所有国际竞赛中实现超越人类的视觉模式识别能力的算法（我们在 IJCNN 2011 的现场交通标志识别大赛中获得了第一名，误差率为 0.56%，也是该比赛中唯一超越人类的方法，人类的平均误差为 1.16%，本届比赛第三名方案的误差为 1.69%）；我们的模型也在 2012 年 5 月的 ISBI 大会举办的图像分割大赛中首次夺冠，在 2012 年 9 月 10 日的 ICPR 大会举办的目标检测大赛中首次夺冠，同时也是第一个在医学癌症图像检测竞赛中夺冠的模型 [GPUCNN5]；我们的快速 CNN 图像扫描器比之前方法的运行速度要快 1000 倍以上 [SCAN] 。

文章插图

在 2011 年的一次竞赛中，我们的系统将目标识别误差率降低了一半以上，而此时距离「奇迹之年」已经过去了 20 年 [GPUCNN2] 。不久之后，其他研究者也在图像识别竞赛中也采用了类似的方法 [GPUCNN5] 。
与我们的 LSTM 在 2009 年取得的结果一样（详见第 4 章），我们的上述结果以及 2010-2011 年在前馈神经网络上取得的结果引起了工业界极大的兴趣。例如，在2010 年，我们为全世界最大的钢铁制造商 Arcelor Mittal 提出了我们基于 GPU 的深度快速网络，从而大大改进了钢铁缺陷检测技术 [ST] 。这可能是深度学习技术在重工业领域取得的第一个重大突破。如今，大多数人工智能初创公司和主要的 IT 公司以及其它著名的公司都在使用这种监督式的快速 GPU 神经网络。
20. 令人惊讶的关于人工智能的 FKI 系列技术报告（1990 年代）

文章插图

许多后来广为使用的「现代」深度学习基本思想都是我们在「奇迹之年」（1990-1991）于慕尼黑工业大学（TU Munich）发表的（那时柏林墙刚刚倒塌不久）：无监督或自监督学习、数据生成对抗网络（用于人工好奇心和相关的概念，详见第 5 章；也可以参阅本文第 7 章介绍的我在科罗拉多大学的后续工作）以及深度学习的根本性问题（梯度弥散/爆炸，详见第 3 章）机器解决方案：（1）用于非常深的（循环）神经网络（详见第 1 章）的无监督预训练；（2）催生 LSTM 的基本思路（详见第 4 章和第 8 章）。
当时，我们还提出了序列注意力学习神经网络，这是另一种已经变得非常流行的概念（关于观测空间的「硬」注意力机制和潜在空间的「软」注意力机制的介绍都请参阅第 9 章）；还有学着对另一个神经网络的快速权值、甚至是它们自己的权值进行编程的神经网络（详见第 8 章），以及上述提到的所有其它技术：从分层强化学习（详见第十章）到使用循环神经世界模型进行规划（详见第 11 章），等等。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。