chris cole alex丶kael( 五 )


在 2000 年代初期,我们说明了 LSTM 如何学习传统模型(如隐马尔可夫模型)无法学习的语言 [LSTM13] 。过了一段时间,这份工作才被理解;但到了 2016~2017 年,谷歌翻译 [WU][GT16] 和 Facebook 翻译 [FB17] 均基于两个连接的 LSTM 被提出,其中一个 LSTM 被用于输入文本,另一个被用于输出翻译,这种模型的性能比之前的模型要好得多[DL4] 。
2009 年,我的博士学生 Justin Bayer 作为第一作者完成了一个自动设计类似于 LSTM 的架构的系统,该系统在某些应用上的性能超过了「vanilla LSTM」 。2017 年,谷歌开始使用类似的「神经网络架构搜索」(NAS)技术 。

chris cole alex丶kael

文章插图

自 2006 年起,我们一直与软件公司(例如,LifeWare)通力合作,大大提升了首写字母识别系统的能力 。2009 年,在 Alex 的努力下,利用「连接时序分类」(CTC)技术训练的 LSTM 模型成为了首次在国际竞赛(三个 ICDAR 2009 举办的联通首写字母识别大赛(法文、波斯文、阿拉伯文))中夺冠的 RNN 模型 。这极大地吸引了工业界的兴趣 。
不久之后,LSTM 便被广泛应用于涉及包括语言、语音、视频在内的序列数据的一切任务 [LSTM10-11][LSTM4][DL1] 。截至 2017年,人们基于 LSTM 模型构建了Facebook 的机器翻译系统(每周需要完成超过300 亿份翻译任务)[FB17][DL4],超过 10 亿台 iPhone 上运行的苹果的「Quicktype」智能输入法 [DL4],亚马逊的 Alexa 语音助手,谷歌的语音识别(自 2015 年起内置于安卓设备)[GSR15][DL4]、图像字幕生成[DL4]、机器翻译[GT16][DL4]、自动邮件回复[DL4] 等系统 。美国的「商业周刊」将 LSTM 成为「商业化程度最高的人工智能研究成果」 。
到 2016 年为止,谷歌数据中心超过四分之一的算力都被用于 LSTM(相比之下,只有 5% 被用于另一种名为「卷积神经网络」的流行的深度学习技术——详见第 19 章)[JOU17] 。谷歌 2019 年发布的新的设备内置的语音识别(现阶段内置于你的手机上,而不是部署在服务器上)仍然是基于 LSTM 模型设计的 。
通过我的学生 Rupesh Kumar Srivastava 和 Klaus Greff 的工作,LSTM 的原理也催生了我们在 2015 年 5 月提出的「Highway」神经网络[HW1],这是第一个具有数百层非常深的 FNN 结构的网络 。微软提出的广为人知的 ResNet[HW2](ImageNet 2015 竞赛的冠军方案)就是 Highway 神经网络的一种特例 。然而,早期的 Highway 网络就可以在 ImageNet 上取得与 ResNet 大致相当的性能[HW3] 。Highway 层还常常被用于自然语言处理领域,而此时更为简单的残差层则性能较差[HW3] 。
我们还通过没有「老师」监督信息的强化学习(RL)技术训练 LSTM 模型(例如,我的博士后 Bram Bakker 于 2002 年发表的工作 [LSTM-RL]) 。我们还通过神经演化来训练 LSTM,例如我的博士生 Daan Wierstra 于 2005 年发表的工作 [LSTM12],Daan 后来成为了 DeepMind 公司的 1 号员工,而 DeepMind 的联合创始人正是我实验室中的另一名博士生 Shane Legg(Shane 和 Dann 是 DeepMind 公司里最早发表人工智能论文的计算机科学博士) 。
强化学习与 LSTM 的结合具有重要的意义 。例如,2019 年,DeepMind 在「星际争霸」游戏(该游戏在很多方面都要比国际象棋和围棋更加困难)中击败了职业玩家,而它们使用的正式一种名为「Alphastar」的算法,该算法的决策中枢拥有通过强化学习训练的深度 LSTM 核心 [DM3] 。OpenAI 的「Dactyl」仿人机械手也采用了通过强化学习训练的 LSTM 核心,它能够学着在没有「老师」监督信息的情况下,控制灵巧的机器人手[OAI1],同时「OpenAI Five」也于 2018 年通过学习在 DOTA2 游戏中成功击败了人类职业玩家 [OAI2] 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。