搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述

机器之心报道
编辑:小舟、陈萍

来自牛津大学、弗莱堡大学、谷歌研究院等机构的十余位研究者撰文综述 AutoRL 。
强化学习 (RL) 与深度学习的结合带来了一系列令人印象深刻的成果 , 许多人认为(深度)强化学习提供了通向通用智能体的途径 。 然而 , RL 智能体的成功通常对训练过程中的设计选择高度敏感 , 可能需要繁琐且容易出错的手动调整 。 这使得将 RL 用于新问题具有挑战性 , 同时也限制了 RL 的全部潜力 。
在机器学习的许多其他领域 , AutoML 已经表明可以自动化此类设计选择 , 并且在应用于 RL 时也产生了有希望的初步结果 。 然而 , 自动强化学习 (AutoRL) 不仅涉及 AutoML 的标准应用 , 还包括 RL 独有的额外挑战 , 这使得研究者自然而然地产生了一些不同的方法 。
AutoRL 已成为 RL 研究的一个重要领域 , 为从 RNA 设计到围棋等游戏的各种应用提供了希望 。 由于 RL 中考虑的方法和环境具有多样性 , 因此许多研究都是在不同的子领域进行的 。 来自牛津大学、弗莱堡大学、谷歌研究院等机构的十余位研究者撰文试图统一 AutoRL 领域 , 并提供了通用分类法 , 该研究详细讨论了每个领域并提出未来研究人员可能感兴趣的问题 。
搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
文章图片

论文地址:https://arxiv.org/pdf/2201.03916.pdf
AutoRL 方法
强化学习理论上可以用于任何任务 , 包括世界模型未知的环境 。 然而 , 这种通用性也是有代价的 , 其最大的缺点就是智能体往往不能获得环境的真实模型 。 如果智能体想在一个场景下使用模型 , 那它必须完全从经验中学习 , 这会带来很多挑战 。 智能体探索出来的模型和真实模型之间存在误差 , 而这种误差会导致智能体在学习到的模型中表现很好 , 但在真实的环境中表现得不好(甚至很差) 。
该研究调查的目的是介绍 AutoRL 领域 , AutoRL 可以应对各种挑战:一方面 , RL 算法的脆弱性阻碍了其在新领域的应用 , 尤其是那些从业者缺乏大量资源来搜索最佳配置的领域 。 在许多情况下 , 对于完全不可见的问题 , 手动找到一组中等强度的超参数可能会非常昂贵 。 AutoRL 已被证明可以在这种情况下帮助解决重要问题 , 例如设计 RNA 。 另一方面 , 对于那些受益于更多计算的人来说 , 显然增加算法的灵活性可以提高性能 。 著名的 AlphaGo 智能体已经展示了这一点 , 该智能体通过使用贝叶斯优化得到了显着改进 。
早在 1980 年代 , AutoRL 算法就被证明是有效的 。 然而 , 最近 AutoML 的流行导致了更先进技术的新生应用 。 与此同时 , 最近元学习的流行导致了一系列旨在自动化 RL 过程的工作 。
该论文试图提供这些方法的分类 , 他们希望通过思想的交叉融合来开辟一系列未来的工作 , 同时也向 RL 研究人员介绍一套技术来提高他们的算法性能 。 该研究相信 AutoRL 在提高强化学习潜在影响方面发挥着重要作用 , 无论是在开放式研究和还是在现实应用中 。
此外 , 该研究希望将对 AutoML 感兴趣的研究人员吸引到 AutoRL 社区 , 特别地 , RL 具有非平稳性(non-stationarity) , 因为智能体正在训练的数据是当前策略的函数 。 此外 , 该研究还介绍了 AutoRL 针对特定 RL 问题的环境和算法设计 。
搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
文章图片

该研究调查了 AutoRL 社区以及技术等内容 。 一般来说 , AutoRL 方法大多数都可以通过组合内部循环和外部循环组织起来 。 每个循环都可以通过黑箱或基于梯度的方法进行优化 , 然而外部循环的梯度和内部循环的黑箱不能组合在一起 , 因为内部循环黑箱设置将使梯度不可用 , 如表 2 和图 2 所示:

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。