搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述( 三 )


自适应选择超参数的方法自 20 世纪 90 年代以来一直很重要 。 Sutton 和 Singh (1994) 提出了 TD 算法中自适应加权方案的三种替代方法 , Kearns 和 Singh (2000) 推导出时序差分算法误差上限 , 并使用这些边界推导出 λ 的时间表 。 Downey 和 Sanner (2010) 使用贝叶斯模型平均来为 TD 方法选择 λ bootstrapping 超参数 。 最近 ,White (2016) 提出了 λ-greedy 来适应 λ 作为状态的函数 , 并实现近似最优的偏差 - 方差权衡 , Paul 等人 (2019) 提出了 HOOF , 它使用带有非策略数据的随机搜索来周期性地为策略梯度算法选择新的超参数 。
环境设计
环境设计是强化学习智能体自动学习的重要组成部分 。 从课程学习到合成环境学习和生成 , 到将课程学习与环境生成相结合 , 这里的目标是加快机器学习智能体通过环境设计的学习速度 。 如图 7 所示:
搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
文章图片

混合方法
【搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述】不可避免的是 , 一些方法不属于单一类别 。 事实上 , 许多方法都试图利用不同方法的优势 , 可称之为混合方法 。 在该研究中 , 这些混合方法被定义为使用表 3 中不止一类技术的方法 , 例如 BOHB、DEHB 等 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。