强化学习教父新论文探索决策智能体的通用模型:寻找跨学科共性( 三 )


加性奖励具有悠久的跨学科历史 。 在心理学中 , 奖励主要用于使动物愉悦的外部物体或事件 , 即使这种愉悦感源于该物体与以更基本的方式获得回报的事物的关联——初级强化物(primary reinforcer)。 今天在运筹学、经济学和人工智能中对奖励的使用仅限于更重要的信号 , 并且是接收到的信号 , 而不是与外部对象或事件相关联 。 随着 1960 年代最优控制和运筹学研究中马尔可夫决策过程的发展 , 这种用法似乎已经确立 。 它现在已成为广泛学科的标准 , 包括经济学、强化学习、神经科学、心理学、运筹学和人工智能的多个子领域 。
决策智能体标准组件
现在我们转向智能体内部结构 , 智能体通用模型的内部结构通常由四部分组成:感知、反应策略、价值函数、转换模型 , 如下图所示 。 这四个组件对许多学科来说都是通用的 , 但很少有智能体能够包含全部 , 当然 , 有些特定智能体可能还包括其他部分 , 下面 Sutton 介绍了这四个组件 。
强化学习教父新论文探索决策智能体的通用模型:寻找跨学科共性
文章图片

感知组件可处理观察、动作流以产生主观状态 , 这是迄今为止对智能体 - 世界交互作用的总结 , 对于选择动作(反应策略)、预测未来奖励(价值函数)和预测未来主观状态(转换模型)很有用 。 状态是主观的 , 因为它是相对于智能体的观察和动作 , 可能不符合真实世界的内部运作 。 通常 , 主观状态的构建是固定的 , 在这种情况下 , 智能体被假定为直接接收主观状态作为一种观察 。 例如 , 在 Atari 游戏中 , 主观状态可能是最后 4 个视频帧及其相邻动作 。 在贝叶斯方法中 , 主观状态确实与世界的内部运作有关系:主观状态的目的是近似世界内部使用潜在状态的概率分布 。 在预测状态方法中 , 主观状态是一组预测 。 在深度学习中 , 主观状态通常是递归人工神经网络的瞬间活动 。 在控制理论中 , 感知组件的计算通常被称为状态识别或状态估计 。
一般而言 , 感知组件应具有递归形式 , 这允许智能体从先前的主观状态、最近的观察和最近的动作有效地计算主观状态 , 而无需重新审视先前冗长的观察和动作 。 感知组件必须具有快速处理的能力 , 即在智能体 - 世界交互的连续时间步之间的时间间隔内很好地完成 。
通用模型的反应策略组件将主观状态映射到一个动作 。 与感知一样 , 反应策略必须快速 , 感知速度和反应策略共同决定了智能体的整体反应时间 。 有时感知和反应策略被放在一起处理 , 就像端到端学习一样 。 将动作生成分为感知和策略 , 在许多学科中都很常见 。 在工程学中 , 人们通常认为感知是给定的 , 而不是学习到的 , 甚至不是智能体的一部分 。 工程显然有反应策略的思想 , 通常是通过分析计算或推导出来的 。 人工智能系统通常假设在动作之前可以有大量处理过程(例如 , 下棋程序) 。 在心理学中 , 通常将感知视为支持但先于动作的感知 , 并且可以独立于对特定动作的影响进行研究 。
通用模型的价值函数组件将主观状态(或状态 - 动作对)映射到标量评估 , 操作上定义为预期累积奖励 。 这种评估速度很快 , 并且独立于直觉等因素 , 但可能基于长期经验(甚至基于专家设计)或来自有效存储或缓存的广泛计算 。 无论哪种方式 , 研究者都可以快速调用评估 , 以支持改变反应策略的进程 。
价值函数具有非常广泛的多学科历史 。 在经济学中 , 它们被称为效用函数;在心理学中 , 它们与次级强化物的旧观念和奖励预测的新观念有关 。 价值函数这个术语最初来自动态规划 , 然后在强化学习中得到应用 , 其中价值函数被广泛用作理论和大多数学习方法的关键组成部分 。 在神经科学中 , 价值函数中的误差或奖励预测误差被假设为对神经递质多巴胺的相位信号的解释 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。