强化学习教父新论文探索决策智能体的通用模型:寻找跨学科共性( 四 )


智能体通用模型的第四个也是最后一个组件 , 即转换模型 , 它接收状态并预测如果采取不同动作智能体会产生什么样的下一个状态 。 转换模型可以称为世界模型 , 但这种说法会夸大转换模型作用 。 转换模型用于模拟各种动作的影响 , 并在价值函数的帮助下 , 评估可能的结果并改变反应策略 , 以支持具有预测良好结果的动作 , 以及反对具有预测不良结果的动作 。
转换模型在许多学科中扮演着重要的角色 。 在心理学中 , 自 Kenneth Craik (1943) 和 Edward Tolman (1948) 的研究以来 , 由转换模型和感知提供的世界内部模型一直是杰出的思想模型 。 在神经科学领域 , 包括 Karl Friston 和 Jeff Hawkins 在内的理论家们开始广泛地发展大脑理论 。 最近在心理学上 , Daniel Kahneman(2011) 提出了两个心理系统的概念 , 第一系统和第二系统 。 在控制理论和运筹学研究中 , 研究者通常使用多种形式的转换模型 , 包括微分方程模型、差分方程和马尔可夫模型 。 在强化学习中 , 基于模型的学习方法早已被提出 , 它们已经开始在大型应用中发挥效用 。 在现代深度学习领域 , Yoshua Bengio、Yann LeCun 和 Jurgen Schmidhuber 等著名研究者都将世界预测模型置于他们思想理论的中心位置 。
限制和评估
这是一个在寻找通用智能体模型任务上的简单方式 。 本文简要提出的所有观点都值得详细阐述 , 并对历史进行更深入的处理 。 然而 , 主要观点似乎很清楚 。 我们已经为通用模型提出了一个突出的候选者 。 它的外部接口——在智能体、世界、动作、观察和奖励方面是通用的、自然的 , 并且在自然科学和工程学中都被广泛采用 。 智能体的四个内部组成部分也各自具有悠久而广泛的多学科传统 。
本文提出的通用模型可能会因为遗漏的内容而受到批评 。 例如除奖励之外 , 它没有明确的观察预测作用 , 也没有对探索、好奇心或内在动机的处理 。 并且所有四个组成部分都必须涉及学习 , 但这里我们仅在反应性策略中描述了学习 , 而且只是笼统的 。 读者们无疑会对通用模型没有包含部分功能感到失望 , 认为这些功能的重要性被低估了 。
例如 , 我认为智能体为自己提出的辅助子任务(Sutton et al. 2022)是智能体开发抽象认知结构的重要且未被充分重视的手段 。 然而 , 正是因为辅助子任务没有得到广泛的认可 , 它们不应该出现在智能体的通用模型中 , 它们也没有得到跨学科的充分认可 。
本文提出的通用模型智能体目的不是为了成为最好最新的 , 而是希望能够成为一个出发点 。 它力求成为一个简单的设计 , 在许多学科中得到很好的广泛理解 。 每当研究人员引入新智能体设计时 , 通用模型都意味着作为一个标准 , 可以用来解释新设计与通用模型的不同之处或扩展 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。