机器之心报道
机器之心编辑部
论文虽然有些难懂 , 但或许是一个新的研究方向 。强化学习和决策多学科会议(Multi-Disciplinary Conference on Reinforcement Learning and Decision Making, RLDM)的重要前提是 , 随着时间的推移 , 多个学科对目标导向的决策有着共同的兴趣 。
近日 , 阿尔伯塔大学计算机科学系教授、强化学习先驱 Richard S. Sutton 在其最新论文《The Quest for a Common Model of the Intelligent Decision Maker》中通过提出决策者的观点来加强和深化这一前提 , 该观点在心理学、人工智能、经济学、控制理论和神经科学等领域得到实质和广泛的应用 , 他称之为「智慧智能体的通用模型」 。 通常模型不包含任何特定于任何有机体、世界或应用域的东西 , 而涵盖了决策者与其世界交互的各个方面(必须有输入、输出和目标)以及决策者的内部组件(用于感知、决策、内部评估和世界模型) 。
文章图片
论文地址:https://arxiv.org/pdf/2202.13252.pdf
Sutton 确定了这些方面和组件 , 指出它们在不同学科中被赋予不同的名称 , 但本质上指向相同的思路 。 他探讨了设计一个可跨学科应用的中性术语面临的挑战和带来的益处 , 并表示是时候认可并在智慧智能体的实质性通用模型上构建多样化学科的融合了 。
文章图片
DeepMind Alberta 杰出研究科学家、强化学习教父 Richard S. Sutton
探索决策者的通用模型
RLDM 的前提是所有对「随时间推移学习和决策以实现目标」感兴趣的学科融合在一起并共享观点是有价值的 。 心理学、神经科学等自然科学学科、人工智能、优化控制理论等工程科学学科以及经济学和人类学等社会科学学科都只部分关注智能决策者 。 各个学科的观点不同 , 但有相通的元素 。 跨学科的一个目标是确定共同核心 , 即决策者对所有或许多学科共有的那些方面 。 只要能够建立这样一个决策者的通用模型 , 就可以促进思想和成果的交流 , 进展可能会更快 , 获得的理解也可能会更加基础和持久 。
探索决策者的通用模型并不新鲜 。 衡量其当前活力的一个重要指标是 RLDM 和 NeurIPS 等跨学科会议以及《神经计算》、《生物控制论》和《适应行为》等期刊的成功 。 很多科学洞见可以从跨学科互动中获得 , 例如贝叶斯方法在心理学中的广泛应用、多巴胺在神经科学中的奖励预测误差解释以及在机器学习中长期使用的神经网络隐喻 。 尽管很多这些学科之间的重要关系与学科本身一样古老 , 但远远未解决 。 为了找到学科之间、甚至一个学科内部之间的共性 , 人们必须忽略很多分歧 。 我们必须要有选择性 , 从大局出发 , 不要期望没有例外发生 。
因此 , 在这篇论文中 , Sutton 希望推进对智能决策者模型的探索 。 首先明确地将探索与富有成效的跨学科互动区分开来;其次强调目标是作为高度跨学科的累积数值信号的最大化;接着又强调了决策者的特定内部结构 , 即以特定方式交互的四个主要组件 , 它们为多个学科所共有;最后突出了掩盖领域之间共性的术语差异 , 并提供了鼓励多学科思维的术语 。
交互术语
决策者随时间推移做出决策 , 可以分为离散的步骤 , 在每个步骤接收新信息并做出可能影响之后所接收信息的决策 。 也就是说 , 随着时间推移 , 与交换的信号产生交互 。 对于信号和交换信号的实体 , 我们应该使用什么术语呢?在心理学中 , 决策者是有机体 , 它接收刺激并向环境发送响应 。 在控制理论中 , 决策者被称为控制者 , 接收状态并向受控体发送控制信号 。 决策者在其他领域使用其他术语 , 这就说明了挑战的存在 , 即找到不会令读者对某个领域产生偏见的术语 , 而是促进跨学科边界的思考 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
