AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑

机器之心报道
机器之心编辑部

人类每天使用数字设备的时间长达数十亿小时 。 如果我们能够开发出协助完成一部分这些任务的智能体 , 就有可能进入智能体辅助的良性循环 , 然后根据人类对故障的反馈 , 改进智能体并使其获得新的能力 。 DeepMind 在这一领域有了新的研究成果 。
如果机器可以像人类一样使用计算机 , 则可以帮助我们完成日常任务 。 在这种情况下 , 我们也有可能利用大规模专家演示和人类对交互行为的判断 , 它们是推动人工智能最近取得成功的两个因素 。
最近关于 3D 模仿世界中自然语言、代码生成和多模态交互行为的工作(2021 年 DeepMind 交互智能体团队)已经产生了具备卓越表达能力、上下文感知和丰富常识的模型 。 这项研究有力地证明了以下两种组件的力量:机器与人类之间一致的丰富、组合输出空间;为机器行为提供信息的大量人类数据和判断 。
具备这两种组件但受到较少关注的一个领域是数字设备控制(digital device control) , 它包括使用数字设备来完成大量有用任务 。 由于几乎完全使用数字信息 , 该领域在数据采集和控制并行化方面具有很好的扩展性(与机器人或聚变反应堆相比) 。 该领域还将多样化、多模态输入与富有表达能力、可组合且兼容人类的可供性相结合 。
近日 , 在 DeepMind 的新论文《A Data-driven Approach for Learning to Control Computers》 , 研究者重点探究了训练智能体像人一样进行键盘和鼠标的基本计算机控制 。
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
文章图片

论文地址:https://arxiv.org/pdf/2202.08137.pdf
DeepMind 对计算机控制进行初步调查采用的基准是 MiniWob++ 任务套件(一组具有挑战性的计算机控制问题) , 它包含一组执行点击、打字、填写表格和其他此类基本计算机交互任务的指令(下图 1 b) 。 MiniWob++ 进一步提供了以编程方式定义的奖励 。 这些任务是迈向更开放人机交互的第一步 , 其中人类使用自然语言指定任务并提供有关性能的后续判断 。
研究者重点训练智能体来解决这些任务 , 使用的方法在原则上适用于任何在数字设备上执行的任务 , 并且具备符合预期的数据和计算扩展特性 。 因此 , 他们直接结合强化学习(RL)和行为克隆(BC)两种技术 , 其中行为克隆通过人类与智能体行动空间之间的对齐来辅助完成(也就是键盘和鼠标) 。
具体地 , 研究者探究使用键盘和鼠标进行计算机控制 , 并通过自然语言指定对象 。 并且 , 他们没有专注于手工设计的课程和专门的行动空间 , 而是开发了一种基于强化学习的可扩展方法 , 并结合利用实际人机交互提供的行为先验 。
这是 MiniWob(2016 年由 OpenAI 提出的一种与网站交互的强化学习智能体的基准 , MiniWob++ 是它的扩展版本)构想中提出的一种组合 , 但当时并未发现可以生成高性能智能体 。 因此 , 之后的工作试图通过让智能体访问特定 DOM 的操作来提升性能 , 并通过受限的探索技术使用精心策划的指导来减少每个步骤中可用的行动数量 。 通过重新审视模仿与强化学习的简单可扩展组合 , 研究者发现实现高性能主要的缺失因素仅是用于行为克隆的人类轨迹数据集的大小 。 随着人类数据的增加 , 性能会可靠地提升 , 使用的数据集大小是以往研究中的 400 倍 。
研究者在 MiniWob++ 基准测试中的所有任务上都实现了 SOTA 和人类平均水平 , 并找到了跨任务迁移的强有力证据 。 这些结果证明了训练机器使用计算机过程中统一的人机界面非常有用 。 总之 , 研究者结果展示了一种超越 MiniWob++ 基准测试能力以及像人类一样控制计算机的方案 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。