AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑( 二 )


对于 DeepMind 的这一研究 , 网友大都惊呼「不可思议」 。
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
文章图片

方法
MiniWob++
MiniWob++ 是 Liu 等人在 2018 年提出的基于 web 浏览器的套件 , 是早期 MiniWob(Mini World of Bits)任务套件的扩展 , 而 MiniWoB 是一个用于与网站交互的强化学习基准 , 其可以感知小网页(210x160 像素)的原始像素和产生键盘和鼠标动作 。 MiniWob++ 任务范围从简单的按钮点击到复杂的表单填写 , 例如 , 在给出特定指令时预订航班(图 1a) 。
之前关于 MiniWob++ 的研究已经考虑了能够访问 DOM 特定动作的架构 , 从而允许智能体直接与 DOM 元素交互而无需鼠标或键盘导航到它 。 DeepMind 的研究者选择仅使用基于鼠标和键盘的操作 , 并进一步假设该接口将更好地迁移到计算机控制任务 , 而无需与紧凑的 DOM 进行交互 。 最后 , MiniWob++ 任务需要单击或拖动操作 , 而这些操作无法通过基于 DOM 元素的操作来实现(参见图 1b 中的示例) 。
与之前的 MiniWob++ 研究一样 , DeepMind 的智能体可以访问由环境提供的文本字符串字典 , 该字典被输入到给定任务的输入字段中(参见附录图 9 示例) 。
下图为运行 MiniWob++ 的计算机控制环境 。 人类和智能体都使用键盘和鼠标控制计算机 , 人类提供用于行为克隆的示范行为 , 智能体受过训练以模仿这种行为或表现出追求奖励的行为 。 人类和智能体尝试解决 MiniWob++ 任务套件 , 其中包括需要单击、键入、拖动、填写表格等 。
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
文章图片

环境接口
如果想要智能体像人类一样使用计算机 , 它们需要接口来传输和接收观察结果和动作 。 最初的 MiniWob++ 任务套件提供了一个基于 Selenium 的接口 。 DeepMind 决定实现一个可替代环境堆栈 , 旨在支持智能体可以在 web 浏览器中实现各种任务 。 该接口从安全性、特性和性能方面进行了优化 (图 1a) 。
原来的 MiniWob++ 环境实现通过 Selenium 访问内部浏览器状态并发出控制命令 。 相反 , DeepMind 的智能体直接与 Chrome DevTools 协议 (CDP) 交互 , 以检索浏览器内部信息 。
智能体架构
DeepMind 发现没有必要基于专门的 DOM 处理架构 , 相反 , 受最近关于多模态架构的影响 , DeepMind 应用了最小模态特定处理 , 其主要依靠多模态 transformer 来灵活处理相关信息 , 如图 2 所述 。
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
文章图片

感知 。 智能体接收视觉输入(165x220 RGB 像素)和语言输入(示例输入显示在附录图 9 中) 。 像素输入通过一系列四个 ResNet 块 , 具有 3×3 内核 , strides 为 2、2、2、2 , 以及输出通道(32、128、256、512) 。 这产生了 14×11 的特征向量 , DeepMind 将其展平为 154 个 token 列表 。
三种类型的语言输入任务指令、DOM 和任务字段使用同一个模块处理:每个文本字符串被分成 token , 每个 token 映射被到大小为 64 的嵌入 。
策略:智能体策略由 4 个输出组成:动作类型、光标坐标、键盘键索引和任务字段索引 。 每个输出都由单个离散概率分布建模 , 除光标坐标外 , 光标坐标由两个离散分布建模 。
动作类型是从一组 10 种可能的动作中选择的 , 其中包括一个无操作(表示无动作)、7 个鼠标动作(移动、单击、双击、按下、释放、上滚轮、下滚轮)和两个键盘动作(按键、发出文本) 。
DeepMind 从 77 名人类参与者那里收集了超过 240 万个 104 MiniWob++ 任务演示 , 总计大约 6300 小时 , 并使用模仿学习和强化学习 (RL) 的简单混合来训练智能体 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。