AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑( 三 )


实验结果
MiniWob++ 上的人类水平性能
由于大部分研究通常只解决了 MiniWob++ 任务的一个子集 , 因此该研究在每个单独的任务上采用已公开的最佳性能 , 然后将这些子任务的聚合性能与该研究提出的智能体进行比较 。 如下图 3 所示 , 该智能体大大超过了 SOTA 基准性能 。
【AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑】AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
文章图片

此外 ,该智能体在 MiniWob++ 任务组件中实现了人类水平的平均性能 。 这种性能是通过结合 BC 和 RL 联合训练来实现的 。
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
文章图片

研究者发现 , 虽然该智能体的平均性能与人类相当 , 但有些任务人类的表现明显优于该智能体 , 如下图 4 所示 。
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
文章图片

任务迁移
研究者发现 , 与在每个任务上单独训练的智能体相比 , 在 MiniWob++ 的全部 104 个任务上训练一个智能体可以显著提升性能 , 如下图 5 所示 。
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
文章图片

扩展
如下图 7 所示 , 人类轨迹数据集(human trajectory dataset)的大小是影响智能体性能的关键因素 。 使用 1/1000 的数据集 , 大约相当于 6 小时的数据 , 会导致快速过拟合 , 并且与仅使用 RL 的性能相比没有显著提升 。 随着该研究将此基线的数据量增加到三个数量级直至完整数据集大小 , 智能体的性能得到了持续的提升 。
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
文章图片

此外 , 研究者还注意到 , 随着算法或架构的变化 , 在数据集大小上的性能可能会更高 。
消融实验
该智能体使用像素和 DOM 信息 , 并且可以配置为支持一系列不同的操作 。 该研究进行了消融实验以了解各种架构选择的重要性 。
该研究首先消融不同的智能体输入(图 8a) 。 当前的智能体配置强烈依赖 DOM 信息 , 如果删除此输入 , 性能会下降 75% 。 相反 , 视觉信息的输入对该智能体的影响不太显著 。
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
文章图片

如图 8b 所示 , 该研究移除了智能体使用环境给定的文本输入选项(任务字段)的能力 。 有趣的是 , 移除之后的智能体仍然能够解决涉及表单填写的任务 , 但它是通过 highlight 文本 , 并将其拖动到相关的文本框 , 以从人类轨迹中学会完成这个任务 。 值得注意的是 , 在原始 Selenium 版本的环境中智能体实现这种拖动操作并不简单 。
图 8b 还展示了一个消融实验结果 , 其中智能体使用与特定 DOM 元素交互的替代动作 。 这意味着智能体无法解决涉及单击画布内特定位置、拖动或 highlight 文本的任务 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。