索尼表示目前他们正在努力将 GT Sophy 整合到未来的 Gran Turismo 游戏中 , 但还没有明确的时间点 。
GT Sophy 有哪些技术创新
这个具有突破性的超越人类的赛车智能体是 Sony AI 联合 Polyphony Digital (PDI) 和 Sony Interactive Entertainment (SIE) 共同开发的 。 研究人员主要在以下几个方面做出了贡献:
- 超现实模拟器
- 新型强化学习技术
- 分布式训练平台
- 大规模训练基础设施
文章图片
超现实模拟器
如上所述 , 《GT 赛车》(GT Sport)是由 Polyphony Digital 开发的 PlayStation 4 驾驶模拟器 。 《GT 赛车》尽可能逼真地再现了真实世界中的赛车环境 , 包括赛车、赛道甚至空气阻力和轮胎摩擦等物理现象 。 Polyphony Digital 提供了对必要 API 的访问 , 从而在这个终极模拟环境中训练 GT Sophy 。
文章图片
新型强化学习技术
强化学习(RL)是一种机器学习 , 用于训练 AI 智能体在环境中采取行动 , 并通过行动导致的结果进行奖励或惩罚 。 下图展示了智能体如何与环境交互 。 智能体采取行动 , 获得奖励或惩罚 , 并根据环境状态的变化来确定自身的下一步行动 。
文章图片
索尼 AI 的研究人员和工程师开发了一系列创新性强化学习技术 , 包括如下:
- 一种名为 Quantile-Regression Soft Actor-Critic (QR-SAC) 的新型训练算法;
- 可被智能体理解的赛车规则编码;
- 一套提升赛车技能的训练方案 。
然而 , 处理像《GT 赛车》这类复杂的游戏需要开发同样复杂和微妙的算法、奖励和训练场景 。
GT Sophy 通过 RL 掌握了三种技能
通过在 RL 技术方面的关键创新 , 索尼 AI 开发的 GT Sophy 掌握了赛车控制(Race Car Control)、赛车策略(Racing Tactics)和竞赛礼仪(Racing Etiquette)的技能 。
首先来看赛车控制 。
新型算法 QR-SAC 能够准确地推理出 GT Sophy 高速驾驶行为所产生的各种可能性结果 。 并且 , 通过考虑驾驶行为的后果和其中的不确定性 , GT Sophy 可以实现极限转弯 。
文章图片
GT Sophy 智能体能够没有任何接触地通过紧靠墙壁的赛道 。
其次是赛车策略 。
虽然 RL 智能体可以收集自己的数据 , 但训练滑流(slipstream passing)等特定技能需要赛车对手处于特定位置 。 为了解决这个问题 , GT Sophy 进行了混合场景训练 , 使用到了可能在每条赛道上至关重要的手动制作比赛情况 , 以及帮助智能体学习这些技能的专业陪练对手 。 这些技能训练场景帮助 GT Sophy 获得了专业的赛车技术 , 包括处理拥挤的起步、防守动作等 。
文章图片
GT Sophy 智能体利用急转弯成功地超越了人类驾驶员 。
最后是竞赛礼仪 。
为了帮助 GT Sophy 学习体育礼仪 , 索尼 AI 研究人员找到了将书面和不成文赛车规则编码成复杂奖励函数的方法 。 他们还发现 , 有必要赛车对手的数量 , 以确保 GT Sophy 进行有竞争力的练习赛 , 同时在与人类车手比赛时不会变得过于激进或胆怯 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
