游戏中,如果不考虑信使,AI控制的单位也只能是5个,这也就是为什么不能出现召唤单位和幻象 。
另外,没有游戏野区最强大的怪物肉山,也就没有了打肉山能得到的复活盾 。在职业比赛中,复活盾带来的原地满状态复活能力,可以说是个翻盘利器 。
让人类职业选手来打一个这样的DotA,并没有什么优势;如果让现在的OpenAI Five去打人类版DotA,这支没学过选英雄、做视野、偷鸡等等技能,还少学了很多装备的队伍,也会不知所措 。
不过,OpenAI也说了,这些限制大都是因为游戏里有些部分还没整合进来,像插眼、肉山这种职业比赛中的关键元素,他们会尽快加上 。
AI一日,人间180年虽然还有种种限制,但不可否认,AI的进步还是快得吓人 。
OpenAI的解释是,这个AI通过自我对战来提升,从随机参数开始,不用人类玩家的方法引导,也不人类玩家方法中搜索 。
他们还特别提到,在训练1v1模型的时候,是专门针对卡兵这个操作设置了奖励的 。但是在OpenAI Five模型中并没有这个奖励,但这个新模型还是自己学会了卡兵 。
AI每天的训练量,相当于打180年游戏 。可谓真·勤学苦练,人类选手一辈子的训练量也不及它半天 。
这些每天训练180年的选手,究竟是些什么怪物?
他们的长相是这样的:

文章插图
不要被结构图吓到,简单来说,每个选手,也就是每个智能体(agent),都是一个单层LSTM(长短时记忆网络),有1024个单元,能够通过Valve的Bot API观察当前游戏状态,控制自己的英雄接下来选择哪一种操作、释放到XY坐标系中的哪一点 。
智能体能够观察到的信息和人类差不多,包括自身、队友和敌人的状况,比如位置、血量、攻击力、护甲、携带物品、能力等等 。可能会有一点点区别的,就是智能体对过去12帧的血量、攻击和被攻击情况等历史信息大概记得比人类清楚 。

文章插图
这些信息,对于智能体来说是一个包含20000数值的列表,而它判断之后发出的行动指令,是8个值的列表 。
选手们的训练,使用的是扩展版的近端策略优化(PPO)方法,这也是OpenAI现在默认的强化学习训练方法 。这些智能体的目标是最大化未来奖励的指数衰减和 。
AI选手们在训练中饭量惊人,承载它们需要256块P100 GPU和12.8万个CPU核心 。

文章插图
上面的5v5版本与1v1版本对比,有一个令人欣慰的结果:OpenAI Five需要的CPU和GPU计算力,与去年击败Dendi的1v1版相比,并没有翻到5倍 。
5个智能体训练出来,它们之间又是怎样配合的呢?总不能像我们人类开黑一样互相喊话吧?
答案是,他们之间没有那种人类可以理解的沟通渠道,而是由一个“团队精神”超参数来统一控制 。这个超参数的范围在0到1之间,决定了选手对与自身奖励函数和队友平均奖励函数的关注程度分配 。
留给AI的时间还很多OpenAI说,他们打算在7月28日和顶级选手对战一番,留给他们的时间,还有整整1个月 。8月,他们还要和顶级人类专业选手在TI上较量,如果这一场较量在AI结束时的话,留给AI的时间还有两个月 。
按照“人间一天,AI界180年的”算法,加上肉山、插眼等关键元素之后,只要能给AI留半个月时间和自己对战,在它的世界里就可以说修炼了“数千年” 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
