训练40个小时,AI打破了跑步游戏QWOP的世界纪录

多年前有款奇葩跑步模拟游戏《QWOP》,玩家只需越过障碍,以最快的速度跑完一百米即可。游戏名的四个字母也并非缩写或者什么奇怪的暗示语,而是对应了操控游戏的四个按键。

虽然它的操作看上去并不复杂,但在刚发布时,甚至一度被玩家评为“史上最难的跑步游戏”,原因则在于键盘上的Q、W、O、P四个按键控制的不是上下左右,而是人物的左右大腿和小腿,玩家需要交替控制不同关节来让游戏里的小人动起来。

将平时司空见惯的动作细化到肌肉层面,难度瞬间提升了数个档次。刚接触的玩家不要说跑,能移动个一两米已经是奇迹,还有许多玩家是靠膝盖一步步蹭到终点的,就像上面那样。

目前,《QWOP》百米跑的世界最高纪录为48秒34,是一位ID为gunmaneko的日本玩家创下的:

世界纪录排行榜

一个星期前,日本玩家保持了两个月的纪录被打破,只不过这次破纪录的并非人类,而是一位科学家花40个小时训练出来的AI。

在公布的视频中AI用47.34秒跑完了全程,超过世界纪录1秒

Wesley Liao是波士顿咨询中心的一名数据分析师,他一直很好奇在人工智能已经攻克了象棋、围棋乃至竞技游戏的今天,在面对一款规则完全不同的“沙雕”游戏时,究竟会如何应对。

因此他想到了《QWOP》这款操作难度极高的游戏。需要说明的是,Liao使用的训练方法当然不是将预设好的操作提前输入程序,而是像训练象棋围棋那样设定好奖惩机制,让AI像新手一样一步步掌握规则,最终摸索出最优方法。

在Liao给出的实验报告中,最开始这个名为“ACER”的AI和许多玩家一样,采用的是“蹭膝通关法”,即用膝盖一步步蹭到终点:

在掌握了基本的规则后,ACER并没有像人们预想的那样跑起来,而是学会了使用这种效率不高的前进技巧,而原因很简单:因为这是最稳妥的通关方式,人物摔倒的几率最小。

当发现ACER能够熟练过关后,Liao试图再教会它如何“跑”。为此他打算向AI提供一些人类高手的过关数据。这一点其实和DeepMind训练Alpha Go的情况类似——让AI模仿顶级棋手,然后再自己对弈。

只可惜Liao并不认识《QWOP》的游戏高手,只能先提供自己的试玩数据,而他目前的最好成绩仅有28米。

果不其然,在被“灌输”了水平不高的人类数据后,ACER刚开始时试图靠“跑”来完成游戏,只可惜它的动作重新回到了初学者水平:

这时的AI并不理解“迈腿”的意义是什么

后来,Liao终于找到了一位世界速通玩家来协助他完成实验。这位玩家向Liao提供了50场游戏数据,其中就包括一些人类玩家经常使用,但AI从没见过的高级技巧。

但就算这样,ACER也无法马上学会这些技巧,而且不能和之前自己掌握的经验相协调。在经历了自我训练,人类数据的双重作用下,它勉强学会了跑步,但速度还不够,最终的纪录是1分08秒,离世界纪录还有一段距离。

最终Liao突发奇想,重新创建了一个AI,只给它ACER的运行数据,同时调整奖惩制度,取消了一些特殊动作,比如“膝盖过度弯曲”的触发惩罚,原先设定这些机制是为了教会它如何像人类一样跑步,既然现在ACER的数据已经学会了,自然不需要这些额外的限制。

这次Liao取消了额外条件,让AI纯粹在速度方面做优化,最终在学习了ACER的跑步数据并结合自己近40个小时的训练后,新AI跑出了47.34秒的成绩,这已经打破了人类玩家所保持的纪录。

当然,速通榜单要求提交成绩的玩家为人类,所以这个纪录暂时无法被认可。但Liao做这项研究的目的显然不是为了破纪录这么简单,观察AI在不同游戏环境下的反应,观察它们如何学习,也许某一天这些经验又能反过来指导人类,这才是科学家们真正想看到的。

热门相关:夜的命名术   超凡玩家   与子偕行   与子偕行   隐婚娇妻:老公,别玩我