如果用强化学习来打王者荣耀？有什么设计算法的思路和需要考虑的地方？

2017-06-07游戏

对于强化学习在游戏AI领域的应用，上次我们提到了：人工智能的电脑打英雄联盟LOL能拿冠军吗？ - 知乎

理论上，对于有明确目标的算法模型都可以用 强化学习 来尝试，如游戏AI。不过实际上，强化学习在游戏AI中的应用更多时候是为了验证和调试算法模型的准确性。通过传统的简单游戏已经验证了部分强化学习算法，而对于英雄联盟、王者荣耀这种复杂的即时策略类游戏，其算法设计会相对复杂很多。

虽然强化学习在传统的机器学习分类中没有被提及，但事实上它已经能够帮助解决深度学习中很多智能控制和分析预测等领域的实际问题，比如通过用户反馈来优化人机之间的多轮对话策略，以及在自然语言生成中，竹间智能都应用到了强化学习算法，并取得了良好的效果。此次 竹间智能机器学习科学家李思文 ，将结合王者荣耀游戏AI来继续分享一些强化学习算法设计上的思路。

就目前来说，在王者荣耀这类 「复杂」 的游戏中训练出高水平 「类人」 AI的难度确实大，不过如题所述，在此讨论的是有什么设计算法的思路和需要考虑的地方。

1. 首先，如何定义「类人」

AI的行为是动态、有记忆的，是能基于新的环境信息做调整的。

类似王者荣耀的游戏 dota, 推测其内置人机对战的AI并非reinforcement learning （「推测」不代表一定），而是可能由大量逻辑堆积的，执行逻辑是固定的而不是动态的。玩家和开发者也可用通过 dota bot script (lua) 进行自定义AI：https:// developer.valvesoftware.com /wiki/Dota_Bot_Scripting 。

AI实现 ultimate goal (获胜) 的手段是 policy，而非通过利用电脑超越人的「手速」优势来获胜。

正如上面讨论提到的： https:// deepmind.com/blog/deepm ind-and-blizzard-release-starcraft-ii-ai-research-environment/ 「Computers are capable of extremely fast control, but that doesn’t necessarily demonstrate intelligence, so agents must interact with the game within limits of human dexterity in terms of 「Actions Per Minute」.」应该让 AI的 APM 和人一致才行。

2. 王者荣耀这类游戏，到底「复杂」在哪里

在只考虑对一个AI(agent)做强化学习调教的情况下（实际情况是 multi-agent system, 需要协作和群体智慧），需要定义好：

Environment, agent state.

传统适合RL的简单游戏例如「Cart Pole」，甚至「 Flappy Bird」，他们的时空抽象化都是简单的，且对于goal，其environment 是 fully observable。然而，对于王者荣耀这类游戏，一方只能基于友方单位视野看到地图，所以 environment是 partially observable 的，这就需要增加一批探索阴影地图的action。对于 state 的抽象描述，基本就是参考2-D matrix来描述地图了（方便作为DQN CNN的输入），但王者荣耀这类游戏的复杂在于， 不能用单一空间坐标来描述state ，state的所有潜在「feature」至少包括：各单位的位置和攻击，地图可视范围（白天和晚上也不一样），各单位目前携带物品及使用范围，各单位目前所学技能及施法范围，各单位血量蓝量等所有会影响action decision的，需要把这些「feature」分成不用的layer, 每个layer类似DeepMind对星际争霸采用的「low resolution RGB image data for map & minimap」，见下图：