如果用強化學習來打王者榮耀？有什麽設計演算法的思路和需要考慮的地方？

2017-06-07遊戲

對於強化學習在遊戲AI領域的套用，上次我們提到了：人工智能的電腦打英雄聯盟LOL能拿冠軍嗎？ - 知乎

理論上，對於有明確目標的演算法模型都可以用 強化學習 來嘗試，如遊戲AI。不過實際上，強化學習在遊戲AI中的套用更多時候是為了驗證和偵錯演算法模型的準確性。透過傳統的簡單遊戲已經驗證了部份強化學習演算法，而對於英雄聯盟、王者榮耀這種復雜的即時策略類遊戲，其演算法設計會相對復雜很多。

雖然強化學習在傳統的機器學習分類中沒有被提及，但事實上它已經能夠幫助解決深度學習中很多智能控制和分析預測等領域的實際問題，比如透過使用者反饋來最佳化人機之間的多輪對話策略，以及在自然語言生成中，竹間智能都套用到了強化學習演算法，並取得了良好的效果。此次 竹間智能機器學習科學家李思文 ，將結合王者榮耀遊戲AI來繼續分享一些強化學習演算法設計上的思路。

就目前來說，在王者榮耀這類 「復雜」 的遊戲中訓練出高水平 「類人」 AI的難度確實大，不過如題所述，在此討論的是有什麽設計演算法的思路和需要考慮的地方。

1. 首先，如何定義「類人」

AI的行為是動態、有記憶的，是能基於新的環境資訊做調整的。

類似王者榮耀的遊戲 dota, 推測其內建人機對戰的AI並非reinforcement learning （「推測」不代表一定），而是可能由大量邏輯堆積的，執行邏輯是固定的而不是動態的。玩家和開發者也可用透過 dota bot script (lua) 進行自訂AI：https:// developer.valvesoftware.com /wiki/Dota_Bot_Scripting 。

AI實作 ultimate goal (獲勝) 的手段是 policy，而非透過利用電腦超越人的「手速」優勢來獲勝。

正如上面討論提到的： https:// deepmind.com/blog/deepm ind-and-blizzard-release-starcraft-ii-ai-research-environment/ 「Computers are capable of extremely fast control, but that doesn’t necessarily demonstrate intelligence, so agents must interact with the game within limits of human dexterity in terms of 「Actions Per Minute」.」應該讓 AI的 APM 和人一致才行。

2. 王者榮耀這類遊戲，到底「復雜」在哪裏

在只考慮對一個AI(agent)做強化學習調教的情況下（實際情況是 multi-agent system, 需要協作和群體智慧），需要定義好：

Environment, agent state.

傳統適合RL的簡單遊戲例如「Cart Pole」，甚至「 Flappy Bird」，他們的時空抽象化都是簡單的，且對於goal，其environment 是 fully observable。然而，對於王者榮耀這類遊戲，一方只能基於友方單位視野看到地圖，所以 environment是 partially observable 的，這就需要增加一批探索陰影地圖的action。對於 state 的抽象描述，基本就是參考2-D matrix來描述地圖了（方便作為DQN CNN的輸入），但王者榮耀這類遊戲的復雜在於， 不能用單一空間座標來描述state ，state的所有潛在「feature」至少包括：各單位的位置和攻擊，地圖可視範圍（白天和晚上也不一樣），各單位目前攜帶物品及使用範圍，各單位目前所學技能及施法範圍，各單位血量藍量等所有會影響action decision的，需要把這些「feature」分成不用的layer, 每個layer類似DeepMind對星際爭霸采用的「low resolution RGB image data for map & minimap」，見下圖：