AlphaGo 能戰勝李世石嗎？

2016-06-22數碼

現在的比分是 0:2，小李的狀態很不佳，這次也完全可能被零封。但目前的 AlphaGo，可能並非人類不可戰勝。

【UPDATE：對 AlphaGo 和圍棋人工智能有興趣的朋友，我最近在寫一個系列，介紹如何自制你的"AlphaGo"，請點選：

知乎專欄

】

UPDATE：第四盤，電腦盲點出來了。我在下面說過，邏輯性是 DNN 的盲點，可以誤導 MCTS 的展開，某些怪招是走入了錯誤的變化，而不全是什麽神之一手天外飛仙。同時 AlphaGo 也會出現盲區。 正是如此。 之前我在這裏還說 Google 很雞賊，不公開 AlphaGo 失敗的棋譜，也不開放任何對弈，避免顯示自己的弱點，下面不時有人出來噴「憑什麽要求Google公布」雲雲，言辭非常不客氣，我就編輯掉並關閉評論了，各位現在理解了嗎。許多做機器學習的朋友不了解電腦圍棋，如果真研究過近年來的電腦圍棋文獻，會發現和跑個 ImageNet 的程度不一樣，需要的邏輯知識更豐富。電腦圍棋未來會完美戰勝人類棋手（且必須加入更多Domain-dependent的方法），但恐怕不是今天。NOT TODAY。我們看看 Google DeepMind 的 Hassabis 怎麽說吧：

@demishassabis 26m26 minutes ago

Lee Sedol is playing brilliantly! #AlphaGo thought it was doing well, but got

confused on move 87. We are in trouble now...

@demishassabis 7m7 minutes ago

Mistake was on move 79, but #AlphaGo only came to that realisation on around

move 87

這就正是我在此所說的「電腦吃驚」。 其實即使對於AI研究，最完美的情況也並不是碾壓李世石，而是我們看到人機之間的此消彼長，互相學習。圍棋是一個極其有趣的問題，希望看到它能為AI研究貢獻更多世界的奧秘，而不是如此輕易地被徹底解決。

AlphaGo的核心是 MCTS + DNN + RL 。之前沒有說 RL，但它其實是很有意思的部份，因為在從前的對弈程式研究中，RL 的效果一般並不好。RL 的弱點是 overfit，也就是雖然小道訊息公布目前這個版本的 AlphaGo 面對去年的戰勝樊麾的版本的勝率是 100%，估計 ELO 分已經超出 4000，號稱天下無敵，但這裏面實際是會有很大的水分的可能。在其他棋類的例子上，有這樣的例子： RL 後的程式秒殺 RL 前的程式，但面對其它不同棋風程式的勝率反而略微降低。下面我們看 MCTS 和 DNN 的缺陷。

================================================

身為人類，恰好對於電腦圍棋、General Game Playing、機器學習有過一點研究，希望在此為形勢不利的一方支招。冀望研究AI的朋友們此時都開放一點，告訴公眾和棋手，目前AI所存在的缺陷，而不是有意無意地只想搞個大新聞。很理解Google等公司作為利益相關者，大談AI的長處，不會自揭短板。Google這次取得的成就也非常偉大。但即便從公司利益出發，現在為人類棋手支招，事實上也有利於進一步促進AI水平的提高。如果人類不在最佳狀態，那麽對於機器的測試又如何能測試出機器的極限？下文如有錯漏，請各位不吝補充。

1) 復雜的劫爭、復雜的對殺（Semeai）、"看似有利實際不成立的棋"、"看似不利實際合理的棋"（做過對弈程式的朋友會清楚，這些反應出來就是"漏看"，"過分樂觀"）等等，一言喻之，所謂 trap，一直是 蒙地卡羅樹搜尋（ MCTS ）甚至對弈樹搜尋的軟肋 ，如 International Conference on Computers and Games 2013 論文集中，多篇都討論過這類缺陷的表現。

AlphaGo 透過運用深度神經網絡評估和選點、tree與playout的共享創意、歷史共享創意、暴力增加搜尋速度和節點數，等等，彌補了大部份"漏看"的情況，但"漏看"仍會存在。對於圍棋，尤其如此。

這首先來自於，由於對弈樹太大，所以MCTS在每一層都會盡快選中少數點集中搜尋。如果一開始的選點全部或大部份錯了，根據合格的MCTS的設計，仍然可以在後續搜尋中找回正確的選點，但需要的時間會很多，有可能就會漏看；其次，在playout中，也同樣會有覆蓋不夠的盲點，影響局面評估。

一個具體的例子。AlphaGo 在局勢均衡時，出現的怪招，如果是在短兵相接的情況下出現的，一部份會是算路極深的妙手，但也會有一些屬於這樣的誤算（就是沒看到後續雙方的正解，而是陷入了錯誤的變化），表現出來就是損棋。後文會繼續談電腦的怪招問題。

2) 同樣， 深度神經網絡 （DNN） 也存在盲點 ，且這種盲點屬於此方法的根本問題，現階段無可能解決。下面是一個普通人不了解的事情：DNN與目前的絕大多數機器學習演算法，所學習到的，其實都是統計知識，而不是精確的邏輯知識。

舉個影像辨識的例子。給DNN一群人在一起的照片，DNN現在可以數出裏面有多少個人，且有時比人類還要強。比如只露了某個身體部位，也可能辨識出來。但是，也永遠會有人類看上去一目了然，但DNN辨識錯誤的情況，因為DNN完全沒有辦法學到什麽是人的精確定義！

這方面經典的文章是 Deep neural networks are easily fooled: High confidence predictions for unrecognizable images ，下圖左邊精心構造的噪音影像會被DNN以非常高的置信度判定為存在某某物品（有趣的是，可以在右邊看到，我們也可以構造出「有點像這個物品」的假影像，說明DNN學到了許多東西，只是不精確）。