作者2017年9月22日在中國物理學會應邀發表演講
2015 年11 月,「美林谷杯」首屆世界計算機圍棋錦標賽在北京舉辦,連笑七段(現八段,名人、天元)與獲得冠軍的韓國程序Dolbram 進行指導對局。連笑讓四子輕鬆獲勝,局中Dolbram 還犯了可笑的錯誤,執著地耗費大量劫材反覆提劫想吃一塊連環劫淨活的棋(圖1)。Dolbram 受讓五子也輸了,直到受讓六子才戰勝了連笑。
圖1 看到計算機被連環劫迷惑,連笑七段在對局中笑得很開心
圍棋中讓五子大約有超過50 目的巨大起始優勢,程序卻還是輸了,職業棋手們認為程序實力非常一般。圍棋程序還明顯有各類「bug」,出現的愚蠢招法連業餘棋手都不如。這種情況下,圍棋界難以對計算機圍棋的實力給出太高評價。
圍棋界並非不知道AI已經在西洋棋上戰勝了人類。但棋手們以及圍棋算法開發者們公認,與圍棋相比,西洋棋的變化還是過於簡單了。對圍棋局面數量的簡單估算是3361種(19×19 個位置每處3 種狀態),但由於無氣的棋子會被提吃,很多局面是不合法的。普林斯頓的研究人員動用超級計算機,算出19×19 格圍棋的精確合法局面數為208168199381979984699478633344862770286522453884530548425639456820927419612738015378525648451698519643907259916015628128546089888314427129715319317557736620397247064840935,這是一個171 位的數字。西洋棋的局面數約為1046,因此從局面數來說圍棋比西洋棋要複雜得多。對圍棋藝術更熟悉的人會知道,圍棋的複雜並非只靠狀態空間大,而是有「非線性」、「非平凡」的藝術性:棋子位置稍有不同局勢就可能倒轉,選點不多的局部死活正確行棋次序需要精妙的邏輯推理,人類數千年實踐積累出並仍在發展的「棋理」(如圍棋十訣)富有哲學與人文含義。
棋手們相信,面對計算機,圍棋的複雜是人類的朋友。這種複雜讓計算機算法舉步維艱,既難以突破搜索空間的限制,又無法用代碼實現人類含義模糊且數量眾多的「棋理」。而人類用理解力的優勢,建立棋形、大龍、厚勢等概念,以此為基礎展開邏輯推理,甚至有「手割」這樣的高級分析邏輯。而且人類高手還有優秀的直覺,繞過龐大的推理樹,直接產生高質量的局面候選點。對計算機有所了解的棋手認為,計算機可能在局部計算上利用窮舉死算的威力佔得上風,但在更高級的全局思維與棋理上弱於人類,從而因「境界」的差距而毫無機會。
應該如何下圍棋,人類有很多知識與教育傳承體系。網絡出現後,高手們互相對局的機會極大增加,成長為頂尖高手需要的時間縮短,少年高手層出不窮。與前輩相比,棋手們的整體實力和頂尖選手的絕對棋力都有上升。在法國研究者Remi Coulom 開發的等級分系統中(媒體稱為Gorating 等級分),就在連笑大勝Dolbram 的2015年11 月,年僅18 歲的柯潔衝到了3640 分,這是從未有棋手到過的高度。
但就在之前Deepmind 的AlphaGo 開發團隊剛剛取得了重要突破。在2015 年10 月5—9 日的秘密對局中,AlphaGo 在正式慢棋比賽裡以5:0 戰勝了歐洲冠軍樊麾二段(非正式快棋3:2)(圖2)。Deepmind 估計,此時的AlphaGo 的Gorating 等級分約為3150 分,已經具有職業實力,但離世界第一柯潔仍有不小差距。
圖2 輸給AlphaGo之後,樊麾二段難以置信
對AlphaGo 棋力提升速度極具信心的谷歌公司選擇了李世石作為圍棋人機大戰的對手,並為此提供了圍棋史上最高的100 萬美元獎金,讓這次大戰瞬間成為焦點。李世石是過去10 年獲得世界冠軍數最多的選手,此時年已32 歲不在巔峰狀態但仍然極具實力,2015 年11 月 Gorating 等級分3540 排名世界第三。接到邀請後,李世石几乎沒有考慮,沒提任何條件就接受了。
2016 年1 月28 日,Deepmind裡程碑式的論文在《自然》出版,與樊麾的五盤正式棋譜也公布了,3 月與李世石的人機大戰計劃也提出了。棋界為之興奮,圍棋的世界影響力顯然會極大擴張。棋譜中AlphaGo 的實力雖然讓人印象深刻,但離職業頂尖還有距離,令人羨慕的百萬美元豐厚獎金肯定會歸李世石。樊麾的職業段位是在中國獲得的,但是面對AI 發揮如此差勁,可以懷疑他在歐洲時間太長已經沒有職業水平。整個棋界對AI 的實力沒有警惕,雖然科技界有些人預測機器將5:0獲勝,但被認為是不懂圍棋的外行話。
2016 年3 月9—15 日的五盤圍棋人機大戰的成功超乎想像。圍棋AI 戰勝人類頂尖棋手這一事件席捲全球,影響力遠遠超出了圍棋界與科技界,直接引爆了歷史上最火熱的一次人工智慧熱潮。AlphaGo 以4:1 勝出,讓人們看到了人工智慧的無限潛能。當AlphaGo 在第三局以毀滅性的方式碾壓李世石之後,圍棋界陷入了無比的震驚與壓抑之中。如同科幻小說《三體》中對戰勝三體星人信心滿滿的地球人,卻被對手一顆小探測器摧毀了主力艦隊。而李世石第四局出人意料獲得了寶貴一勝,揭示了AlphaGo 仍然存在算法缺陷,為人類反擊留存了希望,將這次人機大戰推向了最高潮(圖3)。
圖3 李世石第四局第78 手下出神之一手擊中AlphaGo算法缺陷的瞬間
整個比賽李世石其實有機會獲勝。賽前Deepmind 就知道AlphaGo 存在缺陷,因此對棋譜嚴格保密,僅公布了對樊麾的五局勝局棋譜。如果李世石知道這個缺陷的觸發原理,主動將局勢導向開放空間的接觸混戰,將有機會多勝幾局從而獲得比賽的勝利。如果李世石有警惕性,事先要求Deepmind 提供幾局AlphaGo 的敗局棋譜,找到這個缺陷並不困難。此時的AlphaGo 能夠被後續版本讓三子擊敗,說明存在嚴重缺陷,被抓住缺陷時實力會嚴重下降。
由於有論文與實戰表現,AlphaGo 的棋力是可以深入理解的。這次精彩的人機大戰讓人們信服,圍棋AI 從算法原理與工程實踐上,有能力戰勝人類最頂尖棋手。另一方面,棋手們與研究者認為,面對圍棋的複雜性,圍棋AI 仍然存在難於消除的內在算法缺陷。讓棋手們震驚與意外的是,計算機強大的恰好是人類自豪的全局思維與境界,而出現問題的反而是人們認為計算機應該強大的局部計算。科技界的狂野預測成功了,但事情似乎更有趣一些,圍棋也展示了它的複雜。
無論如何,AlphaGo 已經展示了不一樣的圍棋觀念,讓人們知道圍棋是自由的,一些人類的「棋理」只不過是自以為是的錯覺。對圍棋熟悉的人,會明白AlphaGo 第二局第37 手在五路尖衝是一件多麼震憾的事(圖4)。AlphaGo 出現之前,棋界由於思想禁錮以及競技性的原因,布局單調重複,精彩程度下降,有走入誤區的趨勢。AlphaGo 的橫空出世,預示著一次新的圍棋革命即將發生。
圖4 AlphaGo 對李世石第二局,第37 手極具震憾力地在五路尖衝
2016 年11 月7 日,Deepmind 宣布AlphaGo 又取得了巨大進步,將於2017 年初復出下棋。人們普遍推測這是與柯潔的第二次人機大戰,但後來的情況再次讓棋界出乎預料,而且出場表演的AI不止AlphaGo一個。
2016 年11 月,騰訊參考Deepmind 論文開發的圍棋AI「絕藝」取得了重大突破,開始在網絡對弈平臺野狐圍棋上挑戰頂尖高手,並在20 s、30 s 快棋中戰勝了柯潔、樸廷桓等頂尖高手。日本老牌程序Zen 升級為DeepZenGo 初步具備職業實力之後,2016 年12 月29 日開始在弈城圍棋網上與職業和業餘高手密集測試。絕藝對頂尖職業的戰績要好於DeepZenGo,但是二者都顯現出了AI 的特點:大局觀佔優,局部計算會出現各種問題。棋手們也總結了一些對付AI 的招法,如柯潔介紹的經驗:做大模樣,等它打入進來犯錯。
幾乎與 DeepZenGo 同時,升級後的 AlphaGo 以 Master 為名在網絡上與頂尖棋手們進行了5 天60 局測試,並獲得了全勝。雖然20 s、30 s 的快棋不利於人類棋手發揮實力,但是絕大多數棋局人類棋手早早就陷入必敗局勢,這昭示了雙方實力的巨大差距。高手們更看重的是Master 遠超絕藝與DeepZenGo 的創新能力,開盤點三三這類讓棋手們震驚的創新很多。AlphaGo-Lee 版本下的基本還是人類棋手熟悉的招法,只是大局觀偶爾帶來震驚。而Master 下的是另一種圍棋,從開局就展示了不一樣的圍棋觀念。
剩下的懸念是,60 局中Master 由於早早領先而沒有面對複雜的局面,人類棋手在慢棋中有沒有機會製造複雜?AlphaGo 面對複雜會不會出現計算錯誤?實力不斷進步的絕藝與 DeepZenGo 在網絡與正式比賽中與人類棋手多次對局,似乎為此提供了一些有利證據:人類棋手在慢棋中確實有機會等到AI的漏洞而獲勝。
這個懸念在2017 年5 月23—27 日AlphaGo 與柯潔的三盤人機大戰後終結了:柯潔有能力製造複雜局面,AlphaGo 有能力應對複雜局面,處理複雜局面的能力超過人類想像。
第二局柯潔表現非常好,Deepmind 負責人哈薩比斯在局中兩次根據後臺數據公開稱讚。至119 時,黑白雙方共有多達9 塊棋沒有安定攪殺在一起,還有天下大劫要開,之前從未有棋手面對Master 實現這種局面(圖5)。局中柯潔本人與一些職業棋手、棋迷都感覺有機會了,情緒激動。但是這個局面AlphaGo 還是完美地應對下來了,柯潔開劫出現誤算迅速失敗。
圖5 第二局柯潔執白對AlphaGo時的複雜局面
賽後Deepmind 公布了AlphaGo 的50 局自戰譜,2017 年7 月又在圍棋TV公布了另外5 局自戰的詳解。這些自戰譜對抗非常激烈,複雜的局面很多。冷靜下來的棋手們認識到,也許柯潔在第二局的「機會」只是一種錯覺,局勢還在AlphaGo的控制之中。
圍棋確實比西洋棋複雜得多,但現在情勢倒轉過來了。圍棋的複雜在之前讓人類遙遙領先於AI,然而一旦算法取得突破,遙遙領先的迅速變成了AI。人類還有希望和西洋棋AI 下和,但圍棋複雜的局面遠遠超過了人的能力,即使最頂尖高手可能也得接受被AI 打到讓二子的苦澀結果。與AI 進行極限對局需要的計算量,是人類大腦承受不了的,雙方就像跑車與博爾特一樣,不是合適的對手。與柯潔賽後,Deepmind 宣布AlphaGo退役可以理解,與人類的分先對局已沒有意義。在圍棋上,人類敗於計算機雖然比西洋棋晚了一段時間,但敗得更徹底,差距要大得多。
AlphaGo 的自戰譜讓人們認識到,它與自己對戰時才需要拿出全部本領,已經不是在用人的方法來下棋了。雙方差距極其接近、每步背後都有極多計算、步步緊繃的極限對弈方式,棋手們連理解都有困難,自己上場跟不了多少步就會犯錯脫軌敗陣。柯潔一開始對圍棋AI 的實力並不信服,但通過實戰仔細體會AI 的棋力之後,柯潔認為,「人類數千年的圍棋都是錯的,甚至沒有一個人沾到圍棋真理的邊」,「圍棋沒有什麼不可能」。與AlphaGo的三局大戰後,柯潔仿佛得到了境界提升,對多位世界冠軍在內的人類對手22 連勝(2017 年7 月19 日才被時越九段終結),Gorating等級分最高衝到了3681,並在網絡上讓二子與職業低段對局勝多負少。
AlphaGo-Ke 能100%戰勝Master 版本, 能讓三子戰勝AlphaGo-Lee,由於Deepmind 仍未公布詳細論文,這種讓人難以置信的實力進步尚只能從算法原理上作出一些推測。本文將在第二節介紹圍棋AI 算法的主要技術,對圍棋AI 處理圍棋複雜的能力為何超過了人類作出技術解釋。
圖6 中的3 人是AlphaGo團隊的核心成員。哈薩比斯創立了Deepmind公司,認為機器可以通過自我對弈解決一切完全信息博弈問題。席爾瓦的算法天才對AlphaGo 的強大至為關鍵,有多種算法創新。黃世傑在人機大戰時代替機器落子,他對圍棋AI開發多年的積累作用很大。
圖6 AlphaGo團隊負責人德米什·哈薩比斯,以及兩位核心算法研究者大衛·席爾瓦與黃世傑
西洋棋與圍棋一局的步數與每步的選擇都很多,搜索樹極大。將棋局展開一定的步數,對展開的局面建立局面評估函數,代替之後的搜索。這個剪枝非常有效,讓深藍在西洋棋上戰勝了人類。席爾瓦與黃世傑十多年前開始開發圍棋AI 時就知道,這個方法對圍棋行不通,搜索太複雜,評估函數也很難建立。早期圍棋AI 的代表是中山大學教授陳志行退休後開發的「手談」,曾連續6 次獲得計算機圍棋世界冠軍,但棋力不高,連業餘初段都達不到。
取得突破的是「蒙特卡羅樹形搜索」 (Monto-Carlo Tree Search,MCTS),早期代表程序是Coulom開發的CrazyStone。想像從一個圍棋局面展開一個深度為d 的搜索樹,派多隻螞蟻從根節點隨機選擇分支往下爬。爬到葉子節點時,就一人一手直接下完(rollout)終局數子給出結果,勝螞蟻活,負螞蟻死。時間到了,就統計螞蟻的死活,活螞蟻最多的分支就是當前的行棋選擇。這個框架繞開困難的局面評估函數,而是直接精確計算終局勝負,海量模擬至終局用獲勝概率代替局面評估。AlphaGo 以及其他圍棋AI 局中不斷報告的「 勝率」, 就是指MCTS 中的模擬勝率。每個推薦選點都會給出對應勝率,不同選點的勝率接近,可以隨機選擇一個,所以圍棋AI 自我對弈或者與人對弈並不會重複局面。
隨著AlphaGo 的新聞效應,很多人也知道了MCTS。但是單純的MCTS作用不大。CrazyStone和MoGo 等程序取得棋力突破,是應用了MCTS加上UCB(Upper Confidence Bound)公式的UCT方法,選擇搜索分支時有了很強的針對性,不將算力浪費在無意義的分支上。UCT使得MCTS在有希望的分支上擴展步數超過之前的d,增強了搜索能力。理論證明,只要模擬次數夠多,概率結果就會逼近真實搜索結果。概率搜索可以隨時停下給出當前結果,方便圍棋AI 的時間控制:快速停下來給出一個過得去的結果,具備快棋能力的AI 更受棋界歡迎。AlphaGo 並非憑空產生,也應用了MCTS與UCT。
大的框架有了,程序細節就更為關鍵,例如rollout 策略對棋力非常關鍵。MCTS 的後期代表程序是Zen,在行棋細節上作出了很大改進。雖然在UEC 杯接受職業棋手指導時還要被讓3—5子,但在2011 年前後,Zen 已能戰勝一般業餘棋迷,進步讓人印象深刻。這時的高水平圍棋AI 還會犯一些愚蠢的錯誤,但已經展示了一個很大的優勢:大局觀很好。依靠MCTS 天生的全局思維,圍棋AI 的大局觀已經超過了一些布局不好的職業棋手。這是圍棋AI 首次在一個環節上可以與職業棋手對抗,戰勝人類有了初步的希望。但這個進展未被棋界承認或重視,因為AI 由於局部計算問題,整體實力仍不高。
AlphaGo 的另一個基礎技術是深度學習。在圖像領域深度學習逐漸成熟,近年來不斷取得重大突破。將棋局理解成19×19 的圖片,用多層卷積神經網絡去處理它獲得局面特徵,再用大量人類棋局對它進行深度學習訓練,是自然的想法。Facebook 的田淵棟開發的Darkforest就用了這個想法,神經網絡對於當前局面直接給出與人類高手差不多的少數高質量候選點,等於建模了高手的直覺,AlphaGo 團隊稱之為「策略網絡」。這是出乎預料的革命性進步,頂尖棋手們自以為的直覺優勢就這樣被攻破了。訓練需要數以十萬計的高水平對局棋譜,網絡圍棋已經興起多年解決了這個問題。利用深度學習,Darkforest 只用很短的開發時間,實力就追上了有多年開發積累的Zen。深度學習出現之前,開發圍棋AI 是很麻煩的事,如何利用棋形產生分支預選,需要艱苦的程序開發。策略網絡出現之後,很多人輕易就能訓練出一個能走棋的程序,圍棋AI 的數量大大增加。
哈薩比斯有一個關鍵性的想法:機器通過自己玩遊戲強化學習,能夠超過人類。Deepmind 之前已經在Atari 遊戲上取得了突破,機器海量玩小遊戲,根據結果改善自己的神經網絡係數,重複這個過程就能達到極高的遊戲水平。美妙的是,這個過程不需要人工幹預,只要讓機器自己玩。
各種條件逐漸成熟,進入2015 年,圍棋AI顯然要大幅進步了。但與人類頂尖的差距仍然巨大,研究者普遍認為要取得真正的突破仍很困難。Deepmind 三人組與眾不同的是想像力,他們相信破解圍棋的條件已經具備了,最終取得的突破也超乎想像:AlphaGo 不僅能戰勝人類頂尖,而且遠遠拋離人類發起了圍棋革命,建立了自己的境界。挑戰圍棋的複雜需要勇氣,回報也就異常豐厚。
之前研發者用於圍棋的資源一直不多,往往是一兩個人的個人項目。引入深度學習訓練後,硬體資源也很關鍵。AlphaGo 約20 人的開發團隊是史無前例的,再加上谷歌公司的海量硬體平臺,一切終於不一樣了。路徑看上去已經有了,學習人類棋譜,讓計算機學會高手的直覺產生候選點,再用MCTS模擬出各選點的勝率,讓機器海量自我對弈,根據結果自動改進相關環節的係數。
席爾瓦產生了一個真正瘋狂的想法,甚至連黃世傑也不認為能成功,那就是價值網絡。圍棋的局面評估長久以來就特別困難,甚至人類高手也經常意見不一。建立一個多層神經網絡,用幾百兆係數去做這件事,看上去很離奇。準備訓練樣本需要上千萬獨立的高水平棋局,這的確很瘋狂。但是動用數十萬伺服器讓AlphaGo 自我對弈產生2000 萬棋局後,這個價值網絡居然訓練成功了。
AlphaGo 團隊建立了MCTS框架,用13 層的策略網絡產生局面選點的概率,並用這個概率來引導MCTS進行局面分支,在葉子節點通過架構類似的價值網絡直接給出勝率,再用一個快速策略網絡從葉子節點下至終局數子給出勝負,與價值網絡的勝率綜合考慮。這就是AlphaGo 下棋依賴的軟體架構,下棋決策過程如圖7 所示。硬體上也需要相當的算力支持,卷積神經網絡的計算就要多塊GPU加速。這個架構還可以通過強化學習不斷改進,機器自我對弈,根據結果改善策略網絡、價值網絡、快速策略網絡等各處的係數。除了算法突破,AlphaGo 也需要工程實施,建立一個訓練流水線,一切細節都需要做到極致不能有短板,能夠戰勝職業棋手的AlphaGo 才最終出現了。
圖7 AlphaGo 執黑對樊麾非正式對局時的一個局面,輪黑下。策略網絡給出了各個選點的優先概率,價值網絡給出了各選點的勝率(超過50% 才顯示)。MCTS運行之後,各點的搜索量佔比被統計出來。搜索完成後,AlphaGo 給出雙方理論最佳後續應對次序,它假設對手和自己一樣強大
2016 年3 月雖然戰勝了李世石,但AlphaGo的開發要面對兩個問題。一是面對複雜局面會出現「地平線效應」,機器勝率在短短幾手間急劇崩潰, 原因是對低概率選點計算不足產生錯覺,發現時已經走錯為時已晚,正如對李世石第四局呈現的。二是機器自我對局提升碰到了瓶頸,發生過擬合,再怎麼訓練棋力也改進不大。
Deepmind再次作出了重大改進,突破了瓶頸。兩個問題都得到了解決,並且產生了棋藝上的重大影響:AlphaGo變得富於創新,真正開啟了圍棋革命。棋力也再次取得了重大進步,AlphaGo-Ke可以讓AlphaGo-Lee 三個子,這是讓職業棋手難以置信的差距。這次改進意義極大,但細節有待公布。現在知道的是,Deepmind 將策略網絡與價值網絡層數提高到了40 層,大大增加了層數。並且AlphaGo的強化學習大大改進了,用對抗性學習(Adversarial Learning)的思想引入了Anti-AlphaGo 去發現自己的弱點。對於價值網絡與策略網絡的改進,也巧妙地利用了一個簡單的思想:MCTS各模塊「火力全開」的搜索結果,應該優於策略網絡直接給出的選擇;MCTS搜索後給出的局面勝率,也應該優於價值網絡直接給出的勝率,可以用MCTS的結果來作為策略網絡與價值網絡的訓練改進目標,一局有多次訓練的機會。這樣學習過程加速了很多,以前從頭開始訓練出一個版本要三個月,改進後只需要一周。而Master 創新性招法的來源,是將強大的價值網絡反過來幫助策略網絡:有時價值網絡覺得不錯的點(如開局點三三),策略網絡由於學習人類棋譜想像力受限,卻沒有考慮這些點(於是AlphaGo 就不下)。將這些點通過訓練補回給策略網絡, 經過MCTS成為最終選擇,創新的招法就出現了。
這些改進,讓AlphaGo 成為「復盤大師」,通過仔細琢磨自己的高水平對局不斷進步。Deepmind 將「復盤」的過程自動化了,而人類棋譜只是起一個初始的作用,之後就沒有學習的價值了(如策略網絡不追求預測人類高手招法正確率),AlphaGo 改從自己的棋譜裡學習新知識,人類棋譜的影響越來越小。一個設想是從真正零知識的隨機走子策略開始自我提升,這將是徹底脫離人類影響的版本。但這種版本Deepmind可能已經放棄了,原因或者是沒有必要,或者是陷入局部陷阱無法訓練成功。
圍棋AI 自我對局數量極多,絕藝就超過30億局,質量還高於人類。機器的圍棋世界,無論對局數量和質量,都遠遠超過了人類有史以來的圍棋世界。
AlphaGo 說明,人類數千年來形成的圍棋觀念真可能是錯的,需要重新學習。如何學習還不清楚,簡單模仿AlphaGo 的下法卻沒有對應的計算能力是不行的。棋手們已經做出了嘗試,對局自由開放了很多,這無疑是好事。人類永遠無法像AlphaGo 那樣依靠勝率計算下棋,沒有人可以海量模擬至終局,雙方各有各的下棋方式。圍棋AI 學習了人類高手的直覺,訓練出了策略網絡,學習自己的棋譜訓練出了價值網絡。如果有大量高水平的AI 棋譜,甚至AI 給出的後臺數據,人類棋手也可以開始反向的學習過程。學習AI 棋譜,提升人腦中類似「策略網絡」的直覺能力,甚至產生「價值網絡」提高局面評估準確性。被AI戰勝以後,西洋棋選手們通過AI訓練水平提升很快,職業水平的棋手數量翻了多倍。也許AI能幫助圍棋普及到全球,頂尖高手不再只有東方人。
即使AlphaGo 不再下棋,它更多的技術細節公布以後,中國的絕藝、日本的DeepZenGo 的水平也會迅速提高,而且會與頂尖職業緊密互動。人類圍棋的革命必然發生。由於生理條件的限制,人類無法達到AI 的水平,但是縮小與AI 的差距應該是可行的目標。如嘗試讓二子戰勝AlphaGo 水平的AI,將差距拉近到讓先。有了AI,圍棋比過去更為精彩,不需要為失去傲慢的理由而悲嘆。
圍棋AI 作為弱人工智慧,只是在機械地執行算法,沒有理解力。AlphaGo 不知道自己下的棋局有多精彩,作出的創新有多偉大。這種精彩與偉大需要人類高手來解讀,雙方共同探索圍棋的奧秘。
這也是現階段人工智慧對人類社會的意義,為人類社會提供新類型的工具。職業高手們真正對手不是AlphaGo,而是創造AlphaGo 的Deepmind開發團隊。各行各業用傳統思維工作的人,將被用算法思維的人挑戰。人類社會應該學習新的思維,去適應被人工智慧改造的社會。
圍棋雖然複雜,但只是「完全信息博弈」問題中最難的一個。而人類解決問題的長處是在非完全信息的領域,以及通用的橫跨多個行業舉一反三的能力。即使對於圍棋這樣一個定義明確的單一問題,AI開發也需要谷歌、騰訊等IT 大公司的支持才能達到極高水平。雖然圍棋AI 取得突破後迅速超越了人類,但開發出高水平的人工智慧並不簡單,需要海量的資源,現在也沒有幾個圍棋AI 達到職業水平。高水平人工智慧開發的難度不宜低估。
背景簡介:本文作者筆名陳經,香港科技大學計算機科學碩士,科技與戰略風雲學會會員,微博@風雲學會陳經。本文應邀發表於《物理》2017年第9期,此處風雲之聲獲授權轉載自微信公眾號 中國物理學會期刊網(http://mp.weixin.qq.com/s/VCVuFuP2WLrxaoQqxbXCQQ)。
責任編輯:郭尖尖