【新智元發自中國烏鎮】在圍棋峰會開幕式致辭中,DeepMind CEO Demis 表示,樊麾已經成為 AlphaGo 開發團隊中的一位重要成員。樊麾表示,自己在與 AlphaGo 對戰以後,獲得了很多從未有過的認知。柯潔與 AlphaGo 對戰將以全新並且激動人心的方式共同探索圍棋的奧秘。Demis 還說,圍棋不止是一種遊戲,是一種藝術。這場比賽也不止是一場比賽,有些東西是專門設計來探索這個世界上最複雜而美麗的棋盤遊戲——圍棋的真理(perfection & truth),這是人類自己單獨下棋再下 1 萬年也無法實現的。Demis 表示,這場比賽將檢測計算機能否展現出創造力和直覺。
根據新智元獲得的最新消息,5月23日,中國·烏鎮圍棋峰會的首場人機圍棋對抗比賽,暨「柯潔PK AlphaGo」三盤棋的第一盤剛剛結束。AlphaGo 經過一番苦戰,成功擊敗世界第一柯潔,取得1:0的領先。
本次柯潔與AlphaGo的終極對決共有三盤,除23日外,25、27日還分別有一盤棋的比賽。
開幕儀式上,柯潔與DeepMind CEO 哈薩比斯以及Alphabet 董事長 Eric Emerson Schmidt合影
峰會開幕式也在23日上午舉行,DeepMind CEO 哈薩比斯在開幕式的演講中說到:我們最終的目的是探索新的領域,而最終的勝利屬於人類。中國是圍棋的誕生地,這是舉行最偉大對弈的理想地方。非常感謝中國各方面的幫助。柯潔是一個真正的天才,相信他和 AlphaGo的對弈,將開啟一個新的天地。圍棋是藝術,非常深奧,我們的峰會宗旨在於探索新的思路,如探索宇宙一樣,相信再過一萬年,也無法窮盡。
本次峰會的開幕儀式上,我們看到以三維圍棋也就是魔方作為整場峰會的主題之一,AI 圍棋是對人類智能的升格。從AlphaGo去年與李世乭的對戰以後,現在眾多棋手已經開始從AlphaGo身上學習新的下法,新的策略,比如著名的「點三三」。長遠看來,這不僅是AlphaGo(阿老師)對圍棋世界的影響,更是人類文明的智能革命的一個開端。
比賽開始之前,柯潔普遍不被看好,不少人工智慧領域的專家都直接給出了「勝負已無懸念」的論斷。雖然目前三盤比賽只下了第一盤,但是對柯潔能否最終取勝,大家普遍比較悲觀。
【策略】開局柯潔借鑑了Master
比賽開始不久,哈薩比斯就在Twitter上發文,稱柯潔使用了1月份時候出現在線上對戰平臺的Master的下法。哈薩比斯還說,柯潔明知AlphaGo喜歡三三,開局就用三三式
【時間】開局半小時後。黑白雙方用時相差10分鐘。這次比賽相比於李世石和阿爾法狗,人和機器的時間都增加了 1 小時。開局半小時,柯潔下出了很多針對阿爾法的下法,效果還有待考察。
據觀察,AlphaGo 每步棋都用時 40秒 左右,這樣 3 個小時Alphago是遠遠用不完的。
簡單回顧一下比賽:
今天的第一盤比賽,柯潔執黑,AlphaGo 執白。
柯潔使用了 Master 此前經常採用的 大飛 下法開局,這不是柯潔慣用的開局方法,這一下法很有針對性。明顯是針對 AI 專門訓練的。
柯潔說阿爾法狗風格「不拘一格,狂撈實地」,柯潔先撈實地。看能否引發阿爾法狗 Bug。黑棋點三三,白棋二路扳,都是在撈取實地。
如果換作以前,人類棋手可能會覺得局面不利,只撈了一個角,角上的實地也不是很大。但現在,因為 AI 的洗禮,人類的認識已經有了很大變化。
中午沒有分盤,AlphaGo 在體力上的優勢不言自明。黑棋撈實地,白棋則有一定的外勢。人下得越來越像機器,機器倒有幾分像人了。
柯潔現在遭到阿爾法意想不到的一手後陷入了長考。其實人類棋手們都知道,和「阿老師」下一旦形勢落後,就很難扳回來,所以序盤這個長考很有必要。
雙方行至中盤,盤面相當。柯潔用時幾乎是AlphaGo的一倍。可以看出,柯潔一直努力在找 AlphaGo 的漏洞。而在雙方的近身纏鬥中,執白的 AlphaGo 一度還似乎略處下風。但這「下風」仍然是人類的認識。記得去年 AlphaGo 大戰 李世石時,李世石在幾盤棋中也似乎佔有著一點點優勢。
進入到官子階段,局面愈發焦灼。有圍棋專業人士評論,對 AlphaGo 來說,連勝 60局時都未曾出現今日的艱難局面。
AlphaGo收官異常簡明,甚至使出苦肉計棄一子吃黑兩子將白棋徹底做活。
AlphaGo的用時,令人髮指的短........到最後還剩了接近兩個小時,柯潔只剩10多分鐘.......
相信大家都對去年3月阿爾法狗和李世乭的人機對戰印象深刻,當時李世乭從AlphaGo手上拿下一盤。
不過,綜合近年來柯潔和李世乭在職業賽場上的表現,柯潔的實力無疑是在李世乭之上。
下圖:截止2016年1月Go Ranking上的圍棋世界排名,柯潔排在第一,李世乭排在第3。
下圖:截止2017年1月Go Ranking上的圍棋世界排名,柯潔排在第一,李世乭排在第7。
柯潔賽前接受媒體的專訪時曾提到,它(AlphaGo)對「目」的敏感度,遠超於人。Master的版本與原來V18的版本最大的不同是,以前的版本,在下棋上還是很像人,無論它有多少閃光點,大部分的棋盤還是人類的下法,包括布局和戰略意圖,現在,感覺就是,它很仙,有仙氣的感覺。
另一方面,AlphaGo也不在是一年前的AlphaGo了。
1月11日,哈薩比斯在出席德國慕尼黑舉行的DLD(數字、生活、設計)創新大會,宣布將推出真正2.0版本的AlphaGo,特點是擯棄人類棋譜,只靠深度學習的方式成長。哈薩比斯有一次在劍橋大學的演講中提到,以前從零訓練一個AlphaGo要三個月,現在只需要一個星期。由此看來,硬體上AlphaGo已經有了較大的升級。
搜狗公司CEO王小川在知乎上寫道,根據公開資料推測,此次AlphaGo2.0的技術原理與之前有著巨大不同:
1. 放棄了監督學習,沒有再用人的3000萬局棋譜進行訓練。這本是AlphaGo最亮眼的算法,也是今天主流機器學習不可避免的核心條件:依賴於優質的數據,在這個特定問題下就這麼被再次突破了。
2. 放棄了蒙特卡洛樹搜索,不再進行暴力計算。理論上,算法越笨,就越需要暴力計算做補充。算法越聰明,就可以大大減少暴力計算。從AlphaGo 2.0的「馬甲」Master的歷史行為看,走棋非常迅速,約在每10秒鐘就走棋一步,如此速度很可能是放棄了暴力的計算。
3. 極大地強化了增強學習的作用,之前敲邊鼓的算法,正式成為扛把子主力。想想看有多勵志:兩臺白痴機器,遵守走棋和獲勝規則,從隨機走棋開始日夜切磋,總結經驗,不斷批評和自我批評,一周後終成大器。
在這樣的算法下,AlphaGo 2.0對計算資源開銷極小,把當前棋局輸入神經網絡,電流流過,輸出就是最佳的走棋方案。我猜測如此算法下,有可能僅僅依靠一個GPU工作,每一步棋消耗的能源接近人的大腦。
新智元在峰會現場採訪了谷歌 TensorFlow 項目負責人、谷歌大腦成員 Rajat Monga 。但是他並沒有透露 TensorFlow 或者,更具體的說,第二代 TPU 在這次 AlphaGo 升級版對戰柯潔中所扮演的作用。我們知道,在 AlphaGo 對戰李世石當中,谷歌表示第一代 TPU 起到了至關重要的作用。涉及 TPU 的提問,無論是一代還是二代,Rajat 的回覆都是「這個我不方便回答」,「請看官方發布的資料吧」
至於此前 TensorFlow 是否會導致生態壟斷的疑問,Rajat 在接受其他媒體採訪時表示,TensorFlow 在谷歌內外所用的代碼都是一致的(exactly the same)。谷歌內部有更新時,他們也會在 Github 上,以大約每周的頻率更新代碼,確保同步。
Rajat 透露,目前已經有 14 萬中國開發者下載 TensorFlow,中國是 TensorFlow 最大的開發者社區之一。因此,新智元也問了 Rajat 幾個開發者比較關心的問題,例如 TensorFlow 衍生的各種高層 API 封裝,哪個最有可能成為以後谷歌主流推廣的對象——Rajat 的回答是「Keras」;XLA 穩定版何時發布?Rajat 表示他們一直都在努力推進,不過,至於具體時間,Rajat 則面帶微笑地說:「很快吧。」(soon)
綜合此前網上的猜測,DeepMind基於圍棋的規則,完全摒棄了人類棋譜,讓AlphaGo通過深度神經網絡和增強學習,甚至是生成對抗網絡(GANs)等技術,讓程序可以可以在合理的時間和計算量的情況下, 搞定圍棋的搜索空間。所以可以看到,AlphaGo會下出很多讓人「出乎意料」的走法。
不過,根據新智元專家群內專家透露,本次出現在烏鎮的AlphaGo並沒有完全棄用蒙特卡洛搜索的方法,新版本只是對原來的程序的升級。
此前,DeepMind曾發布了一篇博客《Innovation of AlphaGo》,DeepMind的軟體工程師與圍棋專業棋手樊麾共同講解了自去年以來AlphaGo在圍棋策略和戰術上的進步。
Alphago 強大之處並不在於單獨的一手或一連幾手,而是它為每一局對弈帶來的獨一無二的新視角。雖然圍棋的風格很難以一言以蔽之,但 AlphaGo 的策略象徵了一種靈活和開放的精神:沒有先入為主的觀念,因此可以找到最有效的對弈策略。
正如以下兩局對弈所顯示的,這種思想經常使 AlphaGo 得出有悖直覺但十分強大的行動。
儘管圍棋是「圍地吃子」的遊戲,但是大多數決策類的戰鬥都講究雙方的力量平衡。AlphaGo 在維持平衡方面可謂一絕。具體說,AlphaGo 在運用「勢」方面能力精湛,也就是利用已經下定的棋子影響周圍的形勢。雖然這種「勢」無法量化,但 AlphaGo 的價值網絡使其能夠一次考慮到通盤的局面,從而做出細微且精確的判斷。這些能力讓 AlphaGo 將局部的「勢」擴展為全局的優勢。
在這局棋裡(Dia.1),黑子(AlphaGo)安全領域(secure territory)很少,而白子佔據了三個角。但是,黑子的「勢」輻射到整個盤面。尤其是標記出的落子,雖然鞏固了白棋,但同時也增強了黑棋的可能性。圍棋選手通常會避免這樣的出招,因為這樣必定會付出代價,而回報卻不一定。但 AlphaGo 結合它對風險和獎勵強勁的判斷,最終下出了這一步棋。
但是,這些「勢」的價值全部取決於具體的場景。當這些「勢」能夠有效轉移時,AlphaGo 都自由地消去這些「勢」。在 Dia.2 中,AlphaGo 下出了驚人的 6 子連線(三角標記)。圍棋選手評價稱,在第四行(圓圈標記)有「勢」,在第三行有地(territory),但在第二行只有敗局。AlphaGo 的走法最初看起來是符合這些評價的,這些落子給了白棋力量和「勢」。大多數圍棋選手都不會下出這樣的6子連在一起的棋。但是,AlphaGo 判斷這樣有助於將白棋分散開來,在接下來的過招中,慢慢地侵蝕白棋的優勢,從上方和下方同時確保了領先的優勢。
新的招式,新的模式
AlphaGo 在最近的幾句對弈中,還下出了一些開局的新招式。最引人注目的是開局的3-3入侵和「Magic Sword」的新變種。每個都違反了常規理論,但在更深入的反思中,卻證明是符合道理的。
初盤的三三定式(3-3 invasion)
圍棋佔據角落最常見的方法是3-3 point invasion,如Dia.3 所示。
這樣落子立馬就確保了角落的安全。但是,像 Dia.4 顯示的教科書式的接下來的開盤布局,很早就被拋棄了,因為「勢」太多(it gives too much influence)。
AlphaGo 的創新之處在於,它省略了標記出的過招,讓角落處在 Dia.5 顯示的不確定(unsettled)的狀態。
儘管不那麼安全,黑子仍然保有從左邊逃出,或者在右邊落子佔據角落的選擇,這樣就在僅僅減弱些微 influence 的情況下,佔據了更多的領地(territory)。這個策略在職業棋手之間激起了熱烈的討論,而且至少已經有一個人在實際對弈中應用了這一招。
The New Magic Sord
AlphaGo 最初是使用人類的數據進行訓練的,因此它知道當代落子佔角的下法,也通常按照這樣的順序落子。但是,在「Magic Sword」,也即被稱為「村正妖刀」的圍棋定式中,AlphaGo 卻出現了偏離。
Dia. 7
Dia. 8
從 Dia.7 顯示的局面開始,常規的落子過招會出現 Dia. 8 的情況。
然而,AlphaGo 往往更喜歡放棄外圍,贏取領地上的優勢(Dia. 9所示)。
大多數圍棋選手都不會考慮下這種棋,因為這樣黑棋雖然有很強的城牆(wall),但白棋的後手跟進讓黑棋的「勢」並沒有看上去那麼大。如果黑棋不繼續鞏固這面城牆,還會遭到攻擊。韓國頂尖棋手金志錫(Kim Jiseok)最近在一場比賽中用了這一系列落子(Dia. 10所示),他最終贏得了那場比賽。
5月22日,在圍棋大戰開始前夜,柯潔在微博上發文:
決戰前夕,感慨萬千...
在這個特殊的時間,我有些話想和熱愛圍棋、關注圍棋、關注我的朋友們說:
無論輸贏,這都將是我與人工智慧最後的三盤對局
很多人可能會問為什麼?
其實私底下我已經與朋友家人說了很多次這樣的想法,現在的AI進步之快遠超我們的想像。像國產的絕藝、日產的ZEN雖然和AIphago還有著較大差距,但已經表現出超強的實力了...我相信未來是屬於人工智慧的。
可它始終都是冷冰冰的機器,與人類相比,我感覺不到它對圍棋的熱情和熱愛。對它而言...它的熱情——也只不過是運轉速度過快導致CPU發熱罷了。
我會我用所有的熱情去與它做最後的對決,不管面對再強大的對手——我也絕不會後退!至少這...最後一次...
拼盡全力後,無論結果...管他口中是是非非,來一首《滄海一聲笑》..豈不美哉、快意?我淡然笑到...
不眠夜,且看且珍惜,請大家欣賞我最後的三盤人機大戰。
正如柯潔所說,「未來是屬於人工智慧的」,這一點是大勢所趨。柯潔,包括眾多即將走上與AlphaGo對決賽場的職業棋手們在這場大賽中我們展示了面向未來世界的勇氣和熱情。
正在大家都認為人類毫無勝算,人工智慧越來越強大的時候,勇士柯潔依然勇敢地站了出來,迎接來自人工智慧的挑戰。
世界圍棋女子冠軍,圍棋職業五段徐瑩認為,自從阿爾法圍棋(AlphaGo)出現之後,突然圍棋變得五彩斑斕了,突然間世界就打開了。其實我們和 AI 互相在促進,互相在幫助,一下子思路打開了,我們完全不受限制,而這恰恰是我們追求的圍棋本質。
未來,AI 會是無處不在的。AlphaGo在2016年橫空出世,開啟了人與機器共存的新時代,也帶給我們更多關於人類未來、關於智能、關於人類的「存在」的深度思考。在這一點上,勇士柯潔樹立了一個很好的榜樣。我們要做好準備,勇敢迎接一個人機共存,人與機器共同進步和進化的時代。
點擊【閱讀原文】查看新智元招聘信息。