文/藍馨晴(微信公眾號:極客視界)
這是一場毫無意義的比賽,因為勝負早已註定。 李世石贏不了,就算贏一場也是僥倖,柯傑來了也沒用,吳清源復活也沒用。
如果你對 AlphaGo 或者如今的 AI 發展稍微有點了解的話,你就會明白為什麼人類下不贏電腦,就算再進化 5000 年也沒用。
先來解釋一下阿爾法狗是怎麼下棋的。
圍棋有 361 個格子,理論上講,黑子的第一步有 361 種選擇,然後白子有 360 種應對,然後黑子 359 ,以此類推。每一步棋最終可能會導致各種各樣的結果,如果你能窮盡所有結果,看看其中有多少是獲勝的,有多少是失敗的,就可以計算出這步棋有多大的可能性讓你贏。每次輪到你下棋時,都選擇贏面最大的那一步棋,最終你就是獨孤求敗,永遠都不會輸了。這就是從深藍到阿爾法狗都會使用的「蒙特卡羅樹」搜索方法。
人工智慧又一次挑戰世界冠軍,人腦還能堅持多久?
當然,這只是理論上的,因為窮盡所有是不可能的。經過估算,圍棋的全部可能性為 10^170 種,全宇宙的原子數量加起來才 10^80,阿爾法狗還沒流弊到能計算全宇宙的原子。既然不能窮盡,就只能拿有限數量的棋局來進行估算,這就組成了阿爾法狗的核心部分:「Policy Network」,稱為策略網絡。從 5000 年前中國人發明圍棋開始算起,全人類下過的棋局可能也不過幾十萬局到幾百萬局,有大量的變化和局面還未有人嘗試,這顯然不能滿足阿爾法狗的胃口。於是它發明了一種製造棋局的方法:自己跟自己下。據說它的「快速走子」2 微秒可以下一步棋,1秒鐘已經下完了幾千盤棋局了。它在和李世石比賽之前已經儲備了 3000 萬個棋局,這裡面有多少對局可能是人類再下 5000 年棋也創造不出來的。
如果光是這樣,那也還做不到獨孤求敗,畢竟和電腦相比人類還有「棋感」、「經驗」、「靈光一現」這類無法量化的東西。圍棋號稱「千古無同局」,經常會出現一步棋讓盤面發生翻天覆地的變化,就像天龍八部裡的珍瓏棋局所描述的那樣。為了防止人類通過奇招、怪招打敗阿爾法狗,它還有另外一套計算方法:「Value Network」稱為估值網絡。它從儲備的 3000 萬個棋局(按1秒鐘下幾千盤棋局來算,現在估計又增加了很多)裡提取了 3000 萬個局面,然後通過『蒙特卡羅樹』的推演來評估局面的變化,一來可以砍掉大量不值得分析的分叉提高計算效率,另外更重要的是可以推演出與之相關可能出現的新局面。將可能產生的有利或不利局面倒推回來,堵住一切人類有可能出奇制勝可能性,而選擇自己更容易下出「珍瓏棋局」的局面。比如通過算棋得出下一步走 A 位可繼續保持優勢,但評估局勢認為 B 位有可能改變整個局勢,那麼就會選擇B位。大家看直播,也發現阿爾法狗經常這麼做。控制住了局面也就基本控制了由於樣本有限而沒有覆蓋到的怪招、妙招的威脅。
當然,由於圍棋計算無法窮盡,人和機器看上去是在同一起跑線上。但阿爾法狗每1秒鐘又學習了幾千盤新棋局,其中的「珍瓏棋局」大多都是人類聞所未聞的,這簡直就是降維攻擊。人類還是洗洗睡吧。
這場比賽讓我想起了百年前英國人讓馬車與火車進行比賽,剛開始火車還輸了呢!這些比賽都沒有意義,因為電腦程式將不可避免地超越人類。當然有人說電腦程式怎麼進化也寫不出一首優美的詩,機器無法理解人類的喜怒哀樂。這是當然的,但是計算機技術悄然地改變著人類的生活,並在某些方面超越我們,但最終它們還是要為我們所用。
至於計算機會對圍棋界產生什麼樣的影響?看看現在西洋棋界就知道了,有的棋手用電腦來學習和訓練,而有的則用它來作弊。2010 年,法國大師 Sebastien Feller 在比賽中接收電腦提示而被 FIFE(西洋棋聯合會)判決提前回老家。當然,現在主流的做法是棋手們使用「象棋程序」來輔助訓練,經過電腦的計算可以排除大部分沒有意義的分支,棋手們現在一天可以研究的棋局可能超過過去幾十年甚至幾百年的總和。有車不坐為啥非要走路呢?我猜想未來棋類運動將會朝幾個方面發展:要麼完全去電腦化回歸人類運動的本質,就像火箭都上天了奧運會還有跑步一樣;要麼像西洋棋那樣讓電腦來協助比賽;即使最終被「窮盡」了,回到「琴棋書畫」這類藝術活動的範疇也不無不可。
AlphaGo 的意義根本不在於下棋,而是計算機所進化出的超強學習能力。算法的進化可以大量節約 CPU 的計算能力,就像圍棋這樣如果真的要 「窮盡」可能要用到全宇宙的原子才行,而現在只需要幾千萬盤對局就幾乎破解了這個遊戲。同理像 Siri 這種語音助手,想要窮盡人類所有的詞語表達也幾乎是不可能的,但讓計算機從有限數量的語言庫中學習人類是怎麼說話的已經變為可能。
另一方面,計算機的算法依然是大數據+邏輯計算,離人類的抽象思維、自我意識什麼的還很遠。它們所扮演的角色依然是作為人類更加便捷的工具,有時候讓人變得更「懶」,有時候讓人變成「超人」。歸根結底計算機是人類發明的,如果人類輸掉了這場比賽我們應該歡欣鼓舞,因為人類又一次戰勝了自己。當然,如果未來人類沒有利用好這個工具,並像科幻電影描述的那樣成為一種威脅,要怪也只能怪我們自己。
Geek's view
多說兩句。之前柯潔質疑說李世石籤了保密協議迴避打劫,我只想說呵呵。田淵棟博士在知乎上詳細分析了阿爾法狗的原理,除了上面說到的兩個系統之外,阿爾法狗還有一套快速走子程序,就是前面提到的可以 2 微秒走一步棋。打劫前後無非幾十步,加上所有可能性至多無非百千步走法,阿爾法狗不到一秒都計算好了。而且這個是運行在本地的,不需要通過網絡搜索,來中國戰都毫無壓力。