重磅 李世石扳回一局!如何藉助棋類遊戲擴展人工智慧極限?

2021-02-22 機器之心

多年之後,當李世石寫起自己的回憶錄時,他一定不會忘記那年春天的七個日夜,那或許是他一生中最難過(忘)的一周。從賽前的「信心滿滿」到第一天的「驚訝」;從第二天的「無話可說」再到第三天的絕望。但最應該讓李世石及我們銘記的卻是此次挑戰賽勝敗已定的第四天——李世石在連輸 AlphaGo 3局後,在第4局憑藉自己的絕妙應對和頑強抵抗上演了一場驚天逆轉,當幾乎所有人都對人類戰勝 AlphaGo 失去信心時,卻依靠人類棋手的強大潛能扳回了一局。

比賽一開始李世石就被 AlphaGo 強勢壓制,每一步棋考慮的時間都很長, 當李世石的常規時間還剩6分鐘時,場面處於極大劣勢,而此時 AlphaGo 的常規時間還剩1小時14分鐘,甚至古力當時都表示「比賽會在幾分鐘內分出勝負」。之後風雲突變,李世石在78手弈出治孤妙手,局部出棋!致使 AlphaGo 連出多次昏招。而已經進入讀秒階段的李世石則好像完全卸下了連輸三局的壓力,異常冷靜沉著的應對棋局,不斷積累自己的優勢。古力九段表示「如果是自己,現在 AlphaGo 的獲勝機會只有10%了。但目前李世石時間太少,容易使棋手出現失誤。」之後,李世石的表現近乎完美,非常穩定的將優勢保持到最後,並首次讓 AlphaGo 主動認輸,將總比分扳成1:3。

樊麾在接受機器之心專訪時所言:「它(AlphaGo )就像一堵牆」在「這堵牆」面前,或許我們不應該再去糾結人類是否能夠在圍棋(或者棋類遊戲)上打敗機器。就像DeepMind AlphaGo項目負責人 David Silver 在第二局比賽開始前所說,我們想通過與頂級選手的比賽來觀察AlphaGo是否有自己的比賽風格,是否能出現一些富有「創造力」的東西,這是我們選擇與李世石對戰的所有原因,我們需要真正能夠推動AlphaGo繼續向前進步的人,嘗試不同的東西去挑戰AlphaGo的極限,讓我們可以看到AlphaGo如何應對一些新的情況,我們創造了它,但我們現在也只有靜靜地站在旁邊,像其他人一樣看著它的表現。

今天的AlphaGo位我們帶來了一種新的表現,不會因為它敗給李世石而使人工智慧技術受到質疑,就像李世石在前三局輸給它之後而使圍棋受到質疑一樣。這本來就是一次人工智慧技術的偉大試驗,而縱觀人工智慧發展的歷史,出現了許多這樣的測試。所以,在AlphaGo與李世石的對戰背後,有一個更深層次的問題值得我們思考:為什麼棋類遊戲對於人工智慧如此重要?

人工智慧與棋牌遊戲的歷史

如果追溯歷史,人工智慧與遊戲的歷史淵遠可以追溯到18世紀晚期,奧地利的沃爾夫岡·馮·肯佩倫製造了一個可以下棋的「機器」,在84年的「職業生涯」裡,這臺機器幾乎擊敗了所有的人類挑戰者,甚至包括大名鼎鼎的拿破崙·波拿巴和班傑明·富蘭克林。但這終究只是一場騙局,這臺機器裡藏有一個象棋高手,整個機器也以複雜的構造誤導觀眾,從而能保證藏在機器裡的人不被發現。


土耳其行棋傀儡的版畫,來自1784年卡爾·戈特利布·馮·溫迪施的作品《無生命的原因》

現代意義上的人工智慧與棋類遊戲的曖昧情節始於1956年,是的,就是包括約翰·麥卡錫、馬文·明斯基等人創造出「人工智慧」一詞的那一年。Arthur Samuel 創造了一種西洋跳棋的應用程式,並使用強化學習來訓練這個程序。1962年的時候,Arthur Samuel 的這個西洋跳棋程序打敗了當時全美最強的業餘選手 Robert Nealey。

西洋跳棋是一種兩人棋盤遊戲。玩家的棋子都是沿斜角走的。棋子可跳過敵方的棋子並吃掉它。它的歷史比囯際象棋長久,始祖為中東跳棋。西洋跳棋的玩法有很多。最流行的遊戲形式是被稱為國際跳棋的波蘭跳棋,其次為英國跳棋。

不過,機器就贏了一場,其他幾次對決中,機器完敗。儘管如此,一場比賽的勝利還是讓當時方興未艾的人工智慧研究著實興奮了一把,畢竟,這是機器第一次戰勝了人類。


Arthur Samuel 在IBM 701計算機上展示它的西洋跳棋

隨著西洋跳棋程序的不斷進化,上世紀80年代晚期時候,機器已經可以打敗頂尖的人類選手。西洋跳棋領域最後一場人機大戰發生在1996年,一個名叫「Chinook」的程序完勝人類選手。2007年,Chinook的開發者們在《科學》雜誌發明論文稱:Chinook已經解決了西洋跳棋領域的所有難題,Chinook可以打敗任何一個對手——不論這個對手是機器還是人類。一個值得玩味的事實是,就在Chinook開發者們宣傳Chinook 不會失敗的前幾天,或許是人類歷史上最偉大的西洋跳棋選手Marion Tinsley 去世。這留個世人諸多疑問:Marion Tinsley 會成為Chinook 剋星嗎?或者這是人類時代結束而機器時代開始的前兆嗎?

與西洋跳棋程序同時進化的還有十五子棋(又叫西洋雙陸棋,它是一種古老的棋盤遊戲,在棋盤或桌子上,靠擲兩枚骰子決定走棋的步數,比賽的目的是要使自己的棋子先到達終點。這種棋戲把運氣和技術結合在一起,通常兩者對取勝都不可缺少。此類棋戲從20世紀後期開始風靡於世。)


十五子棋

1979年,Hans Berliner 開發的 BKG 9.8 應用程式以7:1 的大比分打敗了當時十五子棋的人類冠軍 Luigi Villa。儘管 Berliner 和 Villa 都認為機器的勝利存在某種僥倖,但當時的電視轉播評論員仍然抑制不住震撼「我不希望機器人來到新聞廣播行業。」這可謂是又一個機器戰勝人類的重要時刻。 BKG 9.8 之後,包括 TD-Gammon 以及隨後的應用程式都要比人類玩得更好。

值得一提的是,「投身」十五子棋的 TD-Gammon 與如今無情「碾壓」李世石的 alphaGo 在技術層面很相似,他們都採用神經網絡模型,並運用了強化學習的方法(當然,AlphaGo 還有其他技術的融合),60年前的 Samuel 也用這種方法訓練自己的西洋跳棋應用。強化學習可以讓這些遊戲程序學到超越人類教練水平的技巧或知識,比如遊戲程序可以「自己向自己學習」。客觀意義上,十五子棋的愛好者們完全可以向TD-Gammon 學習相關知識,將其作為自己的教練。

接下來就是西洋棋。在Arthur Samuel 打造他的西洋跳棋程序之前,克勞德·香農(資訊理論的開山鼻祖、同時也是「人工智慧」一詞的提出者)在1950年認為,西洋棋對人工智慧研究來說是一項令人興奮的挑戰。「這個問題的解決方案將迫使我們承認機器是否能夠思考的可能性,以及重新定義所謂思考的概念」。

但香農的預言顯然是錯了,在1997年IBM 的深藍打敗卡斯帕洛夫之後,人類並沒有遇到上述難題的困擾。於是,在幾乎所有棋類遊戲被機器徵服之後,唯一剩下的就是起源於中國的圍棋。一方面,當西方的機器打敗所有西方的棋類遊戲後,站在東方人的舞臺,向象徵東方人最高思維難度的圍棋宣戰,這裡有太多隱喻。另一方面,人工智慧研究者們孜孜不倦的挑戰各種棋類運動,也正是因為這些棋類提供了一種可衡量和可比較的標準。

為什麼是圍棋?

所謂可衡量的標準,部分原因就在於我們還無法理解「智能」一詞。這也的確是一件頗為諷刺的事情,當人類還不清楚自身的「智能」時,卻為了機器智能而奔波忙碌。

美國心理學家 Louis Lean Thurstone 在1920年代的研究中發現,一些受訪者在回答問題時更傾向於回答一些相對意義或者比較意義的問題,比如類似這樣的問題「你更喜歡誰的畫,Kandinsky 還是 Rothko?」就比單純回答「你對Kandinsky 畫喜歡多少?」要容易簡單的多。這套理論被稱為「比較性判斷準則(Law of Comparative Judgement)」。通過讓人們每次比較多個對象中的兩個,而最終可以計算出每個對象的測量分數(定距尺度)。其運用範圍非常廣泛,也被應用到機器學習領域。


 Thurstone 的理論展示

按照Thurstone 的理論,棋類遊戲就成為測量人類與機器的一種工具。如果說棋類遊戲代表了智慧與智能,那麼比賽的結果就能展現出人類與機器在這個領域的強弱。而在西洋棋領域,ELO排名體系是棋手最看重的排名。這個排名的最大重點,在於強手打敗弱手時,賺不了多少積分;反之就能賺比平常多的積分。每位參賽者都有一個實力值,實力值越高則排位越前。某種意義上說,排名也就是勝負關係的預測。

ELO排名體系不僅僅適用與人類選手,在深藍打敗卡斯帕洛夫之後,多個西洋棋電腦程式在ELO排名體系上超過3300分。這個分數意味著這些電腦程式幾乎可以打敗任何一個人類選手。計算機科學家、西洋棋大師Ken Regan 的研究發現,如今的西洋棋已經進入到一個穩定期:機器之間的比賽分不出勝負,而人類在機器面前毫無勝算。

當西洋棋最終被機器徵服之後,還有哪些衡量標準呢?

人工智慧研究者也沒有放棄對撲克的研究。相對於西洋棋和圍棋,撲克沒有所謂的完美信息:玩家們無法獲取已發生事件的全部信息,諸如對手的底牌。比如雖然德州撲克的缺失信息比西洋跳棋少,但是這種不完美信息的特質計算機挑戰德州撲克的難度頗大。

再來看個可能的測量標準,RoboCup。這是是一種完全機器人參與足球比賽,是當前國際上級別最高、規模最大、影響最廣泛的機器人賽事。那麼問題就來了,有沒有可能將人類選手放在這些比賽裡?或者再腦動一下,有沒有可能將無人駕駛汽車(特別說明的是,納斯卡的無人駕駛和谷歌、特斯拉的無人駕駛並不一樣)放到納斯卡或F1比賽中?

對於任何一個遊戲來說,其規則的複雜性往往成為計算機能否快速並最終戰勝人類的重要原因。Bill Robertie,三項棋牌遊戲(西洋棋,撲克,西洋雙陸)比賽的世界級專家曾做過一個統計,如下圖所示,相較於西洋棋和西洋跳棋,圍棋的難度要遠遠這些棋牌遊戲,也正是如此,公眾(準確地說是東亞三國的公眾)如此震撼於Alpha Go對李世石的「碾壓」。


如前文所言,人工智慧研究者使用棋類遊戲作為智能的衡量標準,以此推進自身研究的發展。Alpha Go 締造者、DeepMind 創始人 Hassabis 也強調,他要將 Alpha Go 延伸到更廣泛的領域,由於 DeepMind 採用通用了的AI技術來研發AlphaGo,理論上其關鍵算法的確能夠較快應用與其他領域。

當Alpha Go 一次次讓人類代表李世石面露無奈的表情時,作為人類的我們當然需要為李世石的失敗感到難過,但同樣,但正如樊麾在接受機器之心專訪時所言,Alpha Go或許發現了一種新的圍棋的美,是我們想像不到。因此從某種意義上說,這不是誰的失敗,而是整個人類的勝利,我們通過機器看到人性的光芒,利用機器推動人類智慧的進步,相比於一個五番旗的圍棋比賽,在另一個更大的棋盤上,人類與機器還在繼續「模仿」與「被模仿」的比賽。

©本文由機器之心原創,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者/實習生):hr@almosthuman.cn

投稿或尋求報導:editor@almosthuman.cn

廣告&商務合作:bd@almosthuman.cn

機器之心是Comet Labs旗下的前沿科技媒體。Comet Labs是由聯想之星發起、獨立運作的全球人工智慧和智能機器加速投資平臺,攜手全球領先的產業公司和投資機構,幫助創業者解決產業對接、用戶拓展、全球市場、技術整合、資金等關鍵問題。旗下業務還包括:Comet舊金山加速器、Comet北京加速器、Comet垂直行業加速器。

↓↓↓點擊「閱讀原文」查看機器之心網站,獲取更多精彩內容

相關焦點

  • 李世石:阿爾法狗完美!我僥倖贏一局 人類棋神是他
    李世石自然談到了AlphaGo,在李世石看來,能贏AlphaGo一局有運氣成分,而說到人類棋手,李世石稱讚前輩李昌鎬是圍棋之神,自己無法完成超越。2016年李世石與人工智慧AlphaGo進行圍棋人機大戰,以總比分1-4落敗,儘管不敵阿法狗,但李世石是到目前為止對陣AlphaGo唯一拿到一局勝利的棋手。
  • 李世石首賽認輸,谷歌AlphaGo成就人工智慧「登月事件」
    繼1997年IBM超級計算機「深藍」擊敗西洋棋世界冠軍卡斯帕羅夫以後,人工智慧又向人類博弈遊戲的最後堡壘圍棋發起了挑戰。同在解說現場的搜狗CEO王小川則表示,在足夠複雜的局面下,機器的極限高於人。77手,李世石首次離席。一般對手會等對手回來才落子,但電腦沒有這樣的「覺悟」,馬上就落子了= =。AlphaGo出現失常開賽1小時40分鐘左右,AlphaGo出現失誤,但隨即在86手時使出了兇險招數。
  • 李世石AlphaGo人機大戰結束:阿爾法狗晉升圍棋九段
    李世石AlphaGo人機大戰結束:阿爾法狗晉升圍棋九段。李世石與谷歌阿爾法狗的人機大戰終於落下帷幕,當然,人工智慧不出意外地再一次戰勝了人類。昨天AlphaGo獲得最後一場比賽的勝利,最終人機大戰總比分定格在1:4。這個結局仿佛自深藍1997年戰勝人類之後,就早已註定一般。
  • 「專欄」AlphaGo贏了李世石,人工智慧就此崛起了麼?
    文 ▍Jason在昨日Google的Alpha Go和李世石的比賽中,耗時4小時擊敗了這位當今最強人類棋手。在跟李世石的首局比賽中獲勝,是人工智慧發展史上有一個裡程碑。也有人猜測,首局比賽中李世石為了避免下出AlphaGo曾經學過的棋路,特意採取了一種比較冒險的下法,導致最終的失利。作為一個人類棋手,李世石的決策還受到了心理因素的影響,而不像冷酷無情的AlphaGo,自始至終的每一輪的計算都是那麼的理性和縝密。接下來李世石會以什麼樣的策略繼續迎戰AlphaGo,我們拭目以待。
  • 圍棋電腦1:0李世石(附人工智慧概念股)
    是1997年IBM深藍計算機在西洋棋上戰勝人類之後,人工智慧追趕人類的又一重大裡程碑。AlphaGo機器人除了戰勝過圍棋大師之外,也曾戰勝過同類型的圍棋軟體。兩款比較知名,並且也都戰勝過圍棋選手的軟體Crazy Stone和Zen在和AlphaGo 500局比賽中,AlphaGo僅輸一局。AlphaGo怎麼會這麼厲害?主要原因有兩個。
  • 【重磅】AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時完爆人類棋類遊戲
    推出最強圍棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他們自己,也刷新了世人對人工智慧的認知。12月5日,包括David Silver、Demis Hassabis等人在內的DeepMind團隊發表論文,提出通用棋類AI AlphaZero,從零開始訓練,除了基本規則沒有任何其他知識,4小時擊敗最強西洋棋AI、2小時擊敗最強將棋AI,8小時擊敗李世石版AlphaGo,連最強圍棋AI AlphaGo Zero也不能倖免:訓練34小時的AlphaZero勝過了訓練72小時的AlphaGo
  • 人工智慧AlphaGo首局贏了圍棋冠軍李世石,對於他們你了解多少?
    北京時間3月9日下午消息,今天下午谷歌人工智慧AlphaGo與韓國棋手李世石的第一場比賽結束,AlphaGo獲得今日比賽的勝利。雙方在較量3個半小時後,李世石宣布認輸。今日比賽結束後,雙方還將分別在3月10日(周四)、12日(周六)、13日(周日)、15日 (周二)的北京時間中午12點進行剩餘4場比賽。本次比賽用時每方2小時,1分鐘讀秒三次。比賽採用中國規則,黑貼3又3/4子(黑貼7目半)。
  • AlphaGo贏了柯潔,人工智慧就贏了人類?5月底,答案將揭曉……
    AlphaGo之後,國內不斷有新的人工智慧在棋類對決中碾壓人類。
  • 擊敗了李世石九段的圍棋人工智慧「AlphaGo」究竟是什麼?
    強化學習的靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。2014 年,已經被 Google 收購的 DeepMind,用五款雅達利 (Atari) 遊戲 Pong、打磚塊、太空侵略者、海底救人、Beam Rider 分別測試了自己開發的人工智慧的性能,結果發現:在兩三盤遊戲後,神經網絡的操控能力已經遠超世界上任何一位已知的遊戲高手。
  • 人機大戰回憶錄:李世石與Alphago驚天一戰!新時代的曙光
    (筆者算是半個棋圈人半個IT界人,當時是謹慎看好AlphaGo,倒不是因為李世石不在巔峰,而是谷歌這樣的大公司一旦決定出手的時候,至少要有八成以上的勝算了,否則就是自己打臉,如果輸了,公司的股價都有可能受到重大影響。AlphaGo肯定已經經過谷歌公司的無數次測驗,才會面世,李世石一人之力對抗整個谷歌公司...
  • 李世石「人機大戰」首盤落敗!附「人機大戰」觀棋指南
    賽前,大多數圍棋界人士都看好李世石能夠拿下比賽,他們的擔心只是在於在短短數月中,AlphaGo的自我學習能力可以達到多麼恐怖的層次。創新工場CEO、曾經研發過棋類對弈軟體的李開復也透露,按照李世石與AlphaGo的Elo(圍棋等級分),可以算出去年年底的AlphaGo打敗李世石的概率相當低。
  • 李世石首戰惜敗AlphaGo,現場棋局解析
    令人遺憾的是,李世石在首盤比賽中輸給了AlphaGo,他能否像之前宣傳的不受首盤影響,4:1扳回力挽狂瀾呢?讓我們拭目以待。現就首盤棋局作一介紹。北京時間3月9日中午12點整,李世石與AlphaGo的人機大戰在韓國首爾四季酒店拉開帷幕。
  • 為什麼柯潔一局都贏不了?
    寡不敵眾的世界冠軍早在 20 世紀 50 年代,計算機科學家就開始研究讓人工智慧與人類下棋了。棋盤遊戲是人類智力的博弈,如果能達到頂尖棋手的水平、甚至超過他們,便可證明人工智慧變得更聰明、更有靈活性。人類下棋,是經驗、理性與靈感的結合。
  • 人工智慧「笑傲江湖」:李世石的退與不退
    這之後的20多年間,人工智慧突飛猛進,不斷在人類自認為難以被超越的領域「碾壓」對手,先是號稱「算法無法被窮盡」的圍棋,接著是被稱為「終極挑戰」的「不完美信息博弈」的德州撲克。很多人相信,假以時日,人工智慧將在所有已知領域完勝人類。果真如此嗎?面對「來勢洶洶」的人工智慧,有人進,有人退。進者,邁進一個新世界;退者,又將留在一個怎樣的世界?
  • 圍棋愛好者們,3月「翻牆」去YouTube看AlphaGo挑戰李世石啊-虎嗅網
    人工智慧界將在今年三月迎來全球最大看點:谷歌的人工智慧系統AlphaGo將挑戰韓國職業棋手李世石。DeepMindDeepMind實驗室負責人德米斯·哈薩比斯(Demis Hassabis)於2月5日在Twitter上宣布了比賽的進一步消息。
  • AlphaZero 完爆前輩 AlphaGo,這個人工智慧新突破價值有多大?
    谷歌旗下人工智慧公司 DeepMind 發布了一篇新論文,它講述了團隊如何利用 AlphaGo 的機器學習系統,構建了新的項目 AlphaZero。AlphaZero 使用了名為「強化學習」(reinforcement learning)的 AI 技術,它只使用了基本規則,沒有人的經驗,從零開始訓練,橫掃了棋類遊戲 AI。
  • 柯潔等人連續擊敗李世石,才是他真正退役的原因!
    柯潔等人連續擊敗李世石,才是他真正退役的原因!2016年,李世石與Alpha go激戰五局,以1比4敗北,讓李世石有了退出職業圍棋比賽的想法,隨著中國棋手柯潔以及韓國棋手申真諝等年輕棋手的相繼崛起,特別是柯潔這幾年連續擊敗李世石,更讓李世石認為自己是圍棋天下第一人的地位岌岌可危,遂順水推舟,選擇退役。
  • 人工智慧統治圍棋?棋士一文不值?
    李世石的退出頗具戲劇性。然而,人類圍棋玩家輸給人工智慧並不是圍棋遊戲和人類玩家的世界末日。恰恰相反,我相信這可能意味著圍棋遊戲的一個全新的篇章,一個讓我們回到圍棋遊戲最初目的的機會被發明出來了。AlphaGo vs. 李世石
  • AlphaZero登上《科學》封面:一個算法通吃三大棋類
    12月7日,谷歌旗下的人工智慧實驗室DeepMind研究團隊在《科學》雜誌上發表封面論文,公布了通用算法AlphaZero和測試數據。《科學》雜誌評價稱,通過單一算法就能夠解決多個複雜問題,是創建通用的機器學習系統、解決實際問題的重要一步。
  • 如何評價AlphaGo戰勝了李世石?
    也都知道長遠來看,人工智慧的發展不僅對人類生活的方方面面都有積極意義,對圍棋本身也是利大於弊的。更知道人工智慧戰勝人類頂尖棋手,這一天早晚會來。可是當這個事實擺上桌面之後,大家感情上都還是有一絲失落的。從棋局來說,這是一盤精彩的對局,但算不上一盤高質量的對局。雙方都出現了不少的失誤,李世石的更致命一些。