本文由騰訊數碼獨家發布
從醫學進步到電影推薦,我們才剛剛開始觸及人工智慧用途的皮毛。儘管人工智慧是幫助人類生活得更美好的潛在寶庫,但即使是具有最偉大思想的人,也對它可能帶來的危害感到恐懼。人們對人工智慧的擔憂包括:機器人將奪走我們的工作,顛覆人類,奴役人類不一而足。在某些方面,人工智慧已經戰勝了人類,其中包括我們最喜歡的一些遊戲,例如圍棋和《星際爭霸II》(StarCraft II)。機器開始超過人類,坦率地說,這是一件好事。
最著名的人-機大戰發生在1997年5月,當時,IBM的深藍西洋棋計算機在常規比賽規則下擊敗了西洋棋世界冠軍加裡?卡斯帕羅夫(Garry Kasparov)。一年前,早期版本的深藍在與卡斯帕羅夫的比賽中曾勝過數局,但是,贏得一場完整的比賽是計算技術發展的一個分水嶺——一名頗具傳奇色彩的西洋棋選手的智商遭到一行行代碼的碾壓。阿蘭?圖靈(Alan Turing)曾指出,考慮到複雜性和涉及的策略,下西洋棋的能力將成為衡量計算機智能的標準。事實上,在深藍大獲成功之前的50年,圖靈自己編寫了一個原始的西洋棋算法。似乎在世紀之交,計算機比我們對西洋棋有了更深的了解。
深藍1997年戰勝卡斯帕羅夫之所以引人注目,原因不僅僅在於這樣的結果,還在於隨之而來的爭議。卡斯帕羅夫聲稱,他見識了深藍棋招的「足智多謀」,這使得他得出一個結論:有人在為「深藍」支招。IBM否認了這一說法,但拒絕重新比賽,並拒絕向卡斯帕羅夫提供深藍的日誌文件,這些日誌文件將揭示深藍的內部運作過程。數年後,在深藍「退役」前,IBM將它與卡斯帕羅夫比賽時的日誌文件發布到了網上。
卡斯帕羅夫被深藍擊敗被主流媒體廣泛報導,但這遠不是電腦程式第一次與水平最高的棋類選手過招。在1979年夏天,西洋雙陸棋軟體BKG 9.8在一場由八局比賽組成的賽事中擊敗了世界冠軍路易吉?維拉(Luigi Villa),比分是七勝一負。BKG 9.8開發者漢斯?伯利納(Hans Berliner)認為, BKG 9.8的勝利與擲骰子中的運氣有很大關係。一年後的1980年,一臺名為摩爾的奧賽羅棋計算機,在與當時的世界冠軍井上博(Hiroshi Inoue)的六局比賽中贏了一局。
Chinook是一款跳棋軟體,最初是阿爾伯塔大學在1989年開發出來的。在20世紀90年代早期的數場比賽中,它的對手都是被認為是有史以來最好的跳棋選手馬裡恩?廷斯利(Marion Tinsley)。雖然Chinook從未在一場比賽中擊敗過廷斯利,但它贏得了兩局比賽。在廷斯利近50年的職業生涯中,他一共輸掉了七局比賽。開發Chinook的工作一直持續到2007年,當時這一算法有效地「解決」了跳棋。阿爾伯塔大學隊利用Chinook證明,如果雙方的表現均相當完美,唯一可能的結果就是平局。
雖然這些奇聞軼事代表著計算領域引人注目的重大事件,它們擊敗或至少能與當時最出色的選手對壘,但這並不意味著它們具有「智能」。相反,它們是「蠻力」計算的範例:使用原始處理能力來計算未來所有可能的走法,並從中選擇最有可能取勝的走法。沒有人為幹預,計算機棋手的棋力也不會得到提升。例如,在深藍和卡斯帕羅夫之間的標誌性大戰中,IBM工程師被允許在兩局比賽之間調整算法,以實現其性能的最大化。
自那場令人難忘的西洋棋比賽後近20年,歷史重演了——不過是一種完全不同於深藍的計算機,在一種更複雜的棋類遊戲中對戰頂級的人類高手。
長期以來人們一直認為,即使是處理能力最強大的計算機,面對圍棋也束手無策。不同於許多其他棋類遊戲的是,有數千年歷史的圍棋通常不存在一步最好的棋。隨著棋盤上的棋子越來越多,走法也會不斷變化,策略也必須不斷變化。簡而言之,圍棋不是一個計算能力能夠解決的數學問題,想像力才是關鍵。
由谷歌旗下DeepMind開發的圍棋人工智慧算法AlphaGo,在2015年末戰勝歐洲圍棋冠軍樊輝(Fan Hui),在2016年戰勝世界冠軍韓國的李世石(Lee Sedol),是計算技術發展的另一個決定性時刻。AlphaGo不僅令人信服地贏得了這兩場比賽,而且在比賽中表現出的創造力,即使是經驗最豐富的圍棋大師也感到驚訝。AlphaGo的一些走法,對人類下圍棋也產生了深遠影響。
這一點尤其重要,因為它使人工智慧超越蠻力計算的理念更容易理解。雖然研究論文可能幾乎無法被外行所理解,但在比賽中使用完全非常規的走法是一個明晰的信號,AlphaGo下圍棋的水平已經超過人類。實際上,AlphaGo最初是利用存儲的圍棋比賽的大量數據進行訓練的,它通過訓練獲得了預測能力——根據當前棋盤的情況預測可能的下一步走法。
AlphaGo剩下來的工作,就是通過與自己比賽,積累更多的數據。事實上,經過數十萬局的比賽,AlphaGo的棋力不斷得到提升。超過任何人類棋手的比賽數量,使得AlphaG獲得了豐富的比賽經驗。
隨後的AlphaGo版本的重點,一直是提高系統運行效率,最大限度地減少人為指導,同時保持對頂級職業棋手的不敗記錄。 AlphaGo Zero是一個專門自我訓練的人工智慧系統,最初,基本的下棋規則是它唯一的參考點,經過40天的訓練後,它的棋力超越了之前的所有設計。在此基礎上,AlphaGo的後續系統AlphaZero在經過數小時的訓練後掌握了西洋棋、日本象棋和圍棋的下法,棋力能夠擊敗水平最高的計算機競爭對手(包括AlphaGo Zero在內)。
在開始著手開發有史以來最好的圍棋人工智慧系統之前,DeepMind開發了一種算法,可以自己學習玩雅達利2600遊戲。視頻遊戲已成為人工智慧研究中非常流行的工具,這是可以理解的,因為視頻遊戲提供的不是一個規則明確、沒有靈活性的棋類遊戲,而是一個複雜的虛擬環境和強化學習平臺。關於人工智慧玩電子遊戲,特別令人印象深刻的是,它們看到的屏幕與普通玩家一樣(而非通過讀代碼獲取遊戲狀態信息),並嘗試了解遊戲場景,找出玩遊戲的訣竅和通關條件。
觀察計算機玩計算機遊戲會帶來一些有趣、意想不到的結果。有關人工智慧發現計算機遊戲中隱藏的缺陷的軼事層出不窮。
人工智慧玩視頻遊戲的水平不斷提升,Unity Technologies甚至開發了一款專門用來測試強化學習極限的遊戲。Obstacle Tower 是一款3D解謎遊戲,具有程序生成的關卡,可以確保人工智慧系統不會被編程執行特定的一系列動作,而是必須理解謎題才能通關。目前,參與者可以使用前25個關卡,但在4月中旬,遊戲的所有100個關卡都將開放。這個遊戲難度非常高,每個級別的難度都會增加,人類玩家通常會在約第15個關卡認輸。
近年來,出現了一些著名的人工智慧遊戲玩家,例如麻省理工學院的《超級明星大亂鬥》武士和DeepMind的《雷神之錘III競技場》(Quake III Arena)奪旗專家,它們都是比真人更好的隊友。在人工智慧玩遊戲方面,也許迄今為止最大的成就是,今年早些時候,人工智慧在《星際爭霸II》(StarCraft II)中完勝職業玩家。
對於職業玩家來說,《星際爭霸II》可以說是最難打的視頻遊戲。它是一款快節奏的實時戰略遊戲,玩家必須獲取資源、管理基礎設施、控制多個單位、做出戰術決策,通常無法掌握即將遭遇的對手的完整信息。這款遊戲既複雜又「無情」,一個看似微不足道的錯誤,可能會使玩家陷入萬劫不復的險境中。
與AlphaGo最初的訓練方式一樣,AlphaStar通過觀察人類玩家來學習《星際爭霸II》的基礎知識。通過這種形式的監督學習,並通過模仿其觀看的玩家的能力,AlphaStar成為一個有實力的競爭對手。然後,DeepMind開發了一個系統,使AlphaStar的許多不同副本相互對抗。為避免重複,每個版本都略微進行了調整,以促使AlphaStar探索不同的遊戲策略。
DeepMind運行了兩周時間的這個系統,每個副本獲得了相當於玩200年遊戲的經驗。被認為遊戲能力最強的五個副本與兩名職業玩家過招,所有十場遊戲都以AlphaStar獲勝告終。人工智慧玩家確實有一個關鍵優勢:他們能看到完整的遊戲地圖,而職業玩家在任何時候都只能看到部分地圖。此外,在所有比賽中雙方都使用神族,這意味著,職業玩家不能使用遊戲的其他種族(是使遊戲整體更複雜的一個重要因素)。
為了使比賽具有一定程度的公平性,DeepMind訓練了另一個使用標準界面的AlphaStar版本,因此它也只能「看到」地圖的一小部分,並且必須移動相機。由於這一新增的障礙以及訓練時間僅為一周,在第一次比賽中被打敗的一名職業玩家,在一場現場直播的比賽中戰勝了AlphaStar。
《Dota 2》是另外一款複雜的戰略遊戲,最好的人工智慧系統尚不是職業玩家的對手。去年,在有史以來規模最大的《Dota 2》賽事中,兩個獨立的職業玩家團隊挑戰OpenAI Five——一個由五臺獨立機器組成的團隊,並獲得了勝利。在《Dota 2》中,玩家只控制一個具有數種活動能力的單位。它是一款不同於《星際爭霸II》的團隊遊戲,隊友之間的協調與個人遊戲技能同等重要,在團隊協作方面,似乎人類的表現仍然更出色。
在與職業玩家的比賽中,OpenAI Five的響應時間確實被人為限制為200毫秒。但與AlphaStar相似的是,與機器人團隊對戰的《Dota 2》職業玩家也會受到相當大的限制。《Dota 2》有超過100個角色可供玩家選擇,團隊的遊戲風格和勝利條件取決於團隊成員。能否獲得優勢通常始於選擇。在與OpenAI Five對戰的遊戲中,其他職業玩家只能從較少的角色中選擇自己的角色,以使遊戲更平衡。除此之外,還有一些先進的機制尚未被用於人工智慧玩家,職業玩家也被禁止使用這些機制。
人工智慧可能只需要短短數個月或數年時間,就可以完全掌握這些複雜的遊戲,並成為比頂級職業玩家更好的遊戲玩家。圍棋曾經是人工智慧的聖杯,現在,它又有了新的挑戰目標。能夠在視頻遊戲中擊敗人類的人工智慧可能似乎微不足道,然而,所有這些成就背後的研究將產生深遠的影響。
IBM的Watson超級計算機在綜藝節目Jeopardy中戰勝人類,不僅僅造就了出色的電視節目,它還演示了自然語言處理方面的進步——正是這一技術使亞馬遜語音助手Alexa能根據我們口述的指令完成相應動作。OpenAI在其《Dota 2》人工智慧玩家中使用的算法,正被用來使機器人的手更靈活,與人類手臂的動作更相似。觀看人工智慧在《俠盜獵車手5》中學習駕駛技術可能會相當有趣,但是,它或許會使自動駕駛汽車終有一天成為現實。AlphaZero可能會在今天的圍棋棋盤上學習不同模式,未來它可能在通過腦部成像診斷罕見病方面大顯身手。
就在數個星期前,OpenAI宣布開發了一款專門供人工智慧玩的簡單MMO(大型多人網遊)遊戲。它具有程序生成的地形,鼓勵爭奪資源的覓食系統和具有三類角色的基本對戰系統。這款遊戲的目標是創造一個具有短期和長期壓力、足夠複雜的世界,並觀察當生存是唯一的驅動因素時強化學習如何發揮作用。
目前,有成千上萬的人工智慧玩家在玩它們自己的《魔獸世界》(World of Warcraft)版本,但是,沒有人知道這項研究可能會催生什麼樣的實際應用。