AlphaGo Zero證明 機器無需幫助即可成為超人

2020-12-07 中文業界資訊站

《麻省理工科技評論》(MIT Technology Review)、《Slate》、Quartz、Gear of Biz等美國媒體今日發表文章稱,用不了多長時間,AlphaGo將不再是地球上最好的棋手。新式高超的人工智慧程序版本AlphaGo Zero已經出現,它堪稱怪物。它從零開始,面對的只是一張空白棋盤和遊戲規則。

它無師自通,僅僅通過自學使自己的遊戲技能得以提高。但是它從來都不僅僅關乎棋盤遊戲,未來將會在更多領域發揮作用。

以下為文章主要內容:

採用新的機器學習形式,升級版人工智慧AlphaGo Zero可以自學圍棋棋譜中的一招一式。

用不了多長時間,AlphaGo將不再是地球上最好的棋手。新式高超的人工智慧程序版本已經出現,它堪稱怪物:在一場白熱化對決中,AlphaGo Zero以100:0的不敗戰績絕殺「前輩」。

真正炫酷之處在於Alphabet Zero是如何做到這一點的。原來的AlphaGo需要與人類專家進行成千上萬次對弈,才能從中獲取數據,Alphabet Zero則截然不同。雖然它也是由Alphabet旗下的子公司DeepMind開發的,但它從零開始,面對的只是一張空白棋盤和遊戲規則。它無師自通,僅僅通過自學使自己的遊戲技能得以提高。

這種新程序代表著人類在建造真正智能化機器方面向前邁進了一步,因為即使在沒有大量訓練數據的情況下,機器也需要找出解決困難問題的方法。

「最引人注目的一點是,我們不再需要任何人工數據,」DeepMind聯合創始人兼執行長戴密斯·哈薩比斯(Demis Hassabis)說。哈薩比斯認為,建造Alphago Zero的技術已經足夠強大,可以應用在現實世界,例如藥物發現與材料科學等一些有必要繼續探索各種可能性的行業。Alphago Zero的相關研究成果發表在今天的《自然》雜誌上。

值得注意的是,在自學過程中,Alphago Zero發現了許多人類圍棋選手在過去幾千年中形成的訣竅和技術。「在幾天的時間裡,它重新找到了已知的最佳玩法,在最後一天,甚至在此之上發現了更好的東西,」哈薩比斯說。「看到這一切,感覺很酷。」

DeepMind公司總部位於倫敦,2014年被谷歌收購。該公司專注於利用遊戲、模擬和機器學習在人工智慧領域取得巨大進步;迄今為止,他們已經聘請了數百名AI研究人員共同追尋這一目標。哈薩比斯說,大約15人參與AlphaGo Zero的研發,耗費的計算資源估計達數百萬美元。

AlphaGo和AlphaGo Zero都採用一種被稱之為強化學習的機器學習方法及深層神經網絡系統。強化學習的靈感來源於動物可通過實驗和反饋進行學習,DeepMind已經使用這種技術,在簡單的雅達利遊戲有著超人的表現。

然而,掌握圍棋有著特別重要的意義,因為圍棋十分複雜,最好的棋手可以憑藉本能落子。換句話說,一盤好棋很難用代碼來解釋或寫出來。

圍棋中各種變數的數量,甚至超過了宇宙中原子的數量

毫無疑問,AlphaGo Zero在圍棋世界標誌著顛覆性進步,但是,它對世界其他領域有什麼潛在影響?麻省理工學院計算機科學和人工智慧實驗室(CSAIL)的研究生尼克·海因斯(Nick Hynes)認為,在一段時間內,它只是一種專門工具,不太可能對我們的日常生活造成衝擊。

「到目前為止,該算法只適用於採取簡單幾個步驟就能解決的問題,如果要將其運用於移動等連續控制問題,那就需要加以改進,」海因斯告訴Gizmodo。「而且,它要求你具備非常好的環境模型。在這種情況下,它差不多了解所有規則。這就像你擁有一個機器人,你可以準確地預測它的行動結果,但在不完美的現實系統中,它是不靈的。」

他說,好消息是目前有幾項人工智慧研究正在致力於解決上述兩個問題(例如機器學習、進化算法等),所以,它實際上只是個集成問題。海因斯說,「這裡的真正關鍵在於技術。」

「正如預期和期望的那樣,我們正在與獲得一堆人類標記數據並訓練一種模型來模仿它的經典模式漸行漸遠,」他說,「我們在這裡看到的是一個毫無人類偏見和預設的模型:它可以從它認為最優的東西中學習,可能比我們自己對這個概念的看法更加細緻入微。如同一種外星文明發明了自己的數學,允許它去做像時間旅行之類的事情,」對此他補充說,「儘管我們距離奇點還很遠,但我們肯定正在朝著那個方向前進。」

正如海因斯所承認的,這一最新突破並不意味著技術奇點(即在未來某個假定時間,超過人類的機器智能實現爆炸性增長)即將來臨,但它應該讓人們停下思想的腳步。一旦我們教一種系統學會遊戲規則或某一現實世界問題的強制規定,增強學習的力量將使其可以簡單地按下開始按鈕,讓系統做餘下工作。然後,它將找出在這項任務中取得成功的最佳方法,設計出超越人類能力、甚至可能是人類理解能力的解決方案和戰略。

DeepMind研究人員在其論文中所總結道:「我們的研究結果全面展示了即使在最具挑戰性的領域,純粹的強化學習方法也是完全可行的:不藉助人類的示範或指導,不用學習超越基本規則的知識,就可以培養出超人。」

而事實上,現在人類玩家已經無法在西洋棋、圍棋等遊戲中獨佔鰲頭,可以說,我們已經進入了超級智能的時代。這一最新突破是對未來的最細微暗示。

加拿大艾伯塔大學的馬丁·穆勒(Martin Mueller)教授曾對圍棋軟體做出重要貢獻,AlphaGo Zero的設計給他留下了深刻印象,認為它使強化學習更上層樓。他說:「這種架構比以前的版本更簡單,功能更強大。」

AlphaGo從來都不僅僅關乎棋盤遊戲。

AlphaGo Zero不是第一種可自主運行的算法——埃隆·馬斯克旗下的非營利機構OpenAI也採用了類似技術來訓練一種AI程序玩視頻遊戲——但它的能力表明,它是迄今為止最強大的技術實例之一。

「藥物發現、蛋白質、量子化學、材料設計——材料設計,想想看,也許在室溫下就可以製造出超導體,」哈薩比斯說,他指的是一種可完美導電的假想金屬。

DeepMind說不會公布代碼,因為它可能被用於其他意圖。哈薩比斯說,研究人員可以從《自然》雜誌上複製部分代碼。

該領域的其他人認為,這種方法簡單得令人吃驚,預示著該算法可適用於其他領域。OpenAI的AI研究科學家蒂姆·薩裡曼斯(Tim Salimans)在發給外媒的電子郵件中指出,簡單而常見的方法在AI研究中非常有價值,因為不需要付出更多努力就可以為其他問題帶來同樣的解決方法。

「我認為將其定性為『普遍適用於當今的技術優勢』是公平的,」薩裡曼斯說。「當然了,儘管它不足以直接應用於其他問題,但可以將其視為解決其他問題的第一步,這種看法不無道理。」

強化學習也顯示出人們有可能在許多其他環境(包括在一些手工編程不現實的地方)實現機器編程自動化。通過測試已證明,運用這項技術可以教會機器人抓取笨重物體,並可以對正在運行的硬體重新配置,以保存數據中心所需能量。然而,在許多實際情況下,可能沒有大量例子可供學習,這意味著機器必須自學成材,這正是AlphaGo Zero令人感興趣之處。

「不使用人工數據或人工專長,我們就可以真正突破人類知識的限制,」DeepMind公司首席研究員、倫敦大學學院教授大衛·西爾佛(David Silver)說,「它能運用基本原理自行創造知識。」

DeepMind已是人工智慧界的寵兒,而其最新成果一定會搶佔媒體頭條,並引發議論,促使人工智慧形式變得更強大。

儘管如此,人們還是有理由對這一成果持謹慎態度。華盛頓大學教授佩德羅·多明戈斯(Pedro Domingos)指出,與人類專家相比,這款程序仍然需要對弈上百萬次,才能真正掌握圍棋。這表明,在某種程度上,這款程序所使用的智能系統與人類存在根本不同。

「這是一個很好的例子,足以顯示近期人們在深入學習和強化學習方面的進步,但我不想過分解讀,認為機器可以不藉助人類知識而自我學習,」多明戈斯說。「如果AlphaGo在奪得冠軍前,練習次數與(韓國傳奇冠軍)李世石(Lee Sedol)大致一樣多,那才令人震撼呢!我們離那一步還遠著呢。」

事實上,西爾佛和哈薩比斯都承認,在機器掌握智能的過程中,如何通過更少的數據進行學習是至關重要的。這可能涉及開發新方法,讓機器將在一個領域學到的知識轉移到另一個領域,或者從觀察他人(包括人類和其他AI)中學習。

但是,儘管這項工作尚待完成,哈薩比斯希望在10年內,人工智慧可以在解決科學、醫藥或其他領域的重要問題中發揮重大作用。「我希望這些算法和未來的版本能夠成為我們向科學和醫學前沿推進的常規工作夥伴,」他說。「也許未來所有產品的設計和發現都離不開這些算法,它們將與聰明的人類一起工作。」

人們有很多理由為AI擔心,但DeepMind的AI並不能自主編程,毀滅人類。它們自主編程的目的是將一些無聊乏味的工作從開發人員的肩頭卸下來,讓後者以一種嶄新的視角來觀察問題和數據集。令人驚訝的是人工智慧在過去幾年發展神速,但從本周開始人們就可以清楚地看到,現在的進步將會更快。

相關焦點

  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了那款AlphaGo的訓練過程長達幾個月,用到多臺機器和48個TPU(神經網絡訓練所需的專業晶片)。
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • 柯潔首戰憾負機器!新版Alphago棋風更穩健
    alphago再過一萬年也不可能窮盡所有圍棋的定式。這次比賽其實不是人機大戰,而是人類使用電腦作為工具探索新的東西,就像哈勃望遠鏡讓人類發現新的領域一樣。人工智慧可以幫助專家以更快的速度解決問題。本次比賽的目的也不是alphago還是棋手贏,最終還是人類贏。祝柯潔好運。」來源:網易科技
  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    》,介紹了谷歌的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報導《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》。昨日,谷歌再發論文宣布了其在多語言機器翻譯上的突破:實現了 zero-shot 翻譯!昨天,谷歌在其官方博客上宣布其在谷歌翻譯(Google Translate)上再次取得重大進展。
  • 打敗李世石的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100
    人工智慧的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。去年,阿法狗(AlphaGo)代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上,進而自我訓練,實現超越。
  • 打敗李世乭的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100-虎嗅網
    人工智慧的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。去年,阿法狗(AlphaGo)代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上,進而自我訓練,實現超越。
  • 謎之Zero自戰17-序章:AlphaGo Zero自戰上演精彩粘接收後
    眾所周知,zero的自戰譜,分為20block與40block兩塊,而當40block神功大成後,即可穩勝之前人類無法撼動的Master。因此在40block20局自戰中的第17局按此推算,應當是水準頗高。
  • 微信團隊開源圍棋AI技術PhoenixGo,復現AlphaGo Zero論文
    據介紹,該項目由幾名工程師在開發機器翻譯引擎之餘,基於 AlphaGo Zero 論文實現,做了若干提高訓練效率的創新,並利用微信伺服器的閒時計算資源進行自我對弈,緩解了 Zero 版本對海量資源的苛刻需求。4 月底,在 2018 世界人工智慧圍棋大賽上,PhoenixGo 取得冠軍。
  • AlphaGo Zero橫空出世,從零學習造恐怖記錄【附83盤棋譜】
    3小時,zero在亂下。  10小時,發現簡單定式。  16小時,發現小雪崩定式。  19小時,發現死活、厚勢與實地的邏輯。  24小時,發現小目一間高掛定式。  36小時,也就是超越李世石版的時候,發現星位一間夾點角定式。  55小時,發現非人類定式。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    與阿爾法狗不同,阿爾法元不再學習人類棋譜,而是在掌握基本規則後,通過左右互博,僅僅40天時間,即成為碾壓Master的人工智慧。美國的兩位棋手在《自然》雜誌對阿爾法元的棋局做了點評:它的開局和收關與職業棋手的下法並無區別,這說明,人類在圍棋上幾千年的智慧結晶,看起來並非全錯,阿爾法元的中盤看起來則非常詭異,著法比阿爾法狗左右互搏時使出的怪招更加不可思議。
  • ResNet成為AlphaGo Zero核心技術,孫劍詳解Zero的偉大與局限
    AlphaGo Zero的偉大與局限:兩大核心要素實現極簡算法,「無師自通」短期無法成為AI主流「AlphaGo Zero的搜索過程簡化了很多,例如把以前系統中的兩個網絡合併成一個網絡,將深度殘差網絡的輸入做最簡化。」
  • fate zero:韋伯為什麼會心甘情願成為大帝的臣子
    在fate zero中,大帝與韋伯這對組合可以說是整部番中最靚麗的一對,既有實力在聖杯大戰中大放異彩,他們之間的感情更是令人動容,超越了他們作為御主與從者這層關係的感情,亦師亦友,那問題來了,聖杯大戰總共就幾天,為何韋伯會與大帝產生了如此深厚的感情呢?
  • zero 絕藝解說alphago - CSDN
    李昕教授對阿爾法元帶來的突破表示欣喜,但同時他也提到,「阿爾法元證明的只是在下圍棋這個遊戲中,無監督學習(unsupervised learning)比有監督學習(supervised learning)『更優』,但並未證明這就是『最優』方法,也許兩者結合的semi-supervised learning,也就是在不同時間和階段,結合有監督或無監督學習各自的優點,可以得到更優的結果
  • 再進化版本AlphaGo Zero以100:0完勝
    不可否認,當戰勝這個星球上最強大的圍棋棋士時,實際上它就已經成為了真正意義上的「全場最佳」,而正當我們興奮地想要看看它究竟能夠制霸多久時,今早卻突然傳來「噩耗」,AlphaGo敗了,並且敗的是如此的慘!阿爾法狗被碾壓!再進化版本AlphaGo Zero以100:0完勝「零號機」的又一次勝利!
  • 時光策劃:他們都差點成為來自氪星的「超人」
    這個版本的第一稿,已經進入了多個前期製作的階段,項目定名為《超人:飛越》(Superman: Flyby),展現了很多與多年後重啟版《星際迷航》系列相似的元素,正是這些元素使後者成為了票房贏家(儘管口碑兩極分化)。
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」因此,人工智慧研究的一個長期目標就是跳過這一步,創造能在最有挑戰性的領域,不用人類輸入就達到超人水平的算法。我們發表在《自然》期刊上的最新論文,展示了實現該目標的關鍵一步。論文介紹了首個戰勝人類圍棋冠軍的電腦程式AlphaGo的最新進化版本:AlphaGo Zero。AlphaGo Zero更為強大,可以一爭史上最強圍棋手。
  • AlphaGo Zero你也來造一隻,PyTorch實現五臟俱全| 附代碼
    而且,它不需要用人類知識來餵養,成為頂尖棋手全靠自學。如果能培育這樣一隻AI,即便自己不會下棋,也可以很驕傲吧。pending_player2122            example = {23                'state': state,24                'winner': winner,25                'move' : move26            }27            optimizer.zero_grad
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)https://alphagoteach.deepmind.com
  • 回到未來:科幻小說改變了3D顯示器的新原型,無需3D眼鏡即可使用
    現在,研究人員正在展示一種無需3D眼鏡即可工作的3-D顯示器原型。1989年上映的電影《這樣的顯示將很快成為可能。TU Wien和TriLite Technologies展示了一種顯示元件,該元件使用特殊的微光學器件和移動微鏡將不同的圖像投影到不同的方向。這項技術可用於創建3D顯示器,而無需3D眼鏡。
  • AlphaGo Zero!量化投資的未來?
    值得注意的是,AlphaZero的設計理念和系統配置則完全和Lee/Master不同,它不依託於人類的先驗成果,完全靠自我對弈學習下棋,這使得AlphaGoZero也比前幾代系統更加節能,AlphaGoLee需要使用幾臺機器和 48 個谷歌TPU機器學習加速晶片。其上一代AlphaGoFan則要用到 176 個GPU晶片。