DeepMind創始人自述:我們的算法可以橫掃一切棋類博弈

2021-01-16 雷鋒網

2016年1月28日,谷歌AI——Alphago戰勝人類圍棋冠軍的消息讓科技圈振奮,讓圍棋圈惶恐。Alphago的研發團隊是谷歌新近收購的英國人工智慧公司Deepmind,關於Deepmind,國內人工智慧圈人士都有所耳聞,但熟悉者恐怕不多。這究竟是一家什麼樣的公司?

Nature 雜誌的記者進入Deep Mind位於英國倫敦的公司內部進行了採訪,視頻來自Nature、後期由黑匣整理:

   

2011年,傑米斯•哈薩比斯在埃隆•馬斯克等人的投資下,成立了一家人工智慧初創公司DeepMind,現在,這家公司已經變成了世界上最有價值的公司之一。2014年6月,哈薩比斯和DeepMind的另兩位聯合創始人肖恩•列格、穆斯塔法•蘇萊曼達成一致意見,同意將DeepMind以4億美元的價格賣給谷歌。昨天,谷歌DeepMind推出的人工智慧算法打敗了人類圍棋選手,震驚世界。

谷歌為何收購?Deepmind牛逼在哪裡?來看看哈薩比斯在接受Backchannel採訪時的答案。

Backchannel:谷歌是一個人工智慧公司嗎?他們有什麼吸引你們的地方呢?

哈薩比斯:是的,人工智慧是谷歌的核心。一開始,我在思考谷歌的使命「組織全球信息,並讓其為所有人可用」。我的理解是,讓人們通過知識而變得有力量。這樣來理解人工智慧,你就會發現它是一個非常自然的東西。我們致力於研究強人工智慧(AGI),它可以自動將非結構化信息轉換成可以直接利用的知識。

Backchannel:拉裡•佩奇(谷歌聯合創始人)是影響你決定將DeepMind賣給谷歌的關鍵人物嗎?

哈薩比斯:是的,他非常重要。拉裡和別人不同,他對人工智慧是120分感興趣,認為人工智慧十分酷。現在很多大公司逐漸意識到人工智慧的力量,都企圖涉足這個領域並做出些什麼成果來,但我認為他們的熱情是絕對比不上谷歌的。

Backchannel:所以包括馬克•扎克伯格領導下的Facebook也是如此嗎?他可是認為AI不僅僅是一個工具,而是一種使命呢。

哈薩比斯:是的。這一切會隨著時間而變化。我也相信人工智慧是人類發展史上最重要的事情之一,但扎克伯格缺乏像拉裡那種刨根問底的勁兒,他在意的是別的事情——與人們溝通才是他的目標。當然,扎克伯格也對一些黑科技感興趣,比如Oculus。我也曾經做過電腦遊戲和圖形,但對於我來說,最重要的一直是人工智慧。

Backchannel:谷歌的基礎設施能為你們帶來多大的提高呢?

哈薩比斯:非常大!這也是我們選擇谷歌的另一重要原因。我們有大量的風險投資和支持者,但在計算機基礎建設和工程基礎設施方面,谷歌有著十年的經驗。現在,我們的研究內容大大增加,速度大大提升,因為我們可以並行100萬次實驗。

Backchannel:你所取得的巨大飛躍,不僅包括結構化資料庫的深入研究,還包括網際網路非結構化信息(如文檔和圖像)的研究和利用,是嗎?

哈薩比斯:是的。這將是未來幾年的發展趨勢。我認為發展人工智慧的唯一方法就充分利用這些非結構化信息,這樣的方法也稱為「無監督學習」,你只需要給它數據就好,它會自己學習,理解事物結構、目標,並採取行動。這就是我們想要研究的人工智慧。

Backchannel:谷歌的神經網絡先驅傑夫•辛頓是你的同事之一,他的研究對你的影響大嗎?

哈薩比斯:當然,十分重大。他在2006年的成就對整個領域有著革命性的影響,他引進了深度神經網絡這個概念,也就是深度學習。另一方面,我認為深度學習也十分重要。目前,DeepMind的大量研究成果都是建立在這兩個領域的基礎之上的。我們的雅達利遊戲機人工智慧算法,就是一個很好的例子。

Backchannel:你們的研究有什麼特別之處?

哈薩比斯:我們的公司叫做DeepMind,很顯然,我們專注於深度學習。但我們也對神經系統科學十分感興趣。

Backchannel:我們對自己的大腦越了解,越有助於我們建立機器智能?

哈薩比斯:是的。學習算法的有趣之處就在於它們是有等級之分的。我們賦予算法能力,讓它們可以從經驗中學習,就像人類一樣。但它們可以舉一反三,幫助我們解決很多人類無法解決的問題。當算法在雅達利遊戲程序中提出一個程式設計師不知道的新戰略時,我們都十分興奮。當然,要做到這些,你得先擁有一群足智多謀的程式設計師和研究人員,就像我們DeepMind一樣,構建可以學習的智能算法。

Backchannel:換句話說,我們需要大量人類智慧來構成這樣的系統,然後我們才可以……

哈薩比斯:才可以創造出解決複雜和高難度任務的系統,比如下棋。我們並沒有單獨的圍棋計劃,但我們將推出一個人工智慧算法,可以橫掃一切棋類博弈,這樣可以節省大量的編程時間。同時,我們對可以自動學習新領域的算法也十分感興趣。就像人類一樣,只要你看過別人下棋玩牌,就能對遊戲規則略知一二了。如果你接觸一個新的棋牌遊戲,你會憑著已有的經驗很快上手。

Backchannel:每個算法系統都會有它的限制性嗎?你認為怎樣的系統算法才可以學到一切東西?

哈薩比斯:這是一個普遍性的問題。我們的研究項目慢慢地擴大研究領域,我們的原型是人類大腦。我們可以繫鞋帶,我們會騎自行車,在物理運動世界中幾乎沒有什麼是人類搞不定的。所以,我們也相信這樣的系統算法是完全有可能的。

Backchannel:可以談談關於你剛從牛津大學收購的兩支團隊嗎?

哈薩比斯:牛津大學出來的可都是牛人啊。這兩個團隊中,一個團隊(前深藍實驗室)由菲爾•布魯瑟姆教授領帶,利用深度神經網絡來研究神經語言理解。我們利用的是深度神經和詞向量等工具,而不是過時的NLP邏輯技術。我們興趣相投所以就一起共事了,於是我們的系統中有了語言嵌入。另一個團隊則是南多•德•費爾塔斯教授領導的世界著名的計算機視覺團隊。

Backchannel:這些團隊研究最終會產生同一個研究成果?

哈薩比斯:是的,這些所有的研究會讓我們的成果更棒。

Backchannel:DeepMind團隊即將致力於谷歌哪些產品提升呢?

哈薩比斯:我們對於谷歌來說仍然是新成員,但我們的技術可以應用到谷歌產品的方方面面。我們將改善谷歌搜尋引擎,我們將向YouTube學習。我們正在想辦法讓Google Now像個人助理一樣更好地理解你的需求,這也許能用到自動駕駛汽車上。

Backchannel:那視頻搜索呢?

哈薩比斯:這是另一個重點。你想通過動作而不是輸入文字來完成搜索嗎?這就是目前視覺團隊在研究的方向,不僅僅是圖像識別,還有動作識別。

Backchannel:從長遠來看,你們打算為谷歌做些什麼呢?

哈薩比斯:說實話,我對強人工智慧的潛力十分重視,還有人工智慧協助科學。我們對所有的科學領域都充滿了期待,疾病、氣候、能源、經濟學,但這些領域都充滿了海量的信息和數據。人類科學家要分析這些數據並得出成果是難上加難,我說的不是一個科學家,也包括一群非常聰明的科學家小組。所以,我們需要人工智慧和機器學習來幫助我們,理解海量的信息和數據,在不同領域推陳出新。我希望以後谷歌的每項成果中都能看見我們的影子,包括Calico抗衰老項目和生命科學研究項目。

Backchannel:你對電影《她》怎麼看呢?

哈薩比斯:從美學上來說,我很欣賞這部電影。它在某些方面講述了人工智慧的積極效應,這部電影對於計算機感情等方面的展示十分有趣。但我認為又有些不現實,電影中這麼強大的人工智慧居然只困在一部手機中,做一些日常家務。但這是革命性的科學……至少來說,它應該呈現給我們一個非常不一樣的世界才對吧?

Backchannel:你們的實驗室中已經產生了眾多成果,但要讓它們走出實驗室、走向大眾,應該很難吧?

哈薩比斯:是的,但這是一個循序漸進的過程。一開始,我們發現問題,尋找解決方案,然後我們接觸了神經學科,然後我們發現機器學習可以把雅達利遊戲玩得十分溜。目前DeedMind的四分之三的團隊都在研究,只有四分之一的團隊成果得到應用(包括谷歌其他產品),但他們卻是聯繫研究內容的接口。

Backchannel:你曾經在遊戲領域叱吒風雲,但你離開了,是因為你想了解更多關於大腦的奧秘嗎?

哈薩比斯:是的。實際上,我的整個職業生涯,包括遊戲在內,都是我建立人工智慧公司的墊腳石。在我十幾歲的時候,我就認定人工智慧將是我這輩子最重要的目標。

Backchannel:當你登上遊戲領域的寶座,被稱作遊戲神童時,你甚至成立了自己的工作室,你只是覺得「OK,我該去研究下神經科學了」就轉行了嗎?

哈薩比斯:也不全是,不如說「看看我是如何打著遊戲的幌子如何推動人工智慧的發展的」更恰當。《黑與白》可以說是我的巔峰,之後又有了《主題公園》和共和國的戰績。大概在2004年至2005年的時候,我覺得這種和商業環境緊密結合的遊戲可以推動遊戲的發展,它們和普通的移動遊戲不一樣,我們可以和人工智慧一起打遊戲。

然後我就開始構思DeepMind,那時候是2004年。但是我很快意識到,我還沒有足夠的力量來組建這樣的一個團隊,當時的深度學習還沒有出現,計算機也不夠強大。然後我就開始思索,我該讀個什麼博士好呢?好像神經科學比人工智慧更實在,因為我想學習一套全新的思想套路,而且當時我也認識不少人工智慧世界級牛人了。

Backchannel:在你研究大腦的這些年,哪項收穫對你創立一家人工智慧公司幫助最大?

哈薩比斯:很多,絕對不止一項。一是增強學習,為什麼它如此重要呢?我們通過神經科學來研究新算法並驗證現有的算法。在90年代,彼得•達揚用猴子做了一個實驗,發現神經元是學習過程中致力於增強學習的關鍵。因此,將其用作人工智慧系統的元素並不是一個瘋狂的想法。

另一個是海馬體,我覺得它是大腦中最迷人的區域。深度學習本質上是在模仿大腦皮層的活動。但海馬體是大腦的一個關鍵部分,構造十分獨特,沒有了它,你就沒有了記憶。所以我對它的工作方式十分好奇。當你睡覺的時候,你的大腦算法會重播白天活動的記憶,也就是所謂的「日有所思,夜有所夢」。我們把這個功能用到雅達利算法上,通過重播遊戲軌跡,對它進行不斷的培訓,直到它在遊戲中戰無不勝。

Backchannel:你所說的大腦的算法,是嚴格的說法還是一種隱喻呢?

哈薩比斯:算是一種隱喻吧。雖然我們不會建造出一個人造海馬體,但它確實是一個具有細節的原型。有很多機器學習研究人員都忽略了人類大腦,這是不對的。人類大腦中有很多知識都是可以運用到算法中去的。

Backchannel:目前你在工作中遇到的最大問題是什麼呢?

哈薩比斯:最大的問題就是轉移學習。你已經掌握了一個領域的知識,你如何才能把這些知識運用到新領域去呢?這是一個關鍵問題。目前,我們擅長於處理可以感知的信息,然後產生相關行動。但若進入了下一個級別,在概念這個層面上,沒有人可以做到這一點。

Backchannel:谷歌收購DeepMind的協議中有一條是「公司設立人工智慧倫理委員會」,這是什麼東西呢?它的作用是?

哈薩比斯:這是一個獨立的顧問委員會。我認為人工智慧可以改變世界,這是一項神奇的技術。但所有的技術本質上都是中立的,它們可以被好人或壞人所利用,所以我們必須對它們的使用者負責。我和我的合伙人對此已經思考良久,谷歌吸引我的另一點也是因為他們對此表示贊同。

Backchannel:目前這個委員會做了些什麼呢?

哈薩比斯:目前還沒有,它只是剛剛成立,但它並不會約束我們。但委員會會監督DeepMind的研究成果不被用到軍事或情報上。

Backchannel:如果你把這項技術帶向世界,你認為一個委員會真的可以控制它嗎?

哈薩比斯:我認為它絕對可以影響受過教育的人們。他們正在不斷壯大,他們有時間去理解技術的細節。這個委員會裡還包括一些頂級的計算機、神經科學和機器學習方面的教授。

Backchannel:能告訴我們是誰嗎?

哈薩比斯:不行,這得保密。我們認為委員會十分重要,應該遠離公眾視線,特別是在現在的初始過度階段。目前還沒有出現什麼問題,但在未來的五年十年,就不能保證人工智慧只是被用來打打遊戲了。當然委員會的透明度也很重要,我們研究小組正在討論這些倫理問題,我們要確保科學的發展是可控的,有利於人類的可持續發展。

推薦閱讀:

1、Google 和 Facebook: 究竟是誰搞定了圍棋人工智慧?| 深度

2、Google人工智慧擊敗歐洲圍棋冠軍, AlphaGo 究竟是怎麼做到的?

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • DeepMind開腦洞用桌遊訓練AI,7人博弈模型勝率可達32.5%
    為了解決這個問題,DeepMind研究人員引入經典7人棋類桌遊《外交風雲(Diplomacy)》訓練AI模型,提升其協作能力。《外交風雲》是美國棋類遊戲設計大師Allan B.Calhamer於1959年設計的遊戲,屬於戰棋及談判類遊戲,遊戲過程中玩家需要進行高度的互動。
  • 陳經:Deepmind這次搞定西洋棋,只用了四個小時
    加上之前在圍棋上的進展,這其實等於是說,世界上所有知名棋類都可以用一個架構輕鬆碾壓過去的高手,不管是人還是程序。 這篇文章正在被審核,按Deepmind過去的風格有可能還是投到《自然》去。但這回Deepmind不保密了,直接在arxiv.org公布了全文。前兩篇圍棋AI的文章由於投出來之後有人機大戰,是需要保密。
  • DeepMind 星際爭霸AI登刊Nature!RTS遊戲已被AI攻克?
    DeepMind採用的是通用主流的機器學習技術,包括神經網絡,自我博弈,強化學習,多智能體,模仿學習。基於強化學習和自我博弈是研究當中最為重要的部分。長期研究證明,通過自我博弈的強化學習,可以使系統變得更加魯棒,並逐漸精通遊戲。當強化學習和自我博弈的方法相結合時,可以拓展各個不同的應用領域。
  • DeepMind破解蛋白質摺疊難題
    DeepMind破解蛋白質摺疊難題,Nature:這可能改變一切剛剛,一個困擾生物學家50年的難題,被AI解決了。去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構)的算法。
  • DeepMind全能AI:完全自學規則,攻破多款遊戲,表現碾壓人類!
    如果說AlphaGo的成功確立了AI的「圍棋霸權」,隨後的AlphaGo Zero和AlphaZero則進一步揭示了「棋類霸權」的可能性。作為AI算法,不論是AlphaGo還是其繼位者,都需要大量的訓練。
  • Deepnude算法「脫」衣服
    換臉視頻後AI又出偏門應用:用算法「脫掉」女性衣服據美國科技媒體Motherboard報導,一名程式設計師最近開發出一款名叫DeepNude的應用,只要給DeepNude一張女性照片,藉助神經網絡技術,軟體可以自動「脫掉」女性身上的衣服,顯示出LUO體照片。
  • 最強通用棋類AI,AlphaZero強化學習算法解讀
    不過,我們仍然希望考慮儘可能多的棋面,並確保我們的的確確選擇了最好的走法。MTCS和Minimax一樣,是一種可以幫助我們尋找可能棋面的算法。與Minimax不同的是,MTCS能夠幫助我們更加高效地搜尋博弈樹。
  • Deepnude AI算法
    據國外的評測機構Motherboard報導說,有外國網友開發出一款名叫DeepNude的PC軟體,只要給DeepNude一張女性照片,藉助神經網絡技術,軟體可以自動
  • AlphaZero登上《科學》封面:一個算法通吃三大棋類—新聞—科學網
    12月7日,谷歌旗下的人工智慧實驗室DeepMind研究團隊在《科學》雜誌上發表封面論文,公布了通用算法AlphaZero和測試數據。《科學》雜誌評價稱,通過單一算法就能夠解決多個複雜問題,是創建通用的機器學習系統、解決實際問題的重要一步。
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    DeepMind 於 2010 年創辦,創始人為 Demis Hassabis、Mustafa Suleyman 和 Shane Legg,2014 年被谷歌以 6 億美元收購。這家公司因其大量研究成果被社區所熟知,比如打敗圍棋世界冠軍的 AlphaGo、預測蛋白質結構的 AlphaFold 2 等等。
  • 終極版AlphaGo,DeepMind新算法MuZero作者解讀
    譯者:AI研習社(季一帆)雙語原文連結:MuZero Intuition為慶祝Muzero論文在Nature上的發表,我特意寫了這篇文章對MuZero算法進行詳細介紹,希望本人能讓你對該算法有一個直觀的了解。更多詳細信息請閱讀原文。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • 揭秘用算法「脫掉」女性衣服的DeepNude幕後技術
    概述:本文從用算法「脫掉」女性衣服的DeepNude的不良應用及其消亡的現象為引子,介紹了其應用的2種python技術。支持生成Nude圖像的pix2pix算法,和支持對python程序打包的PyOxidizer庫做了介紹。旨在拋磚引玉,對讀者的python技術提高有幫助。
  • DeepMind開源薛丁格方程求解程序:從量子力學原理出發,TensorFlow...
    為什麼叫費米網絡在量子力學中,電子沒有精確的位置,我們只能從波函數預測電子在空間中出現的概率,也就是電子云。比如氫原子的電子云就有以下幾種形態。曲面內表示電子出現的高概率區域。藍色區域波函數為正,紫色區域波函數為負。
  • 多任務智能體的一大步:DeepMind 一次搞定 57 種 Atari 遊戲的 Pop...
    最近,該領域取得了許多重大進展,DQN 等智能體可以使用相同的算法玩不同的遊戲,包括 Atari 遊戲「Breakout」(打磚塊)和「Pong」(桌球)遊戲。這些算法以前為每項任務分別訓練不同的智能體。隨著人工智慧研究深入到更多複雜的現實世界領域,構建單個通用智能體(與多個分別擅長不同任務的智能體相反)來學習完成多個任務將變得至關重要。然而,截至目前,這一任務依然是一個重大挑戰。
  • DeepMind如何助谷歌成為最強AI公司?
    用我們普通人的理解就是「太燒錢了」,據五矩調查資料顯示:僅2017年一年,DeepMind就虧損3.02億英鎊左右,幾乎相當與谷歌當年收入麾下的全部資本。關鍵是DeepMind不僅「燒錢」,還要自己說了算,想要與谷歌爭奪「控制權」。
  • DeepMind團隊進行全面解讀
    David Silver:實際上,不是只有8 planes這一種選擇,用其他形式的表示可能也沒問題,但我們用了觀察值的堆疊歷史,有三個原因:這和其他領域,比如說玩雅達利遊戲時的常見輸入表示一致;我們需要一些歷史記錄來呈現ko;歷史可以用來記錄對手最近在哪落過子,這些信息可以當作一種注意力機制來用
  • DeepMind 的 AI 會玩多人遊戲雷神之錘 3 了!
    AI 正在幫助我們持續地優化遊戲體驗。
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • 剛剛,DeepMind團隊進行了全面解讀
    (無模型)算法完全不同。 David Silver:實際上,我們從來沒有為特定的弱點而人為引導過AlphaGo,而是一直專注於原則化的機器學習算法,讓算法自己學會糾正自己的錯誤。 想找到圍棋的最優解當然是不現實的,所以,弱點總是存在。在實踐中,用正確的探索方法來保證訓練沒有卡在局部最優解中非常重要,但我們沒有用上人為的引導。