其實我覺得中國人是最熱愛接受新鮮事物的人,沒有之一。
日前小李子拿奧斯卡最佳男主角了,我那從來不看外國電影的鄰居王二狗在朋友圈說「小李,你終於獲獎了,太激動了」。之後他又轉發了一條「美國人的陰謀」。
早日Apple Pay入駐中國,我那個用WP手機的鄰居王大貓分享了「Apple Pay初體驗,微信和支付寶死期將至」。然後他又轉發了「轉發領域星巴克馬克杯」。
今天韓國圍棋高手李世石輸給了谷歌圍棋程序AlphaGo,我的小學沒畢業的土豪鄰居王撕蔥轉發了「世紀之戰,谷歌AI打敗李世石「,然後他跑來跟我講,李哥,AI不是從76人退役了麼,為啥跑去谷歌打李世石了呢?
回到正題,其實我不知道我們為之狂歡的是什麼?是人工智慧的偉大勝利?還是一種讓朋友圈知道我是一個緊跟潮流的人?有時候我也在想,如果人工智慧最後輸了,我反而會更緊張吧!
你真的了解AlphaGo嗎?小編我不打籃球,但我喜歡看籃球新聞,因為除了可以大姨子以外,我還可以看春枝的特輯,更因為我的女朋友是艾佛森的球迷。
分享人工智慧的偉大勝利的朋友,你們真的了解AlphaGo嗎?按維基百科:
AlphaGo是由Google DeepMind開發的圍棋程序。2015年10月,它成為第一個不藉助讓子,在全尺寸19×19的棋盤上擊敗職業圍棋棋手的電腦圍棋程序。
AlphaGo使用蒙特卡洛樹搜索(Monte Carlo tree search),藉助值網絡(value network)與策略網絡(policy network)這兩種深度神經網絡,通過值網絡來評估大量選點,並通過策略網絡選擇落點。
AlphaGo最初通過模仿人類玩家,嘗試匹配職業棋手的棋局,一旦它達到了一定的熟練程度,它開始和自己對弈大量棋局,使用強化學習進一步改善它。圍棋無法僅通過尋找最佳步來解決;遊戲一盤平均有150步,每一步平均有200種可選的下法,意味著有太多需要解決的可能性。
而根據Nature在一月份的文章,他是這樣描述的:
AlphaGo是一套為了圍棋優化的設計周密的深度學習引擎,使用了神經網路加上MCTS (Monte Carlo tree search),並且用上了巨大的谷歌雲計算資源,結合CPU+GPU,加上從高手棋譜和自我學習的功能。
這套系統比以前的圍棋系統提高了接近1000分的Elo,從業餘5段提升到可以擊敗職業2段的水平,超越了前人對圍棋領域的預測,更達到了人工智慧領域的重大裡程碑。
Alphago 人工智慧的計算機裝有 48 個 CPU 和 8 個 GPU,不過,除此之外,谷歌沒有公布更多詳細信息。
而製造AlphaGo的則是谷歌的DeepMind團隊。
DeepMind並不是谷歌自己創建的,而是,其聯合創始人Larry在2014年初以4億美元收購的一家英國人工智慧公司所創建的。DeepMind的創始人是Demis Hassabis,這可是一位計算機天才,但是,很少有人聽說過 DeepMind和這位天才。直到現在網上瘋炒的各家媒體,依然還是展望人工智慧的前景,很少有報導這位天才以及這家公司,也難怪,這真是一家非常低調的公司。
另外,DeepMind 的投資人之一可是大名鼎鼎的 Elon Musk,就是 Tesla 和 Space X的老闆,這位牛人向 DeepMind 投資了 650 萬美元。谷歌收購的過程也非常有趣,其聯合創始人Larry在飛機上聽說了這個公司,非常感興趣。恰巧,Facebook的創始人Mark Zuckerberg也同時對這個小公司產生了興趣。所以,谷歌收購的過程很漫長,不過最終還是早出手的Larry勝出,這點讓Zuckerberg如今仍耿耿於懷。
再來看看DeepMind 的核心技術。
現在街頭巷尾都在談論的機器學習,其實這是一個非常寬泛的概念,而其中最酷的分支要算是深度學習(Deeplearning)和強化學習(Reinforcement learning)。
深度學習是受人腦啟發的一種結構,在實驗的基礎上,該結構中模擬神經元層間的聯結得到加強。深度學習系統能夠從大量的非結構數據中獲取複雜信息(see Nature505, 146–148; 2014)。Google正在使用這種算法來自動分類圖片,目的則是為了進行機器翻譯。
強化學習,其實就是一個連續決策的過程,其特點是不給任何數據做標註,僅僅提供一個回報函數,這個回報函數決定當前狀態得到什麼樣的結果(比如「好」還是「壞」), 從數學本質上來看,還是一個馬爾科夫決策過程。強化學習最終目的是讓決策過程中整體的回報函數期望最優。
谷歌的DeepMind就將深度學習和強化學習兩者的精髓合二為一,提出了深度強化學習。2014年,這個團隊就在《自然》雜誌發表了Human-level control through deep reinforcement learning的論文,讓業界對此充滿了期待。
李世石何許人也?根據維基百科:
李世石,韓國圍棋九段棋手,成長於韓國全羅南道偏僻的飛禽島,所以又被稱為「飛禽島少年」。因中文漢字無「乭」字(韓國自創字),故中文媒體多將其簡化為「石」(李世石)。
早年棋風銳利,擅長大規模的攻殺,成績卓越,近年來隨著年紀漸長與技術逐漸成熟,開始轉變為全能棋風,能攻能守,剛柔並濟成為一代棋界巨匠。李世乭厲害之處在於他下棋的風格飄渺靈幻,時常有神來之筆,兼有強大的戰力且計算極為精準。
同時他也有著高水準的心理質素,世界大賽上常在落後的情況下迎頭趕上逆轉拿下勝局。在2005到2010年期間與中國的圍棋第一人古力九段有多次交鋒,受到很大關注。
我們來看其國際賽場上的表現
社會上很多中流砥柱應該記得20多年前的IBM深藍,在圍棋大賽上打敗了西洋棋冠軍卡斯帕羅夫。而這次為啥選擇圍棋大師作為挑戰者,因為圍棋大更難!
根據知乎用戶峰哥的描述,圍棋的複雜度為10^{172} 而西洋棋則只有10^{46} 。
關於人工智慧挑戰圍棋的難度描述,知乎用戶Ruofan Wu是這樣描述的:
本人曾經參加國機器博弈相關的比賽,略了解一些。
所謂計算機博弈或者機器博弈,顧名思義就是讓計算機學會人類的一樣思考、能夠像人一樣下棋。
如何讓計算機下棋?
首先要讓計算機看懂棋盤棋子,這對應的是機器博弈中的棋盤表示;
然後是看懂棋局,知道輸贏、知道哪兒可以落子,對應的是判斷輸贏與走法生成器;
之後是知道落子的優劣,對應的是估值函數;
最後是知道在哪兒落子,對應的是搜尋引擎。
棋盤表示、走法生成器、搜尋引擎和估值函數,可以說所有機器博弈程序的基本組成部分。
由於圍棋的棋盤為19*19=361,棋盤較大,且下棋過程中會出現提子(吃子)的情況,較為複雜。客觀上來說,圍棋狀態複雜度與博弈樹複雜度都是公認的第一。
(簡單來說狀態複雜度就是棋盤上可能出現的棋面狀態的個數,博弈樹就是從最初棋局根據落子的各種可能展開的樹型結構最外層葉子點的個數。如果沒記錯的話。)
機器博弈最簡單的做法就是讓計算機根據當前棋局去枚舉下一步所有可能的走法,然後再這一步的走法中選擇最好落子點,然後落子。
這只是一步搜素,通常人在下棋的時候並不會只去想下一步棋,高手會思索當前步數之後五至十步,通常來說只要你對局面或者對方心理了解得當,是可以預判、預估對手下一步落子,你思索的層數越深,則你做出的選擇就會越得當。
而這個思索的過程牽扯到大量的棋類知識以及大量運算對人腦來說極其複雜,而對於計算機來說也是同樣複雜,只不過複雜難點在於其牽扯到的大量棋類知識。
所說的思索就是搜尋引擎、棋類知識就是估值函數,計算機只能通過值來判斷優劣,它永遠不會有感性認識,如何把棋類知識抽象成估值和評分標準是非常考驗棋力的。
在得當的估值函數作用下,搜尋引擎的作用就是較快的找出給定n步上較好的落子點。
注意,是較好,因為在速度和質量之間需要有所取捨,通過捨棄、剪枝等一系列算法減少計算機在每一步的候選搜索落子點,來提高速度,從而使得可以想更深的層數去試探搜索。
近些年蒙特卡洛算法在棋類中的廣泛應用,以及隨著計算機計算能力的提高,相信計算機的搜索能力會越來越好,較好可能會變成最好。
像圍棋這一類會出現吃子情況的棋類,在搜索的時候會出現搜索樹(當前棋局之後可能產生的各種局面展開構成的一棵樹)回溯的情況,就是當前步走完之後出現了和上一步重複的棋局(典型代表就是圍棋裡的「打劫」),也會給搜索的過程帶來麻煩。
在實現的時候需要特殊處理。
棋類的開局非常重要,在處理開局的時候通常使用開局庫以及機器學習的方法,開局庫就是所謂的經典圍棋開局,以前書店裡20塊一本的那種,當然還有殘局庫,都是好素材,錄入到計算機裡會大大減少開局時計算機走昏招的概率。
而機器學習通常和開局庫殘局庫結合使用,最簡單的方法,通過對開局庫每種開局勝負情況的統計,修改開局庫每種開局的評分,讓計算機去選擇獲勝機率較高的開局或者殘局。
計算機圍棋想要戰勝人腦,其前提是人類對圍棋的逐漸研究透徹,只有人類對圍棋的理解達到一定水平,才能將人類的智慧抽象成計算機可以理解的數據。
本人曾做過六子棋相關的機器博弈,水平有限,做出來幾MB的程序,六子棋創始人做的程序單獨一個bin文件就80MB,而且反應速度極快,個人推斷這個bin文件存儲的就是開局庫(可能還會有殘局庫)。
的確計算機沒有人類下棋的思維,但是在積累了足夠多的前人的下棋經驗,並將其轉化成開局庫或者殘局庫的形勢,計算機可以利用自己存儲與運算的優勢,將無數棋譜記住,也許今天計算機使用的是開局庫或者殘局庫,在不久的將來計算機使用的可能就是局部的殘局庫。你和電腦下棋的時候,這一秒他是常昊,下一秒他就變成了武宮正樹。
電腦的棋力和人腦一起進步的,並終究會超越人腦。
這些人工智慧可以應用到哪裡?根據李開復的說法:
AlphaGo裡面的深度學習、神經網絡、MCTS,和AlphaGo的擴張能力計算能力都是通用的技術。AlphaGo的成功也驗證了這些技術的可擴展性。但是,AlphaGo其實做了相當多的圍棋領域的優化;除了上述的系統調整整合之外,裡面甚至還有人工設定和調節的一些參數。
AlphaGo的團隊在Nature上也說:AlphaGo不是完全自我對弈end-to-end的學習(如之前同一個團隊做Atari AI,用end-to-end,沒有任何人工幹預學習打電動遊戲)。
如果AlphaGo今天要進入一個新的應用領域,用AlphaGo的底層技術和AlphaGo的團隊,應該可以更快更有效地開發出解決方案。這也就是AlphaGo真正優於深藍的地方。但是上述的開發也要相當的時間,並且要世界上非常稀缺的深度計算科學家(現在年待遇行情已達250萬美金)。
所以,AlphaGo還不能算是一個通用技術平臺,不是一個工程師可以經過調動API可以使用的,而且還距離比較遠。
但根據AlphaGo背後的男人就是DeepMind公司的創始人之一德米斯·哈薩比斯(Demis Hassabis)的說法:
最終,我們想要將這些技術應用到真實世界的重要問題中。因為我們用的方法是通用的,我們希望有一天,它們能延伸得更廣,幫助解決最緊迫的社會問題,從醫藥診斷到環境模型。」哈薩比斯說。
關於人工智慧的未來相信大家都看過《終結者》,裡面的天網有沒有讓你不寒而慄。
然後生化危機裡面那個小女孩,也讓你很害怕吧。
更糟糕的是《黑客帝國》中的世界。在那裡,人類甚至愚昧到發現不了機器已經將自己取而代之。他們進行著日常的工作和生活,把一切看成正常的,忘記了他們實際上是生活在一個虛擬的世界之中。人類的「存在」僅僅是裝在這些生活在營養艙裡的人類大腦中的程序,由一個大型的計算機進行操作和管理,而機器需要這些人的唯一理由是要用他們作為生物電池。
關於人工智慧意識,物理學家加來道雄提出了一種判定和量化的標準。他認為,意識至少由三個基本成分組成:一是感覺和認識環境,二是擁有自我意識,三是會設定目標,計劃未來,制定達成目標的策略。他以數字1到10對意識程度進行了量化。比如,錘子不能感覺環境,因此它的意識等級為0。但是一個溫度調節裝置可以感覺環境,並且通過改變環境溫度對環境產生影響,它意識等級為1。由此他也認為,具有反饋機制的機器有初步形式的意識。
在現今的研究中,模式識別是人工智慧發展的主要障礙。機器人能夠比人更好地感覺環境,但是它們不能理解或認識它們看到的是什麼。在意識的這個尺度上,機器人的得分最低,接近於昆蟲,因為它們缺乏模式識別的能力。
在確定了目標後,研究人員的目標就變成了創造具有所有這三個特徵的機器人。相對來說,第一項較難達到,因為機器人雖然能夠感覺環境,但理解不了它的意義;自我意識比較容易取得;最後是獲取常識,在此基礎上才能擁有為將來制定計劃的能力
因此,我們看到常識是高級意識的前提。為了讓機器人模擬現實和預測將來,它必須掌握有關周圍世界的幾百萬條常識的規則。但是有了常識還不夠,常識只是「遊戲規則」,而不是策略和規劃的規則,它更關乎機器人在現實世界中的生存。
今天,對於如何向機器人灌輸常識,使其產生意識的方法,研究人員所知有限。大多數人舉手投降,並且表示巨大的計算機網絡會有辦法顯示「突然出現的自然發生的現象」,就像有時本能地從混沌中產生秩序一樣。當問到這些突然出現的自然發生的現象什麼時候將產生意識時,大多數人只能是啞口無言。
如果機器人超越人類?
進化的定律只有一條,即適者生存。也許人類會成為落後的一方,最終被鎖在動物園裡供機器人觀賞。也許這就是我們的命運:我們孕育演化出了這些超人機器人,然後退場。而它們把我們看成是在它們的演化進程中的原始祖先。
在某一天,我們不再是地球上智力最高的生物,而且我們的創造物也許能夠複製它們自己,並創造出比它們還聰明的機器人。然後,這個自我複製機器人的大軍將創造無窮無盡的下一代機器人,每一代都比前一代聰明。理論上,機器人能夠在很短的周期內創造更聰明的下一代,最終,這個過程將呈指數級膨脹,直到最後,在它們貪得無厭的變得更加聰明的要求下,吞噬了這個行星的資源。
這就是「奇點」,這個詞原來來自相對物理學世界,代表重力為無限大的點,任何東西都不能從這裡逃逸,包括光,所以它代表了一個視野,超過這個視野,我們什麼也看不見。
發明家雷·庫茲威爾是奇點理論忠實的代言人。他喜歡根據技術的指數增長進行預測。在1999年,他寫了一本暢銷書《靈魂機器的時代,當計算機超過人的智力》,預測候機器人於什麼時將在智力上超過我們。在2005年,他寫了《奇點臨近》,並且詳細闡述這些預測,稱計算機超過人的智力的決定性的一天很快就會來臨。
他預測,到2019年,1000美元級別的個人計算機就將具有和人的大腦一樣強的能力。此後不久,計算機將把我們甩在後面。到2029年,同樣價格的計算機將比人的大腦強大1000倍。到2045年,這一價格的計算機將比每個人合起來的智力強10億倍,即便是一臺小型計算機也將超過整個人類的能力。
在他的想像中,2045年後的計算機將變得非常先進,甚至能夠複製自身、智力不斷地增加,產生失控的奇點。為了滿足它們永無止境的貪婪及不斷增加計算能力的欲望,它們將開始吞噬地球、小行星、行星、恆星,甚至影響宇宙本身的歷史。
庫茲威爾相信,在這樣的未來中,我們要想的不是如何對抗智能機器的入侵,而是要與這個技術融合。我們要把這些智能的設備放在我們的身體和大腦裡,讓我們活得更長壽,更健康。
沒有人知道最後到底會怎樣,未來是否會像《終結者》或《黑客帝國》所描述的那樣,成為人類時代的黃昏絕響,但也許在我們面前還存在著另外一條光明的道路。
我想說的是,人工智慧在這時候打贏了人類,是DeepMind的勝利,是Google的勝利。但這時候我沒有太害怕,因為在賽前,很多人,包括DM團隊都能預料到這個結局,如果說大家都知道這個程序是可以打敗李世石,而最後,他卻輸了,那時候,才是我們最關心的吧。
不過有一點我是可以肯定的,無論你多厲害,在面對女朋友為什麼生氣這個問題,你也得死機!