神奇!神經網絡讓計算機自我進化,自我探索,超越深度學習算法

2020-12-11 劉同學的科學戰記

#百度APP遊戲年度票選活動#

計算機進化出一條通往人類智能的新道路

從生物學中借鑑的神經網絡,其能力正在發生深刻的飛躍。神經網絡是製造真正智能機器的最佳方式嗎?

踏腳石原理是一種將創造力注入人工智慧

2007年,中佛羅裡達大學的計算機科學家肯尼斯·斯坦利正在和他的學生創建的網站Picbreeder,突然一個外星人變成了一輛賽車,改變了他的生活。在Picbreeder上,用戶可以看到一組15張類似的圖片,由幾何形狀或漩渦圖案組成,所有這些都是同一個主題的變體。有時,有些照片可能像一個真實的物體,像蝴蝶或臉。用戶可以選擇一張圖片,他們通常會點擊他們認為最有趣的東西。一旦他們這樣做了,一組新的圖像將填充屏幕。從這個有趣的探索中,一個充滿幻想的設計目錄出現了。

斯坦利是人工智慧領域「神經進化」的先驅,該領域利用生物進化原理來設計更智能的算法。使用Picbreeder,每張圖像都是一個類似於神經網絡的計算系統的輸出。當一個圖像生成時,它的底層網絡突變為15個稍微不同的變體,每個變體都生成一個新的圖像。斯坦利並不打算讓Picbreeder產生任何特別的東西。他只是有一種預感,他或公眾可能會學到一些關於進化或人工智慧的知識。

有一天,斯坦利在網站上發現了一張類似外星面孔的東西,並開始進化它,選擇了一個孩子和一個孫子等等。碰巧,圓圓的眼睛往下挪了挪,開始像汽車的輪子了。斯坦利也跟著做了,並設計了一輛外觀漂亮的跑車。他一直在想這樣一個事實:如果他從零開始,而不是從外星人面孔開始,他可能永遠也做不到這一點,他想知道這意味著什麼,直接解決問題。「這對我的整個人生產生了巨大的影響,」他說。他查看了Picbreeder上出現的其他有趣的圖片,追蹤了它們的譜系,發現它們幾乎都是通過完全不同的方式進化而來的。「我一看到證據,就驚呆了。」

Picbreeder(左)生成的異形臉變成了類似

斯坦利的認識造就了他所稱的「踏腳石原理」,並由此設計出一種更充分地利用生物進化無窮創造力的算法。這種腳踏式原理,就像中國先賢所說的「一生二,二生三,三生萬物」,從一個源頭開始,創造出無窮無盡的事物。

踏腳石原理與生物進化

進化算法已經存在很長時間了。傳統上,它們被用來解決特定的問題。在每一代中,在某些指標上表現出最好的解決方案,比如控制一個兩腿機器人的能力,被選中並產生後代。雖然這些算法已經取得了一些成功,但它們的計算能力可能比深度學習等其他方法更強,深度學習近年來大受歡迎。

踏腳石原理超越了傳統的進化方法。它不針對特定的目標進行優化,而是對所有可能的解決方案進行創造性的探索。通過這樣做,它取得了突破性的成果。不久前,一個基於「踏腳石原理「的系統掌握了兩款電子遊戲,而這兩款遊戲卻難倒了流行的機器學習方法。在《自然》雜誌發表的一篇論文中,人工智慧公司DeepMind報告稱,該公司成功地將深度學習與多樣化解決方案的演變結合起來。DeepMind率先將深度學習用於解決圍棋等問題。

踏腳石原理的潛力可以用生物進化來類比。在自然界中,生命之樹沒有包羅萬象的目標,用於一個功能的特性可能會發現自己會去做一些完全不同的事情。例如,羽毛可能是為了隔熱而進化的,後來才變得便於飛行。

生物進化也是產生人類智能的唯一系統,這是許多人工智慧研究者的終極夢想。由於生物學的跟蹤記錄,斯坦利和其他人已經開始相信,如果我們想要的算法能夠儘可能輕鬆地在物理和社會世界中導航,我們需要模仿大自然的戰術。他們認為,我們必須讓大量的解決方案開花結果,而不是硬編碼推理規則,或讓計算機學會在特定的性能指標上取得高分。讓計算機優先考慮新奇感或興趣,而不是走路或說話的能力。他們可能會發現一條迂迴的道路,一組墊腳石,最終能更好地走路和說話,而不是直接尋求這些技能。

從無到有,新奇探索

繼Picbreeder之後,斯坦利著手證明生物進化原則可以克服人們的爭議:「如果我運行一個算法的創意到了這樣一種程度,我不確定它會產生什麼,這是非常有趣的,但這也難以商業化。」

他希望通過簡單地沿著有趣的方向跟隨想法,算法不僅可以產生多樣化的結果,而且可以解決問題。更大膽的是,他的目標是證明完全無視一個目標比追求它會更快地實現目標。他通過一種叫做查新的方法做到了這一點。

該系統由一個神經網絡開始,它是一種被稱為神經元的小計算單元按照層狀連接排列。一層神經元的輸出通過具有不同「權重」的連接傳遞到下一層。在一個簡單的例子中,輸入數據,比如圖像,可能被輸入到神經網絡中。隨著來自圖像的信息從一層傳遞到另一層,網絡對其內容的提取越來越抽象。最後,最後一層計算最高級別的信息:圖像的標籤。

對於優步人工智慧實驗室和中佛羅裡達大學的計算機科學家肯尼思斯坦利來說,「踏腳石原則」解釋了創新。

在神經進化中,你首先給層間的權重分配隨機值。這種隨機性意味著網絡不會很好地完成它的工作。但是,從這種令人遺憾的狀態中,你可以創建一組隨機突變,後代神經網絡的權重略有不同,並評估它們的能力。你保留最好的,產生更多的後代,然後重複。更高級的神經進化策略也會在神經元和連接的數量和排列上引入突變。神經進化是一個元算法,一個設計算法的算法。最終,這些算法很好地完成了它們的工作。

為了測試踏腳石原理,斯坦利和他的學生Joel Lehman調整了選擇過程。新穎性的搜索並沒有選擇那些在一項任務中表現最好的網絡,而是根據它們與行為最相似的網絡之間的差異來選擇它們。在Picbreeder中,人們會獎勵有趣的人。在這裡,作為興趣度的代理,新奇搜索將獎勵新奇。

在一項測試中,他們將虛擬輪式機器人置於迷宮中,並對控制它們的算法進行進化,希望它們能找到出口的路徑。他們從零開始進行了40次進化。在一個比較程序中,機器人到出口的距離誰最短,如直線距離,40次中只有3次進化出獲勝的機器人。完全不考慮每個機器人離出口有多近的新穎性搜索,成功了39次。它成功了,因為機器人設法避免了死胡同。他們不是面對出口,將頭撞在牆上,而是探索不熟悉的領域,找到變通方法,並意外獲勝。查新很重要,因為它徹底顛覆了一切,基本上就是問,當我們沒有目標時,會發生什麼。

一旦斯坦利指出追求目標可能會成為實現這些目標的障礙,他就開始尋找將新奇搜索和具體目標結合起來的聰明方法。這促使他和雷曼兄弟創建了一個反映自然進化壁龕的系統。在這種方法中,算法只與與它們相似的其他算法競爭。就像蠕蟲不會與鯨魚競爭一樣,該系統維護著不同的算法利基,從中可以產生各種有前途的方法。

這種具有局部競爭的進化算法在處理像素、控制機器人手臂以及幫助一個失去肢體的六足機器人快速適應其步態方面表現得很熟練,就像動物一樣。這些算法的一個關鍵要素是它們培育了踏腳石。他們不是不斷地優先考慮一個整體的最佳解決方案,而是維護一個多樣化的充滿活力的小眾市場,其中任何一個都可以成為贏家。最好的解決方案可能來自於在不同的利基之間跳躍的譜系。

進化到贏

對於目前在優步人工智慧實驗室工作的斯坦利來說,「踏腳石原則」解釋了創新,如果你帶著一臺現代電腦回到過去,告訴人們放棄真空管,專注於筆記本電腦,我們就什麼都沒有了。這也解釋了進化,我們是由扁蟲進化而來的,扁蟲不是特別聰明,但卻有兩側對稱的特徵。目前還完全不清楚左右對稱的發現是否與智力有關,更不用說與莎士比亞有關了,但確實如此。

神經進化本身在過去十年中走了一條出乎意料的迂迴之路。很長一段時間以來,它一直生活在其他形式的人工智慧的陰影下。

據德克薩斯大學奧斯汀分校的計算機科學家說,它最大的缺點之一就是計算量大。在傳統的機器學習中,當你訓練一個神經網絡時,它會逐漸變得越來越好。在神經進化中,權值是隨機變化的,因此網絡的性能可能在改進之前就會下降。

另一個缺點是,大多數人都有自己想要解決的問題。一個優化興趣度的搜索策略可能會讓你找到解決這個問題的創造性方法。但它可能會讓你在走上正路之前就誤入歧途。

然而,沒有什麼策略是完美的。在過去五年左右的時間裡,人工智慧研究的不同領域,如深度學習和強化學習,出現了爆炸式的增長。在強化學習中,算法與環境相互作用,一個機器人在現實世界中導航,或者一個玩家在遊戲中競爭,並通過反覆試驗來學習哪些行為會導致預期的結果。深度強化學習被DeepMind用來創建一個程序,它可以在圍棋上打敗世界上最好的棋手,許多人認為這一壯舉還需要幾年或幾十年的時間。

但是強化學習可能會陷入困境。稀疏或不頻繁的獎勵不能給算法足夠的反饋,使它們能夠朝著目標前進。欺騙性的獎勵對阻礙長期進步的短期收益進行獎勵會讓算法陷入死胡同。因此,儘管強化學習可以在眾多遊戲中得分頻繁,一些目標明確的遊戲可以打敗人類,但它們在其他缺乏這些功能的經典遊戲中卻一敗下地。

在過去的一年裡,基於踏腳石原理的人工智慧終於成功地解決了該領域長期存在的一些挑戰。

《蒙特祖瑪的復仇》)獎勵了開放式探索

在遊戲《蒙特祖瑪的復仇》中,巴拿馬喬在地下迷宮中從一個房間導航到另一個房間,收集打開門的鑰匙,同時避開敵人和蛇、火坑等障礙物。為了打破這個遊戲,研究人員開發了一個系統,基本上可以讓遊戲四處閒逛,隨機嘗試各種動作。每一次他到達一個新的遊戲狀態,例如一個新的位置和一套新的財產,他把它歸檔到他的記憶中,連同他所採取的一系列行動。如果他後來找到一條更快的路逕到達那個狀態,它就會取代舊的內存。在訓練期間,巴拿馬喬反覆挑選其中一個存儲狀態,隨機地探索一段時間,並將他發現的任何新狀態添加到他的記憶中。

最終,其中一個狀態就是贏得比賽的狀態。巴拿馬喬在他的記憶中有他所採取的所有行動。他沒有使用神經網絡或強化學習,沒有收集鑰匙或接近迷宮盡頭的獎勵,只是隨機探索和收集並連接踏腳石的聰明方法。這種方法不僅擊敗了最好的算法,還打破了人類的遊戲世界紀錄。

同樣的技術,也就是研究人員所說的《去探索》,曾被用於在陷阱上擊敗人類專家!在這個遊戲中,陷阱哈利在叢林中尋找寶藏,同時避開鱷魚和流沙。沒有其它機器學習人工智慧的得分高於零。

2019年1月,研究團隊展示了AlphaStar,這款軟體可以在複雜的電子遊戲《星際爭霸2》中擊敗頂級專業人士。AlphaStar進化出了一群互相競爭、互相學習的玩家。升級版的AlphaStar在一個熱門遊戲平臺上排名前0.2%的活躍玩家中名列前茅,成為第一個不受任何限制地登上熱門電子競技遊戲頂層的人工智慧。

開放式的發現可能是實現類人人工智慧的最快方式。

設計人工智慧的人工智慧

到目前為止討論的所有算法在創造力方面都是有限的。AlphaStar只能想出新的星際爭霸2戰略。新穎性搜索一次只能在一個領域內找到新穎性,例如解決迷宮或行走機器人。

另一方面,生物進化產生了無窮無盡的新奇事物。我們有細菌、海帶、鳥類和人類。這是因為解決方案在進化,但問題也在進化,例如長頸鹿是對樹木問題的回應。人類的創新也是如此。我們給自己製造麻煩,我們能把人送上月球嗎?然後解決它們。進化算法卻不能給自己製造麻煩,無法自我創造新的領域。

數十年的研究告訴我們,這些算法不斷地讓我們感到驚訝,並勝過我們。

為了反映這種問題與解決方案之間的開放式對話,研究團隊發布了一個名為POET的算法,用於配對開放式開拓者。為了測試這個算法,他們進化了一群虛擬的兩腿機器人。它們還為機器人進化出了一群障礙訓練場,包括山丘、戰壕和樹樁。這些機器人有時會交換位置,嘗試新的地形。例如,一個機器人學會了拖著它的膝蓋穿越平坦的地形。然後它被隨機轉移到一個有短樹樁的地方,在那裡它必須學會直立行走。當它回到它的第一個障礙訓練場時,它完成得更快了。一個間接的途徑允許它通過從一個難題中學習技能來提高將它們應用於另一個。

詩人有可能設計出新的藝術形式,或者通過為自己發明新的挑戰然後解決它們來進行科學發現。它甚至可以走得更遠,這取決於它建立世界的能力。斯坦利說,他希望建立的算法在10億年之後仍然可以做一些有趣的事情。

斯坦利說,進化發明了視覺,發明了光合作用,發明了人類級別的智能,它發明了所有的一切,所有的一切都是在一個算法的運行過程中完成的。捕捉到這一過程中哪怕是一丁點的變化,都是非常強大的。

有人認為開放式的發現可能是通向人工智慧的最快路徑,這樣機器幾乎具備人類所有的能力。人工智慧領域的大部分研究都集中在人工設計智能機器的所有構件上,比如不同類型的神經網絡架構和學習過程。但目前還不清楚這些信息如何最終整合成一種通用智能。

相反,也有人認為應該更多地關注設計AI的AI。算法將設計或進化神經網絡和它們學習的環境,使用詩人的方法。這種開放式的探索可能會通過我們從未預料到的途徑,或者通過各種各樣的外星智能,引導我們獲得人類級別的智能。這些外星智能可以教給我們很多關於智能的知識。

有一件事真的很驚人,可能也很瘋狂,那就是我是如何來到這個世界上的,基本上和讓我來到這裡的算法洞察力是一樣的。導致我們頓悟的東西其實是由頓悟本身來解釋的。

相關焦點

  • 深度學習進入晶片領域,揭秘寒武紀神經網絡處理器
    為解決此問題,使用了一套基於機器學習的處理器性能建模方法,並基於該性能模型最終為DianNao選定了各項設計參數,在運算和訪存間取得了平衡,顯著提升了執行神經網絡算法時的效能。即便數據已經從內存取到了片上,搬運的能耗依然非常高。
  • 深度學習教父辛頓:未來神經網絡可以重建人腦意識
    「深度學習教父」。 辛頓:80年代有一件事讓人很失望:如果你開發的網絡有很多隱藏層,你沒有辦法訓練它們。當然這種說法並不完全正確,因為有些簡單的任務還是可以訓練的,比如識別筆跡。至於大多的深度神經網絡,我們不知道如何訓練。 2005年時,我提出一種新方法,可以用無監督方式訓練深度網絡。你輸入內容,給出像素(pixels),然後你要獲取一堆特徵檢測器,它們可以解釋為什麼像素是這樣。
  • 深度學習之父Hinton:下一代神經網絡
    在講座中,Hinton指出:人工神經網絡最重要的未解難題之一,是如何像大腦一樣有效地進行無監督學習。當前有兩種主要的無監督學習方法:第一種方法,以BERT和變分自編碼器為例,使用了深度神經網絡來重建其輸入。這種方法對於圖像來說是有問題的,因為網絡的最深層需要對圖像的精細細節進行編碼。
  • 還在糾結深度學習算法 計算機視覺CV的關鍵在於數據採集和標註!
    2012年,AlexNet網絡橫空出世,帶來了前所未有的深度學習革命,這也讓多年來進展緩慢的計算機視覺CV研究,一下被按下了「快進鍵」。人們突然發現,這種模擬人腦抽象和迭代過程的深度學習算法,讓計算機開始「看見」。
  • NeurIPS 2020線上分享 | 華為諾亞方舟:超越CNN的加法神經網絡
    具有大量可學習參數和乘法運算的卷積神經網絡(CNN)在圖像分類、目標檢測、語義分割和低級圖像任務中表現出了卓越的性能,但由此帶來的功耗過大問題限制了 CNN 在手機和相機等可攜式設備上的應用。所以,近來的一些研究著力探索降低計算成本的高效方法。
  • ...重大突破:AI 進化出大腦級導航能力,像動物一樣會「抄小路」
    DeepMind團隊決定用人工神經網絡檢驗上述猜想。人工神經網絡是一種利用多層處理模擬大腦神經網絡的運算結構。在這項工作中,研究人員首先訓練循環神經網絡基於運動速度信息在虛擬環境中定位。這與哺乳動物在不熟悉環境中運動定位所用到的信息非常類似。令人震驚的是,類似網格細胞的模式,研究人員稱之為網格單元,在神經網絡中自然出現了。
  • 什麼是深度學習(科普)
    1 緒論1.1 背景現今,隨著計算機計算能力的提高,在人工智慧(Artificial Intelligent,AI)領域中,深度學習的人工神經網絡的算法慢慢嶄露頭角,開始在不同的領域識別取得不錯的準確率。而且,在我們日常生活中廣泛應用。
  • 深度學習元老Yann Lecun詳解卷積神經網絡
    卷積神經網絡(Convolutional Neural Network)是一種前饋神經網絡,它的人工神經元可以響應一部分覆蓋範圍內的周圍單元,對於大型圖像處理有出色表現。Yann LeCun出生在法國,曾在多倫多大學跟隨深度學習鼻祖Geoffrey Hinton進行博士後研究。
  • 貫穿計算機歷史長河的幽靈竟是一張「彩票」,深度學習也曾被詛咒
    這個「幽靈」一直貫穿在整個計算機歷史長河,並曾詛咒深度學習至少三十年。  幾十年來,我們都將硬體、軟體和算法視為獨立的選擇,而不斷變化的硬體經濟,深度學習架構規模上對「越大越好」的競逐,以及將機器學習應用於邊緣設備時的需求,則不斷促進它們更緊密協調。  更緊密合作的趨勢集中在新一代硬體的浪潮上,這種新一代硬體是「特定於領域」的,以優化深度神經網絡的商業用例。
  • Pedro Domingos深度解析機器學習五大流派中主算法精髓
    神經元之間是互相連接的,這樣形成了一個大的神經網絡。人類所學會的知識幾乎都存在神經元之間的突觸中,整個學習過程基本上是出現在一個神經元幫助另一個神經元發射信號的過程。通過後續的神經元向前序神經元進行反饋,一層一層向後直到得到的值接近真實值,這就是反向傳播算法(也是深度學習的核心所在)。
  • 聽說你了解深度學習最常用的學習算法:Adam優化算法?
    By蔣思源2017年7月12日  深度學習常常需要大量的時間和機算資源進行訓練,這也是困擾深度學習算法開發的重大原因。雖然我們可以採用分布式並行訓練加速模型的學習,但所需的計算資源並沒有絲毫減少。而唯有需要資源更少、令模型收斂更快的最優化算法,才能從根本上加速機器的學習速度和效果,Adam算法正為此而生!
  • IEEE預發:DeepMind主攻的深度強化學習3大核心算法及7大挑戰
    在本次調查中,我們將首先介紹一般的強化學習,然後逐步推進到主流的基於價值和基於策略的方法。我們的調查將涵蓋深度強化學習的核心算法,包括深度Q網絡、置信區域策略優化和異步優勢actor-critic算法(A3C)。同時,我們強調了深度神經網絡的獨特優勢,重點介紹通過強化學習進行視覺理解。最後,我們介紹了該領域當前的幾個研究方向。
  • 什麼是神經網絡?工作原理是什麼?——AI算法必懂
    關注AI的同學一定都知道神經網絡,這是AI算法中模擬人的大腦所衍生出來的學科和算法。可以說,不了解神經網絡就不能說動算法,懂算法者必懂神經網絡。下面我們就對神經網絡的工作原理進行深入淺出的介紹。YQ0ednc
  • PNAS 「深度學習的科學」論文合集導讀
    這些比賽為機器學習中深度學習範式的出現和不斷完善提供了一個平臺。 深層神經網絡至少從20世紀80年代以來一直穩步發展,然而,試錯的啟發式方法阻止了對其進行理論化分析的嘗試。在20世紀90年代和21世紀初的相當一段時間裡,人工神經網絡一直受到堅持AI的發展需要正式理論論證的科學家們的懷疑。
  • ICML論文|阿爾法狗CTO講座: AI如何用新型強化學習玩轉圍棋撲克遊戲
    在此,我們為大家分享David Silver的論文《不完美信息遊戲中的深度強化學習自我對戰》。本篇論文主要以撲克進行實驗,探討深度強化學習與普通強化學習相比的優勢。研究此類遊戲不只是可以讓程序打贏人類大師,還可以幫助開發算法,應用於更複雜的真實世界環境中,例如機場和網絡安全、金融和能源貿易、交通管制和疏導,幫助人們在不完美的信息和高維度信息狀態空間中進行決策。
  • 終極進化,下一場革命:深度起底人工智慧,兩萬字重磅分析
    深度學習實際上是建立輸入和輸出數據之間的映射關係  通過人工神經網絡的原理探究我們可以總結以下結論:  1、人工神經網絡算法能夠從輸入的大量數據中自發的總結出規律。人工神經網絡算法與傳統計算機軟體不同,並不要人為的提取所需解決問題的特徵或者總結規律。
  • 深度神經決策樹:深度神經網絡和樹模型結合的新模型
    深度神經決策樹:深度神經網絡和樹模型結合的新模型 工程師郭婷 發表於 2018-08-19 09:14:44 近日,來自愛丁堡大學的研究人員提出了一種結合深度神經網絡和樹模型的新型模型
  • 《超智能體》作者講述深層神經網絡設計理念(附PPT+視頻) | 雷鋒網...
    它同機械、同計算機一樣,是對人類能力的一次擴展,任何人都應該可以像應用機械一樣應用人工智慧,絕不應該是大公司的專利。而深度學習可以說是目前各項人工智慧技術的核心。因擔心工作會被人工智慧取代,越來越多的人想要入門深度學習。然而如Ian Goodfellow所說,市面上很多教程都是大量的算法羅列,並不專注於如何利用這些算法來解決眼前的問題。
  • 如何用自動機器學習實現神經網絡進化
    對大多數從事機器學習工作的人來說,設計一個神經網絡無異於製作一項藝術作品。神經網絡通常始於一個常見的架構,然後我們需要對參數不斷地進行調整和優化,直到找到一個好的組合層、激活函數、正則化器和優化參數。在一些知名的神經網絡架構,如VGG、Inception、ResNets、DenseNets等的指導下,我們需要對網絡的變量進行重複的操作,直到網絡達到我們期望的速度與準確度。
  • ICML神經網絡和深度學習日程表(周二)
    神經網絡和深度學習大會主席:Hal Daume III地點: Ballroom 1+2+Juliard10:30– 強類型遞歸神經網絡 (Strongly-Typed Recurrent (Auxiliary Deep Generative Models)             Lars Maaløe、Ole Winther 丹麥技術大學, Casper Kaae Sønderby 、Søren Kaae Sønderby 哥本哈根大學神經網絡和深度學習I會議主席: Nicolas