谷歌AutoML新進展,進化算法加持,僅用數學運算自動找出ML算法

2020-11-22 澎湃新聞

機器之心報導

參與:魔王、杜偉、小舟

僅使用基礎數學運算就能自動搜索機器學習算法?谷歌 Quoc V. Le 等人提出了 AutoML-Zero 方法。

AutoML-Zero 旨在通過從空程序或隨機程序開始,僅使用基礎數學運算,來自動發現能夠解決機器學習任務的電腦程式。其目標是同時搜索 ML 算法的所有屬性,包括模型結構和學習策略,同時將人類偏見最小化。

近來,機器學習(ML)取得了顯著的成功,這要歸功於深度神經網絡等 ML 算法。與此同時,這一領域研究中遇到的困難又催生了 AutoML,AutoML 旨在實現 ML 算法的自動化設計。

目前,AutoML 主要通過結合複雜的手動設計組件來開發解決方案。神經架構搜索就是一個典型的示例,在這個子域中,研究人員基於複雜層(如卷積、批歸一化和 dropout)來自動構建神經網絡。

在 AutoML 中使用這些手動設計組件的另一種方法是從零開始搜索完整的算法。這種方法具有一定的難度,因為它需要探索大型且稀疏的搜索空間。但同時,這種方法也具有巨大的潛在益處,它不會偏向於我們已經了解的東西,並且有可能發現新的、更好的 ML 架構。

從零開始學習算法的早期研究主要聚焦算法的一個方面(如學習規則),以減少搜索空間和計算量。但自 20 世紀 90 年代後這類研究逐漸冷門,直到現在才重新得到重視。

2018 年 3 月,谷歌大腦團隊即進行相關研究,使用進化的 AutoML 來發現神經網絡架構。如今,谷歌將這項研究進一步擴展,證明從零開始進化 ML 算法是有可能的。相關研究被 ICML 2020 接收,這項研究出自谷歌大腦團隊 Quoc V. Le 等學者之手。

論文連結:https://arxiv.org/pdf/2003.03384.pdf

GitHub 項目地址:https://github.com/google-research/google-research/tree/master/automl_zero#automl-zero

在這項研究中,谷歌提出了新方法 AutoML-Zero,該方法從空程序(empty program)開始,僅使用基本的數學運算作為構造塊,使用進化方法來自動找出完整 ML 算法的代碼。

在一些小的圖像分類問題上,AutoML-Zero 方法重新發現了一些基本的 ML 技巧,如具備反向傳播的雙層神經網絡和線性回歸等,而這些是之前的研究人員經過數年時間才發現的。

這一結果表明,自動發現更新穎的 ML 算法以解決更棘手的問題,這一想法在未來是可行的。

接下來,我們來看 AutoML-Zero 方法的具體實現原理。

從零開始進化學習算法

谷歌使用經典進化方法的變體「正則化進化搜索方法」來搜索算法空間。這些方法被證明在發現電腦程式方面很有效,其簡潔性和可擴展性使得它們非常適合發現學習算法。

正則化進化搜索方法中的 cycle。

在這項研究中,谷歌團隊使用空程序對群體進行初始化,然後不斷重複循環來生成更好的學習算法。

在每一次循環中,兩個(或更多)隨機模型展開競爭,最準確的模型成為「parent」。之後 parent 模型複製自己得到變異了的子模型,即子模型的代碼以隨機形式進行了修改,例如任意插入、移除或修改一行代碼。

接下來,研究人員在圖像分類任務上評估變異後的算法。

整個過程如下圖所示:

使用空程序對群體進行初始化。經過多代後,得到進化後的群體。其中兩個算法進行競爭,最準確的一個獲勝並生成子模型。經過多次迭代後,最終的群體包含高度準確的分類器。

探索有難度的搜索空間

與之前的 AutoML 工作不同,AutoML-Zero 的搜索空間非常稀疏:準確算法的比例大約是 1:1012。原因在於算法構造塊的細粒度,它僅包含基礎運算,如變量賦值、加和矩陣相乘。在這樣的環境下,隨機搜索無法在合理時間內找到解,然而進化的速度提升了數萬倍。

谷歌研究者將搜索分配到多個機器上,並構建了多個小型分類任務以評估每個子算法。此類評估使用高度優化的代碼執行。

儘管搜索空間稀疏,但隨著時間的推移,進化搜索也能發現更複雜和有效的技術。

最開始進化搜索發現的是最簡單的算法——具備硬編碼權重的線性模型。經過一段時間後,隨機梯度下降(SGD)被創造出來學習權重,儘管梯度本身還沒有作為構造塊。一開始 SGD 存在一些缺陷,但它很快就進行了迭代修復,並開始了對預測和學習算法的一系列改進。

在谷歌的實驗案例中,這一搜索過程發現了一些已有的有用概念。最後,該方法構建的模型優於具有類似複雜性的手動設計模型。

進化實驗的流程。從左到右按時間順序,谷歌研究者發現算法變得越來越複雜,也越來越準確。

進化後的算法

上圖描述了由該方法生成的最佳進化算法。最終得到的算法包含了多項技術,如將噪聲注入作為數據增強方式、雙線性模型、梯度歸一化和加權平均等。對基線的改進也可以遷移到搜索中未用到的數據集。

谷歌在論文中介紹了進化後代碼的不同行對這些技術的實現,並通過控制變量研究驗證了它們的價值。

通過更多的實驗,研究者發現,控制進化過程評估算法適用性的任務能夠指導進化搜索。

例如,當數據量減少時,noisy ReLU 就會出現。當訓練步驟減少時,學習率有所衰減,從而加快收斂速度。

這類有針對性的發現很重要。自動發明工具的機器造出錘子或針是件很有趣的事,但是如果它能在你展示釘子後造出錘子,展示線後造出針,這不是更有趣嗎?

這就像剛才提到的,當數據量較少時(「釘子」),noisy ReLU 出現(「錘子」);當訓練步驟減少時(「線」),學習率出現下降(「針」)。

結論

谷歌這項研究還比較初級,尚未進化出新的算法。但是進化後得到的算法能夠超越搜索空間中存在的簡單神經網絡,這一點已經足夠振奮人心。目前,搜索進程需要大量計算。未來幾年,隨著硬體設備的發展,搜索方法變得更加高效,搜索結果或許會有所改進。

原文連結:https://ai.googleblog.com/2020/07/automl-zero-evolving-code-that-learns.html

2020 WAIC· 開發者日將於 7 月 10 日 - 11 日在線上舉辦,設置主論壇、分論壇、高峰對話、開發者日百度公開課、開源開放 Demo Day、黑客馬拉松等多個環節。添加機器之心小助手微信(syncedai6),備註 「開發者日」,小助手會邀你入群,圍觀直播。

原標題:《谷歌AutoML新進展,進化算法加持,僅用數學運算自動找出ML算法》

閱讀原文

相關焦點

  • 谷歌大腦提出AutoML-Zero,只會數學運算就能找到AI算法|開源
    接著谷歌又推出了AlphaGo Zero,只讓AI知道圍棋規則,從零開始學下棋,結果再次登上棋藝頂峰。AI既然能從零學習圍棋,是否可以從零開始摸索機器學習算法?當然可以,谷歌大腦團隊最新的研究成果已經做到了。谷歌將這種技術稱之為AutoML-Zero,意為「從零開始的自動機器學習」,已經在GitHub開源,並在Arxiv上提交了論文。
  • 谷歌AutoML鼻祖新作AutoML-Zero:從零開始構建機器學習算法
    【新智元導讀】市面上的自動機器學習算法多如牛毛,但並沒有得到很好的普及,因為這些算法限制了搜索的空間,很多研究者還是需要自己設計機器學習模型的結構,而谷歌此次發布的AutoML-Zero搜索空間完全沒有限制,可以從最基礎的數學公式開始。「新智元急聘主筆、編輯、運營經理、客戶經理,添加HR微信(Dr-wly)了解詳情。」
  • 谷歌大腦開源項目 AutoML-Zero:用數學運算能探索出機器學習算法
    我們提出的方法,稱為 AutoML_Zero,從空程序開始,僅使用基本的數學運算作為構建塊,應用進化方法自動找到完整機器學習算法的代碼。針對小圖像分類問題,我們的方法重新發現了基本的機器學習技術,如帶有反向轉播的二層神經網絡、線性回歸等,這些都是多年來研究人員發明的。這一結果證明了自動發現更多新的機器學習算法來解決未來更難的問題的可行性。
  • AutoML新進展:用進化算法發現神經網絡架構
    生成這些網絡結構的方法之一是通過使用演化算法。傳統的拓撲學研究已經為這個任務奠定了基礎,使我們現如今能夠大規模應用這些算法,許多科研團隊正在研究這個課題,包括OpenAI、Uber實驗室、Sentient驗室和DeepMind。當然,谷歌大腦也一直在思考自動學習(AutoML)的工作。
  • 谷歌和OpenAI新研究:如何使用達爾文進化論輔助設計人工智慧算法?
    30 年的發展取得了一些優秀成果,大多數腦啟發人工智慧技術的進展都圍繞著「神經網絡」,這一術語借用自神經生物學,其把機器思考描述為被稱作「神經元」的互相連接的數學函數中的數據流動。但是自然界也有其他好想法:現在計算機科學家正再次踏入生物進化這一研究領域,希望通過在人工智慧中植入生物進化元素的方式開發出更智能更有效的算法,恰如數十億年來生物進化塑造了人類大腦一樣。
  • 批量生產數學猜想,這樣的自動算法學會了探索基本常數
    近日,以色列理工學院和谷歌的研究者公布了自己的一項工作,並將其稱之為「拉姆努金機器」,表示他們可以用算法批量生產數學猜想……e、π等基本常數普遍存在於物理、生物、化學、幾何學、抽象數學等各個學科,在這些學科中發揮輔助性作用。然而,幾個世紀以來,有關基本常數的新數學公式很少,通常是通過數學直覺或獨創性偶然發現的。
  • 科學家破解了谷歌的量子優化算法
    谷歌一直在爭相開發量子增強型的處理器,這種處理器使用量子力學效應來增進數據處理速度。谷歌為此的短期目標是已經設計出了一種新型的量子增強算法,可以在有真實噪聲的情況下運行。所謂的量子近似優化算法(Quantum Approximate Optimisation Algorithm,簡稱 QAOA)是谷歌目前開發的抗噪聲量子增強算法的基礎。
  • 遺傳算法:讓發明自動「進化」
    之所以這麼說,是因為現在的電腦軟體可以自動地使技術向前「進化」,而且能夠在無人操控的情況下獨立設計出新的方案。這項技術已經在很多領域得到廣泛運用,比如,機器人運動領域、計算機安全領域以及製藥領域。 這項技術的核心是一種基於遺傳學的運算法則,簡稱遺傳算法。它模仿了自然選擇的原理,任何一個設計方案都可以看做是一個由無數片段構成的遺傳基因。
  • 谷歌最牛的是它的算法,三個基本特徵表述算法
    01谷歌的核心算法谷歌作為世界上最大的搜尋引擎提供商,每年要處理的搜索數據達兆/萬億級,而要保證搜索結果的準確性和實用性,谷歌採用了高級算法來解讀用戶的需求,在2013年的時候,谷歌推出「蜂鳥」(Hummingbird)算法,進一步完善了搜索技術。
  • Talk預告|谷歌梁辰:AutoML-Zero,從0開始搜索機器學習算法
    他與大家分享的主題是AutoML-Zero: 從0開始搜索機器學習算法,將介紹如何用進化算法重新發現包括反向傳播在內的各種機器學習算法。Talk·信息主題:AutoML-Zero, 從0開始搜索機器學習算法嘉賓:Google Brain研究員 梁辰上線時間:北京時間 5月13日 (周三) 20:00地點:將門TechBeat技術社區Talk·提綱自動機器學習(AutoML)取得了很多的成功應用,但是目前的方法因為依賴於人工設計的搜索空間和模塊而不夠自動化
  • 如何高效快速準確地完成ML任務,這4個AutoML庫了解一下
    數據預處理、特徵工程、特徵提取和特徵選擇等任務皆可通過 AutoML 自動構建。圖源:https://unsplash.com/photos/pjAH2Ax4uWk自動機器學習(Automated Machine Learning, AutoML)是一個新興的領域,在這個領域中,建立機器學習模型來建模數據的過程是自動化的。
  • 谷歌開源量子算法框架Criq,有望找到量子計算機真正用途
    雷鋒網獲悉,為了讓量子計算機真正發揮效用,谷歌在近日推出了用於量子計算機的開源框架Cirq,以便公眾可以為量子計算機開發有用的算法。 Google AI Quantum團隊在博文中寫道,「Cirq專注於眼前問題,幫助研究人員了解NISQ量子計算機是否能夠解決具有實際重要性的計算問題。」
  • 俄羅斯科學家打破了谷歌的量子算法
    谷歌競相開發量子增強型處理器,該處理器利用量子力學效應將一天的時間大大提高了處理數據的速度。在不久的將來,谷歌已經設計出了新的量子增強算法,可以在存在真實噪聲的情況下運行。所謂的量子近似優化算法(簡稱QAOA)是現代開發抗噪聲量子增強算法的基礎。
  • 量子霸權:進展解析與算法展望
    基於這樣的考慮,我們應該怎樣來提出一個量子優勢的方案或者算法呢?量子優勢算法問題並沒有明確的標準,我們可以考慮下面幾點:1)是一個有明確定義的計算問題。這樣經典計算機和量子計算機可以用適合自己的算法來實現,避免出現受限於特定算法路徑而使二者處於不平等的地位, 即需要避免經典計算採用非最優算法這種情況。
  • 厲害了,拉馬努金機:用算法發現新數學!
    與物理和所有其他科學中的測量不同,數學常數可以用一個恰當的公式計算到任意精度(即小數點後任意位),從而提供的是一個絕對的基本真理。從這個意義上說,數學常數包含的是無限數量的數據(例如無理數中的無限數列序列)。e和π就是兩個幾乎無處不在的基本數學常數,從抽象的數學到幾何物理,從生物到化學,到處都有他們的身影。
  • 谷歌調整新算法!全球網站PR值將再降低
    首頁 > 動態 > 關鍵詞 > 谷歌最新資訊 > 正文 谷歌調整新算法!全球網站PR值將再降低 繼2013年穀歌進行了三年以來規模最大的算法更新後,谷歌近日再次對算法進行調整。據介紹,谷歌算法的此次調整將主要影響全球網站的PR值。谷歌新算法將降低全球網站的PR值,對網站整體質量的要求也更高。
  • 遺傳算法的發展
    • 1965年,德國的L.Rechenberg等人正式提出進化策略的方法,當時的進化策略只 有一個個體,而且進化操作也只有變異一種。 • 1965年,美國的L.j.Fogel正式提出進化規劃,在計算中採用多個個體組成的群 體,而且只運用變異操作。
  • AI技術加持色彩還原,揭秘紫光展銳圖像算法
    人類進入智慧型手機時代後,攝影方式也發生了巨大變化:用來拍照的不再只是鏡頭和傳感器了,背後還加載著一系列的圖像算法,它可以用更快的速度處理圖像,並獲得更好的拍攝效果。好作品只能依賴專業攝影師的時代過去了,圖像算法引入到手機拍照應用後,讓人人拍出好照片成為可能。
  • 74KB圖片也高清,谷歌用神經網絡打造圖像壓縮新算法
    最新的好消息是,谷歌團隊採用了一種GANs與基於神經網絡的壓縮算法相結合的圖像壓縮方式HiFiC,在碼率高度壓縮的情況下,仍能對圖像高保真還原。GAN(Generative Adversarial Networks,生成式對抗網絡)顧名思義,系統讓兩個神經網絡相互「磨鍊」,一個神經網絡負責生成接近真實的數據,另一個神經網絡負責區分真實數據與生成的數據。
  • 谷歌大腦最新研究:AutoML的方式自動學習Dropout模式
    魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAI深度神經網絡往往存在過擬合的問題,需要Dropout、權重衰減這樣的正則化方法的加持。而最近的研究表明,如果對Dropout「剪掉」的神經元的結構進行利用,就能實現比隨機替換更好的效果。