...Le: 我相信谷歌大腦正在走進第四代機器學習Learning-to-learn

2020-12-13 機器之心Pro

機器之心原創

機器之心(海外)編輯部

作為 Google Brain 的創始成員,Quoc Le 是一個天生的 AI 才子。2014 年,他利用深度學習技術和自動轉換單詞的端到端系統推動了機器翻譯性能,為谷歌隨後在神經機器翻譯方面的突破奠定了基礎。自 2014 年以來,Le 將目光投向自動化機器學習(AutoML)。2016 年,Le 與 Google 研究員合作,發表了開創性論文《Neural Architecture Search with Reinforcement Learning》,該研究推動了 Google Cloud AutoML 的創建,並使 AutoML 迅速成為熱門話題。

在這一次的採訪對談中,Quoc Le 為機器之心 (Synced) 解讀了關於 AutoML 以及 Google Brain 發展進程背後的故事。

(以下為對話原文,機器之心做了不改變原意的整理。)

您覺得 AutoML 在過去一年中取得了哪些進展和突破呢?

首先,據我所知,AutoML 最大的成功是圍繞計算機視覺的。最近我做了一個演講,回顧了計算機視覺領域的一些最新技術,結果發現 ImageNet 數據集中最好的三個或四個模型實際上是由 AutoML 生成的,而 ImageNet 可能是目前計算機視覺領域最難的競賽之一。我們自動生成的模型已經比人工設計的模型更好了。

您覺得 AutoML 具有什麼特別的意義呢?

我認為機器學習的許多應用領域都存在著這樣一個真實的現象:NLP 和語音模型都是由人類專家手工調整和設計的,這需要付出很多努力、投入大量時間。AutoML 所做的基本上是能夠自動設計模型並且比人類設計的模型更好。雖然你必須進行大量的計算,但是進入循環的人力減少了。這屬於其中一個部分,關於架構生成和模型生成。

第二部分是關於數據增強方面。今年我們進行了大量研究,使用機器學習來進行自動化數據處理和數據增強的過程。例如,讓模型做得更好的一種方法是豐富你的數據。如果你有一隻貓的圖像,你相信如果你稍微旋轉那個圖像,它仍然是一隻貓;或者你放大這個圖像,它仍然是一隻貓,然後你便可以豐富你的數據,這個過程稱為數據增強。

這很難。人們多年以來都在全力以赴地做到這一點。我們的項目會自動化這個過程。我們採用一個函數庫來獲取圖像並對其進行處理。例如,它會使圖像變亮、變暗或均衡圖像,然後選取其中一個函數,讓我們在處理該圖像的小程序中進行組合從而豐富我們的數據集。當進行了很多計算時,我們就可以自動化該過程,並且非常成功。我們有一篇名為《Improving Deep Learning Performance with AutoAugment 》的論文,對於我們應用的每一個數據集,它都帶來了很大的改進,這讓我看到了很大的希望。

您能總結一下您在 2018 年的研究和工作嗎?

我在過去一年的工作可以劃分為不同的垂直領域。我從事計算機視覺、結構數據和 NLP 方面的研究。如果從技術上來分,2018 年我主要關注模型生成和數據生成兩方面。

與其他公司相比,您認為 Google Brain 對人工智慧的追求有何不同?

也許我可以先告訴你我起初為什麼會選擇在這類項目上工作。人工智慧的發展經歷了四代。第一代被稱為 Good Old-fashioned AI。Good Old-fashioned AI 意味著你用手工製作一切,什麼都不學。第二代是淺層學習。在淺層學習中,你手工製作了一些特徵並學習了如何分類。第三代,深度學習,也就是到目前為止很多人都享受其中的。基本上你手工編寫算法,但是你學習了這些特徵,你學習了預測,端到端,其中涉及了比淺層學習更多的學習。第四代,這是新的東西,也是我現在的工作,我稱之為 Learning-to-learn (學會學習)。在這一代,我們應該學習一切。我們應該同時學習架構、數據處理、算法和預測等功能。目前我們正處於第四代的開始,所以在谷歌大腦,我們確實致力於 Learning-to-learn 這個方向。這是 Google Brain 正在研究的眾多領域之一。我們的使命是努力建立智能,讓生活更美好。因此,我們會確保我們構建的技術可以使很多人受益。因此,我們在遊戲 AI 上沒有投入太多,但我們在嘗試開發技術來改善類似醫學成像、自動駕駛這些不同領域的應用效果。最近,Waymo 撰寫了關於我們在 AutoML 和他們自動駕駛汽車項目合作的博客文章,我們為他們的自動駕駛汽車項目實現了一系列模型的自動化。因此,我們雖傾向於進行早期研究,但我們也非常努力地使我們的技術對用戶產生價值。

2019 年您的研究工作重點是什麼呢?

就像我說的那樣,目前是在 Learning-to-learn 的初期。我相信我們正在進入第四代機器學習,這一代機器學習你不需要做太多,它自己會學到一切。我在架構研究和 AutoML 方面的一些工作還處於初期階段,因此我將繼續擴展並進一步研究如何從端到端學會一切。

2019 年,您對 AutoML 相關技術和應用的發展有何期望?

我認為大多數雲平臺,或商業雲平臺將以一種形式或另一種形式運用 AutoML,因為我認為這對最終用戶來說會產生很大的影響。可以編寫機器學習程序的人實際上非常少,但想要實際使用機器學習的人卻非常多。AutoML 是研究人員將其技術實際轉移到許多其他公司的絕佳機會,所以我希望很多雲公司都會使用 AutoML。在研究中,我認為它將開始獲得很大的動力。我已經看過許多來自學術界的那些非常令人興奮的論文。在 Google 之外,他們在這個領域做了非常有趣的工作,其中一些重要的突破也來自中國。

如果 AutoML 想達到更好的性能表現,目前所遇到的技術挑戰是什麼?

我認為目前很多 AutoML 的問題仍然是需要在搜索空間中進行一些手工操作。因此,為了讓 AutoML 工作,一種方法是搜索所有可能的程序,但這是一個非常大的搜索空間。因此,我們傾向於限制一下,比方說在許多 TensorFlow 函數中進行搜索等。如果不必花太多時間在搜索空間上,我認為會很棒,這是第一。第二是我們擁有的許多搜索方法仍然有點貴,資源僅適用於大公司。所以你才看到大公司能從這個領域中做出很多非常正確的研究。不過我認為最近已經有一些方法可以使用來自學術界和其他一些看起來非常有希望的公司的高效搜索方法,所以我對此抱有希望。但我認為這是 AutoML 未來需要改進的兩個關鍵部分。

您認為未來還有哪些其他新的技術方向需要探索呢?

在 AutoML 之外,無監督學習的出現讓我覺得非常興奮。我認為無監督學習將釋放大量已激活數據的巨大潛力,並且我們在過去幾年中已經開始看到很多進展。所以我特別要提出這篇名為 BERT 的論文,我想很多人都熟悉 BERT。我們已經在 Google 上發布了使用預訓練語言模型來改進下遊應用程式的想法,這非常酷。它建立在早期許多團隊的其他非常好的研究之上,它積累到了令人興奮的模型輸入的那一刻,這很酷。我期待看到更多像無監督學習這樣的發展,因為它將釋放另一種潛力,如未標記的數據。另外,我在設計可擴展模型方面也看到了巨大潛力。這樣的模型非常大,你可以利用大量數據,但在同時推理成本卻很低。所以我們的想法是你可以訓練非常大的模型但是你不需要花費太多的計算來評估這個模型。這也是令人興奮的另一個方向。

在過去的一年中,人工智慧領域出現了包括數據洩漏、人才稀缺、模型偏見、可解釋性、執法等方面的問題。您最關心哪一個問題?能否就此問題談談您的看法?

預測中的偏見可能是我最擔心的事情。我們擁有的許多機器學習模型取決於訓練數據。很多時候,由於某種原因,我們似乎對我們的訓練數據不夠了解。如果預測存在偏見,可能會影響很多人,然而我們似乎沒有在這方面取得足夠的進展。不過我想我們會取得進展的,因為目前很多研究人員都在積極思考這個問題。

在過去七年中,Google Brain 取得了非凡的成功,很少有其他 AI 研究實驗室可以超越。而且您也為 TensorFlow、AutoML 和 Google Neural Translate 的開發做出了貢獻,所以您能說說 Google Brain 成功將實驗室技術應用到產品中的秘訣是什麼嗎?

首先,其實我們還有很多需要向其他研究實驗室學習的地方,他們做得非常棒。至於我們的秘訣,我認為 Google Brain 其中一個獨特之處在於,在我們的環境中,研究人員有很多機會與非常優秀的工程師合作。在許多其他研究實驗室中,研究人員和工程師往往要麼在不同的地方工作,要麼在不同的團隊中工作,諸如此類。但在 Google Brain 中,這兩者能非常好地融合協作。我和非常有才華的工程師一起工作,他們看了我們做的一些研究,然後能找出一種不同的方式,做出比我們最初想要的更好的產品。另一方面是我們的環境非常自下而上。我們辦公室的許多研究人員確實對如何應用他們的技術以及應用於什麼產品非常有創造力。有時你最終會以非常有創意的方式為你的產品找到你從未見過的應用程式或探索到不同的方向。我認為這些都是 Google Brain 做的非常好的事情。因此,第一個秘訣是要做非常綜合的研究模型,將工程和研究結合起來,這也是 TensorFlow 能夠迅速開發和谷歌翻譯能夠快速啟動的原因。第二個秘訣實際上是一個自下而上的研究模型,使工程師和研究者可以找到一種方法來創造性地將他們的技術應用到產品當中。

本文為機器之心原創,轉載請聯繫本公眾號獲得授權

相關焦點

  • 對話Quoc Le: 我相信谷歌大腦正在走進第四代機器學習Learning-to...
    2014 年,他利用深度學習技術和自動轉換單詞的端到端系統推動了機器翻譯性能,為谷歌隨後在神經機器翻譯方面的突破奠定了基礎。自 2014 年以來,Le 將目光投向自動化機器學習(AutoML)。今年我們進行了大量研究,使用機器學習來進行自動化數據處理和數據增強的過程。例如,讓模型做得更好的一種方法是豐富你的數據。如果你有一隻貓的圖像,你相信如果你稍微旋轉那個圖像,它仍然是一隻貓;或者你放大這個圖像,它仍然是一隻貓,然後你便可以豐富你的數據,這個過程稱為數據增強。這很難。人們多年以來都在全力以赴地做到這一點。我們的項目會自動化這個過程。
  • 谷歌也發布了Web前端機器學習庫,就叫deeplearn.js
    以往大家對前端機器學習庫的關注度較低,不外乎人們認為 JavaScript 運行速度低、應用範圍窄、支持前端的庫少等幾個原因。不過許多JS圖形庫已經有力地證明了 JavaScript 不是低速的代名詞,帶有構建好的機器學習算法的庫也確實有一些,比如 brain.js、Synaptic、Natural、ConvNetJS、mljs等等,分別是幾個神經網絡、自然語言處理等的庫,其中最出名、最先進的是卷積神經網絡庫 ConvNetJS,不過據雷鋒網(公眾號:雷鋒網) AI 科技評論了解,它已經不再積極地維護了
  • Python + Scikit-learn 完美入門機器學習指南 ​
    Scikit-learn 是一個非常流行的機器學習工具,它幾乎集成了所有經典的機器學習算法,你只需要幾行代碼,通過簡單的方法類調用,就可以實現原本複雜的機器學習模型。如果你是一名 Python 程式設計師,又正好想學習一下人工智慧技術,scikit-learn 可能是你最好的選擇之一。
  • 【全自動機器學習】ML 工程師屠龍利器,一鍵接收訓練好的模型
    AutoML 如同倚天劍屠龍刀一般,使機器學習工程師功力大增,但這樣一件利器在不久之前似乎知曉的人並不多,2017 年 5 月 18 日,谷歌開發者大會(I/O)以「學會學習」(learning to learn)為口號,才將 AutoML 推到更多人的視野中來。
  • Jeff Dean兩年AMA全盤點:26個關於谷歌大腦和機器學習未來的問題...
    兩年的AMA下來,Jeff Dean基本上借著網友提問對谷歌大腦的相關情況做了非常全面的回答,不僅有很多「是什麼」和「為什麼」,還有很多「未來會如何」。雷鋒網(公眾號:雷鋒網) AI 科技評論把這些問答做了個整理,相信還對谷歌大腦有任何疑惑的讀者看完以後都會得到滿意的解答。(部分重複問答有刪節)
  • python機器學習之使用scikit-learn庫
    引言數據分析由一連串的步驟組成,對於其中預測模型的創建和驗證這一步,我們使用scikit-learn這個功能強大的庫來完成。scikit-learning庫python庫scikit-learn整合了多種機器學習算法。
  • 持續搬運~~谷歌機器學習速成課程(01)
    在線課程地址:https://developers.google.com/machine-learning/crash-course/官方還貼心的為中國的開發者製作了中文頁面:不光文字是中文的,老外的講課,還用機器機器學習技術,給配了中文的發音。多少年,谷歌的機器苦練中文發音和文法,這下有了用武之地。
  • 從Few-shot Learning再次認識機器學習
    首先申明本人並不是在研究這個領域有著深入研究的「專家」,如果文中有講解不對的地方,還請各位大佬留言批評指正。當我看完 《Generalizing from a few examples: A survey on few-shot learning》 這篇文章的時候,我對於機器學習又有了一種新的,與其說它讓我理解了什麼是Few-shot learning,不如說它讓我明白了如何更好地處理機器學習問題,不論是科研還是在實際應用當中(可以說是所有其它模型算法),都可以從文章指出的三個角度去考慮:數據、模型、算法
  • 最好的Python機器學習庫
    引言毫無疑問,神經網絡和機器學習在過去幾年一直是高科技領域最熱門的話題之一。這一點很容易看出,因為它們解決了很多真正有趣的用例,如語音識別、圖像識別、甚至是樂曲譜寫。因此,在這篇文章,我決定編制一份囊括一些很好的Python機器學習庫的清單,並將其張貼在下面。
  • 別翻牆了,谷歌機器學習速成課25講視頻全集在此
    嶽排槐 發自 LZYY量子位 出品 | 公眾號 QbitAI想必不少人都知道了,前幾天谷歌推出免費的機器學習速成課程。
  • 「重磅直播」Jeff Dean領銜谷歌大腦在線答疑16大問題,看好3大方向
    今年早些時候,在史丹福大學舉行的 Scaled ML 大會上,我發表了關於這個問題的演講,從幻燈片的第80 頁開始(有些背景知識從第 62 頁開始)。人們常說要開放數據集/代碼,但很少提計算力。谷歌在機器學習和AI方面投入巨大,訓練AlphaGo用了將近300個GPU,還只是單個模型,這樣一項研究要用到好幾千個GPU了。
  • 200種機器學習教程匯總!
    我將這篇文章分為四個部分:機器學習,NLP,Python和數學。我在每個部分都包含了一些主題,但由於機器學習是一個非常複雜的學科,我不可能包含所有可能的主題。如果有很好的教程你知道我錯過了,請告訴我!我將繼續完善這個學習教程。
  • 【乾貨】我是怎麼用四個月時間速成全棧機器學習的
    【編者按】Jason Carter曾是一名多倫多軟體工程師,2017年初,為了進入深度學習這一新興領域,他辭職,展開了為期4個月的全日制學習,並為自己設計了一份具體的學習計劃,最終他根據計劃,掌握了全棧機器學習工程師的技術。智能觀整理了他的自學計劃,分享給大家。
  • 谷歌推出「Federated Learning」
    現在,為利用行動裝置上的人機互動來訓練模型,谷歌發明了一個新名詞——Federated Learning。谷歌表示,這會是機器學習的另一大未來發展方向。那麼,什麼是 Federated Learning?它意為「聯合學習」——能使多臺智慧型手機以協作的形式,學習共享的預測模型。與此同時,所有的訓練數據保存在終端設備。
  • 選機器學習課程怕踩雷?有人幫你選出了top 5優質課
    機器學習根植於統計學,正在逐漸成為最有趣、發展最快的計算機科學領域之一。機器學習可應用到無數行業和應用中,使其更加高效和智能。聊天機器人、垃圾郵件過濾、廣告服務、搜尋引擎和欺詐檢測,這些都是機器學習模型在日常生活中的應用實例。機器學習使我們為人類力不能及的事找到模式、創建數學模型。
  • 谷歌上線機器學習速成課程:中文配音+中文字幕+完全免費!
    ,其中的課程來自谷歌的機器學習專家的教育資源。值得注意的是,該網站提供了一整套機器學習課程——MLCC(Machine Learning Crash Course with TensorFlow APIs)。該課程共15個小時,分為25節課、40多項聯繫,其中包括Google研究人員的講座、實際案例研究,並以互動方式直觀呈現算法的實際運用。
  • 谷歌發布機器學習規則 (Rules of Machine Learning): 關於機器...
    例如,如果您正在嘗試最大程度地增加下載次數,但同時也想要優質的內容,則可能的解決方案是用標籤乘以應用獲得的平均星數。您可以非常靈活地修改標籤。請參閱「您的第一個目標」。在機器學習系統中使用啟發式算法時,請務必留意是否會帶來額外的複雜性。在新的機器學習算法中使用舊啟發式算法有助於實現平穩過渡,但思考下是否有可以達到相同效果的更簡單的方法。
  • 【下載】Scikit-learn作者新書《Python機器學習導論》, 教程+代碼手把手帶你實踐機器學習算法
    Müller同時也是著名機器學習Python包scikit-learn的主要貢獻者 Andreas Muller 和 Reonomy 公司數據科學家 Sarah Guido 的新書《Python機器學習導論》(Introduction to machine learning with Python)從實戰角度出髮帶你用Python快速上手機器學習方法。
  • 機器學習實踐指南
    在這些眾多的選擇裡面,很容易迷失你最初想學習的目標。所以在今天的文章中,我會列出 7 個步驟(和 50 多個資源)幫助你開啟這個令人興奮的計算機科學領域的大門,並逐漸成為一個機器學習高手。請注意,這個資源列表並不詳盡,只是為了讓你入門。 除此之外,還有更多的資源。
  • 乾貨 | 請收下這份機器學習清單(附下載連結)
    在今年秋季開始準備博士項目的時候,我已經精選了一些有關機器學習和NLP的優質網絡資源。一般我會找一個有意思的教程或者視頻,再由此找到三四個,甚至更多的教程或者視頻。猛回頭,發現標收藏夾又多了20個資源待我學習(推薦提升效率工具Tab Bundler)。