大咖| GAN之父Ian Goodfellow在Quora:機器學習十問十答

2020-12-11 大數據文摘

大數據文摘作品,轉載要求見文末

編譯 | Aileen,張禮俊

笪潔瓊,錢天培

近日,GAN之父Ian Goodfellow在Quora上舉行了一年一度的live問答活動。不同於去年的獨挑大梁,他今年還叫來了他在Google Brain的好基友Alexey Kurakin。本次互動吸引了將近2萬Quora用戶的參與,兩人總共回答了網友提出的35個機器學習相關的問題。

大數據文摘從中精選出10個問題,從機器學習入門到深入探討都有涉及,帶你了解大佬眼中的機器學習。當然,我們也摘錄了Ian Goodfellow對他的「愛子」GAN的點評。

此外,文摘將在本周推出Quora問答精選專欄,大家敬請關注!

給新人的學習建議

1. 你建議其他領域的人(比如機械工程)來學習機器學習嗎?

Ian Goodfellow:當然了!我最崇拜的Geoffrey Hinton在博士階段研究領域是實驗心理學!

在機械工程裡,我想你已經學了很多能用到機器學習領域的數學工具,所以你並不需要從頭開始。通常而言,我們發現某一領域的變革往往是因為另一個領域的人帶來了其領域中已成型的新想法!

2. 一個幾乎沒有任何技術背景的人怎麼學習機器學習?

Ian Goodfellow:你應該要掌握一些基本的線性代數、概率和python的編程知識!

但是你不必知道所有的線性代數知識(比如QR分解就是不必要的),所有的概率論知識(通常我們也不會在深度學習中用到太多排列組合,序列重排序之類的知識),或者所有python編程的知識(實際上一些很晦澀難度的語言特性在一些公司是被禁用的)。

我覺得你應該從學習足夠的線性代數、概率論和python編程做起,目標是你可以只用python和numpy庫實現邏輯回歸!

通過閱讀我的深度學習(http://www.deeplearningbook.org)那本書的第一章到第五章,你就能學到完成邏輯回歸編寫所需的所有知識了,python的部分除外。當然我很難說這是否可行,因為我很難把自己放在一個沒有任何技術背景的人的角度去考慮,但是我們已經嘗試在書裡放入了足夠多的細節,所以你應該是沒問題的。你需要一些耐心和努力,從零開始學習知識!

3. 作為一個大二學生,我該如何進入人工智慧領域?

Ian Goodfellow:

如果你野心勃勃,邊實踐邊學習,並參與我們的對抗樣本競賽吧(NIPS 2017: Non-targeted Adversarial Attack)

學習教你線性代數和概率論的課。

學習可以教你寫出適合你所用硬體的高效代碼的課。有時這會是硬體設計的課,而不是編程課。如果你不確認的話可以詢問你的導師。

學習教你寫高效實時多線程代碼的課。有時這個課題會被包含在其他課裡,比如計算機系統開發和遊戲開發。

讀《深度學習》這本書。

選一個你感興趣的機器學習項目。如果不知道怎麼將深度學習應用到你的愛好或者課程項目上,那就做一些比較常用的項目,比如在TensorFlow上從頭開始構建一個SVHN(Street View House Numbers)分類器。做一遍這個項目,當你對某些你讀到的問題有疑問的時候,嘗試用你的代碼作一些實驗,從而回答這個問題。

如果你的學校有機器學習、計算機視覺、自然語言處理和機器人學的課,那就趕緊去上吧。

當然也可以來申請谷歌大腦的實習啦!

4. 說3本你最推薦的機器學習的書吧?

Ian Goodfellow:哈哈,我當然會推薦我和Yoshua還有Aaron一起寫的《深度學習》。十年前,當我在學習機器學習的時候,我最喜歡的書有:

Chris Bishop的《模式識別和機器學習》(Pattern Recognition and Machine Learning)以及Daphne Koller 和Nir Friedman 的《概率圖模型》(Probabilistic Graphical Models)。而在我對機器學習頗有了解之後,我就不怎麼看新書了,比如說Kevin Murphy’s 寫的《Machine learning: A Probabilistic Perspective》,所以我推薦的不一定就是最佳的。

一般機器學習類問題

5. 你最喜歡的超參數(hyperparameters)優化的方法是什麼?

Ian Goodfellow:隨機搜索。用隨機的超參數並行跑25次算法,選擇其中最好的兩三組超參數,在這些最好的超參數的附近再隨機選25組跑。

我幾乎每年都會試一些近來比較流行的超參數優化器,把他們和隨機搜索進行對比。到現在為止,我還沒看到哪一個專門的優化器能找到比隨機搜索更好的超參數。當然,我也知道其他人會有不同的看法。鑑於我更偏向研究領域,我通常會比別人用更多的超參數,我用到的算法也會更奇怪。

6. 谷歌大腦今年正在從事哪方面的研究呢?

Ian Goodfellow:谷歌大腦是一個很大的團隊,獨立研究者們有很大的自由度去實現他們自己的想法,所以我很難將這些研究方向總結出來。

你可以在我們的網站上看到更多的信息:Research at Google(https://research.google.com/teams/brain/)

我們的基礎研究試圖改進機器學習的算法,建造出使機器學習更強有力的計算機系統(像TensorFlow),我們也將機器學習應用到醫療保健、機器人學、音樂與藝術生成的問題中。

我和Alexey是聚焦對抗性機器學習的基礎研究團隊的一員。我們製造虛構的對抗器,令算法有表現的更好(像GAN),我們也試圖找到真實世界中的對抗器(像對抗樣本)。

7. 深度學習的下一步是什麼?

Ian Goodfellow:

深度學習還有好多需要發展的領域呢。試著開闊你的思維,不要僅僅只在一個方向上思考。

更好的強化學習/深度學習和強化學習的整合;能夠可靠地學習如何控制機器人的強化學習算法等。

更好的生成式模型;可以穩定地學習如何生成人類分不出真假的圖像、語音、文字的算法。

學習如何學習的算法,以及普適深度學習算法(可以重新設計它們自己的架構,自行優化超參數的算法)。現在,我們依然需要人類專家來運行「學習如何學習」的算法,未來我們希望這一過程能被簡化,而那些當前與AI關聯甚少的行業也能受益於AI的成果。

服務於網絡安全的機器學習,以及機器學習自身的網絡安全:越來越多的網絡攻擊使用機器學習來生成惡意軟體,這些軟體能有效率地躲過漏洞模糊測試。同時,更多的網絡防守軟體也會用到機器學習,從而給出比人類更快的反應,檢測更多細微的入侵。不同陣營的機器學習算法會互相欺騙對方,進行攻防大戰。

計算力提升:動態活動分配會讓更大的模型使用更少的計算操作來處理一個簡單的樣本。但總體來說,大量的計算依然會是人工智慧的關鍵。

半監督學習和極小樣本學習(one-shot learning):這能夠減少訓練所需的數據,使人工智得到更廣泛的應用。

幾乎不犯錯誤、具有極高穩定性的模型:這樣的模型會被用於對安全性有高要求的領域。

深度學習會繼續在大眾文化中擴張,我們會看到越來越多的藝術家和流行文化引領者們用深度學習去做我們意想不到的事。我認為Alexei Efros的實驗室和像CycleGAN這樣的項目就是這個潮流的開端。

8. 在未來,哪個機器學習領域會取代深度學習?

Ian Goodfellow:「深度學習」是一個非常廣泛的概念,我不確定它是否可以被取代。深度學習只是意味著用更多的處理步驟來學習,而不是僅僅只有一步。從這點來說,相比於「淺」的算法,「深」的算法會遇到組合爆炸的問題。

在2006-2011,「深度學習」很流行,但是這裡的「深度學習」多是把許多無監督學習算法疊起來,從而為監督學習定義複雜的特徵。

2012年之後,「深度學習」往往意味用反向傳播來優化一個代表某個可微分函數的深計算圖的所有參數。

在不久後,我們可能會更多地用到貝葉斯化算法(而不是基於最優參數的點估計),以及更多的不可微操作。(譯者註:貝葉斯算法從概率推斷的角度構建算法,通常對模型有先驗概率,通過觀察到的樣本和貝葉斯定理來進行推斷。)我們當然也可以繼續認為它們是「深」的,也可以不去思考它們是否是「深」的。我認為,試圖將深度學習和其他學習算法區分開是不必要的。我們對深度學習早已司空見慣,不需要再給它一個特殊的名字了。

9. 現今人工智慧和機器學習系統有什麼缺陷?

Alexey Kurakin:就我看來,一個最大的限制是大多數機器學習系統只能解決一個特定的問題(圖像、文字、強化學習等)和特定的任務。所以每次面對一個新任務,你都需要重新設計一個分類器,搜集訓練數據,訓練你的模型,或者至少要調整你上一個任務所獲得的分類器。

比如說如果你在一個圖像集上訓練一個分類器,可能在另一個圖像集上準確度就會降低。並且也可能難以解決不同類型的問題(比如說自然語言處理)。

現在有研究在試圖解決這些挑戰。近來谷歌大腦的一篇文章(One Model To Learn Them All)提出了一個能解決不同類型問題的架構,然而這個問題還遠沒被完全解決。

GAN類問題

10. 機器學習領域的新人應該了解對抗性機器學習(adversarial machine learning)的哪些內容?

Alexey Kurakin:首先,你要對機器學習和深度學習有一定的了解,這樣才能理解這個問題的背景。

對抗性機器學習研究的是,當同一個機器學習分類器的不同子部分有完全相反的獎勵函數(或是損失函數)時我們的應對技術。對抗式機器學習最典型的應用是:生成式對抗網絡和對抗樣本(Adversarial examples)。你也可以在其他機器學習論文中找到這個方法的應用。

在生成式對抗性網絡(generative adversarial network, GAN)中,你有兩個網絡:生成網絡和判別網絡。生成網絡的目標是生成「仿真」的數據樣本,判別網絡則是要將生成的「仿真」樣本和真實樣本區分開。

對抗樣本是那些被微調而導致錯誤分類的樣本。對抗樣本通常會在機器學習穩定性和安全性問題中被考慮到。有相反獎勵函數的兩個子部分如下:一個分類器被優化後能夠有很高的分類精確度和很好的泛化特性,而另一個對抗器則是要通過幹擾輸入試圖「欺騙」之前的分類器。

如果你想了解更多的信息,github網頁提供了很不錯的對抗性機器學習的論文和閱讀材料(yenchenlin/awesome-adversarial-machine-learning。)

相關焦點

  • 專訪Ian Goodfellow:不積跬步無以成就GAN
    在他們的對話中,深度學習研究員、GAN之父Goodfellow回顧了自己當年的科研經歷,簡要介紹了自己對於科研、行業和未來發展的一些看法。Sanyam Bhutani:您好,GAN之父,感謝您願意接受我的採訪。Ian Goodfellow:非常歡迎!
  • 重磅| GAN之父Ian Goodfellow加盟蘋果
    目前,Ian Goodfellow 的 LinkedIn 帳戶已經更新了最近的跳槽活動:「我在蘋果公司領導一個機器學習特殊任務群組。」Goodfellow 寫道。Ian Goodfellow 是生成對抗網絡(GAN)之父,他的著作在 AI 領域廣為引用。Goodfellow 是谷歌在過去的 12 個月裡被蘋果挖走的第二位 AI 人才,是後者加強其 AI 戰略的結果。
  • GAN之父Ian Goodfellow:那個賦予機器想像力的人類
    ,Ian Goodfellow創造了一個強大的AI工具。Ian Goodfellow朋友們提出的方案是對那些組成圖片的元素進行複雜的統計分析以幫助機器自己生成圖片。這需要進行大量的數據運算,Ian Goodfellow告訴他們這根本行不通。
  • 谷歌34歲AI新生代領袖被蘋果挖走 「GAN之父」Ian Goodfellow跳槽
    當地時間周四(4月4日),隨著 Ian Goodfellow 更新了他在領英上的個人資料,他 3 月份從谷歌跳槽到了蘋果的事實得到了證實。目前,他是蘋果特殊項目小組的機器學習主管。DeepTech 曾就此事聯繫 Goodfellow ,未收到沒有回覆相關評論。
  • GAN之父身份遭質疑!一篇2010年的博客挑戰Ian Goodfellow
    Ian Goodfellow於2014年提出的GAN,至今已經是計算機視覺領域最重要、使用最廣泛的概念之一。學術界流傳的一則GAN誕生的傳說。據說是因為一天晚上Ian Goodfellow在酒吧在喝高的狀態下與同事討論學術問題,突然靈光一閃,提出了GAN初步的想法,當時並沒有得到同事的認可。
  • lan Goodfellow IEEESSP最新演講:對抗性實例安全性研究及其未來
    大數據文摘作品作者:鄭璇真繼上周密集更新的推特小課堂後,時刻操心著大家學習的IanGoodfellow老師又發推文給大家開小灶了!先來回顧一下上周的推特小課堂:學界 | Ian Goodfellow發推講2個機器學習黑魔法,教你如何推導公式學界 | Ian Goodfellow推特小課堂又開課啦:數學求導的小技巧
  • Ian Goodfellow發推講2個機器學習黑魔法,教你如何推導公式
    大數據文摘作品作者:小魚、土豆《深度學習》(花書)作者Ian Goodfellow今早連發了10條推特,細數了他最喜歡的兩個機器學習「黑魔法」。當然,更詳盡的操作還是要去看Goodfellow本人的《深度學習》。文摘菌給大家搭配了斯坦福的一門MOOC,一起學習風味更佳~拉至文末查看喔~Goodfellow稱,這是關於機器學習,他最喜歡的兩個快速理解理論推導的「黑魔法」。
  • GAN初創者另有其人?IanGoodfellow:只是純策略版本
    眾所周知,生成對抗網絡(GAN)是由Ian Goodfellow 於2014年提出的。但是,一篇reddit熱帖披露早在2010年OlliNiemitalo即提出了同樣的概念。Goodfellow回應道:沒有提到隨機 z 向量,只是純策略版本。Ian Goodfellow於2014年提出的。
  • 「我比Goodfellow提前三年想到了GAN」
    大數據文摘出品作者:魏子敏2014年的一晚,Ian Goodfellow和一個剛剛畢業的博士生一起喝酒慶祝。在蒙特婁一個酒吧,一些朋友希望他能幫忙看看手頭上一個棘手的項目:計算機如何自己生成圖片。Ian Goodfellow朋友們提出的方案是對那些組成圖片的元素進行複雜的統計分析以幫助機器自己生成圖片。這需要進行大量的數據運算,Ian Goodfellow告訴他們這根本行不通。邊喝啤酒邊思考問題時,他突然有了一個想法。如果讓兩個神經網絡相互對抗會出現什麼結果呢?他的朋友對此持懷疑態度。
  • Ian Goodfellow 談 GANs 論文評審:有這些跡象的論文要懷疑
    雷鋒網 AI 科技評論按:谷歌大腦研究員、「GANs」之父、《Deep Learning》課本作者之一的 Ian Goodfellow 自上次的線上直播裡回答了網友們提出的種種問題之後,昨天也在 Twitter 上發表了很多關於
  • Ian Goodfellow推薦論文:給機器學習增加防禦就能解決魯棒性問題...
    雷鋒網 AI 科技評論按:在谷歌大腦做人工智慧研究的Ian Goodfellow這篇論文的內容剛好與他關於測試與驗證方法的文章相呼應,可謂是對他提出的機器學習模型安全性堪憂觀點的實證。論文關注的是機器學習模型面對攻擊性數據時的防禦表現,也就是模型的魯棒性。論文中用生成式的方法修改MNIST和CIFAR-10中的圖片,形成對抗性的樣本,目的是讓分類器對修改後的樣本產生誤判,藉此對分類器的所用防禦方法的效果進行評價。
  • Ian Goodfellow線上直播實錄:關於GANs的那些不為人知的事兒
    雷鋒網AI科技評論按:近日,「GANs之父」Ian Goodfellow 做客國外一檔「你問我答」(Ask Me Anything)的線上問答節目,提問者可以直接對 Ian Goodfellow 提出任何關於 GANs 的問題,下面 AI 科技評論帶大家圍觀 GANs 發明的背後都有哪些不為人知的故事。
  • 谷歌頂級人工智慧專家Ian Goodfellow加入蘋果公司 擔任總監級別職務
    北京時間4月5日凌晨消息,據美國媒體CNBC報導,作為曾經谷歌人工智慧領域的頂尖人物之一,Ian Goodfellow已加入蘋果公司擔任總監級別職務。    Goodfellow周四更新了他的LinkedIn個人資料,確認他在3月份從谷歌跳槽到蘋果公司。他說他是特殊項目團隊的機器學習負責人。除了為FaceID和Siri等功能開發AI之外,蘋果公司還一直致力於自動駕駛技術。最近,自動駕駛團隊進行了一輪裁員。  一位谷歌發言人證實了他的離職。蘋果拒絕發表評論。Goodfellow沒有回覆評論請求。
  • 谷歌大牛Ian Goodfellow已經加盟蘋果,擔任特殊項目的機器學習主管
    谷歌大牛Ian Goodfellow已經加盟蘋果,擔任特殊項目的機器學習主管。 又有大牛被蘋果挖走。 谷歌高級研究科學家、OpenAI研究科學家Ian Goodfellow周四更新了自己的LinkedIn,最新的職業信息顯示,他3月份已經加盟蘋果,擔任特殊項目的機器學習主管。
  • Ian Goodfellow跟帖回應
    谷歌大腦負責人 Jeff Dean 日前在推特上轉了一篇名字為 Anish Athalye 的推文,立刻引起了整個機器學習學術圈的關注,被譽為「GANs 之父」的 Ian Goodfellow 也接連跟帖回復。
  • 國家政務服務平臺「防疫健康信息碼」十問十答
    國家政務服務平臺「防疫健康信息碼」十問十答 2020-12-03 18:10 來源:澎湃新聞·澎湃號·政務
  • Ian Goodfellow推特小課堂又開課啦:數學求導的小技巧
    大數據文摘作品作者:小魚、蔣寶尚最近,Ian Goodfellow不斷在推特和大家分享一寫學習的小技巧。Goodfellow稱,他最喜歡用超實數(hyperreal numbers)來求導數。註:超實數是一個包含實數以及無窮大和無窮小的域,它們的絕對值分別大於和小於任何正實數。
  • 【Ian Goodfellow 強推】GAN 進展跟蹤 10 大論文(附下載)
    新智元報導 編譯:小潘、肖琴【新智元導讀】生成對抗網絡GAN的提出者Ian Goodfellow在推特上推薦了10篇GAN論文,是跟蹤GAN進展,了解最新技術不容錯過的。Ian Goodfellow 評論此工作:ML 的研究人員,審稿人和有關 ML 的新聞報導需要對結果的統計穩健性和超參數的效果進行更認真的研究。這項研究表明,過去一年多的很多論文只是觀察抽樣誤差,而不是真正的改進。
  • 朱一龍十問十答,30歲,焦慮嗎?讓自己先動起來!
    萬萬沒想到居然還有後續:朱一龍十問十答。「30歲,焦慮嗎?」,「『朱一龍』三個字是『負累』嗎」,「不工作的時候做什麼?」,「解壓的小方法?」,「會在監視器看自己的表演嗎?」,「對道具妝容會有嚴格的要求嗎?」,「對大學生活印象最深的是?」,「大學教育對你最大的影響?」,「武漢人有什麼特點?」
  • Ian Goodfellow 和 Papernot 半年三篇博文,對機器學習的安全隱私來了個大起底
    AI 科技評論按:隨著人工智慧研究的不斷發展,由機器學習模型在背後提供支持的功能越來越多地開始商業化,最終用戶的生活裡機器學習能造成的影響也越來越大。這時候,機器學習的安全和隱私問題也就越來越明顯,誰都不想被自動駕駛的車輛傷害,誰也都不希望自己的語音助手洩露自己的私人信息。