大咖| GAN之父Ian Goodfellow在Quora:機器學習十問十答

2020-12-05 大數據文摘

大數據文摘作品,轉載要求見文末

編譯 | Aileen,張禮俊

笪潔瓊,錢天培

近日,GAN之父Ian Goodfellow在Quora上舉行了一年一度的live問答活動。不同於去年的獨挑大梁,他今年還叫來了他在Google Brain的好基友Alexey Kurakin。本次互動吸引了將近2萬Quora用戶的參與,兩人總共回答了網友提出的35個機器學習相關的問題。

大數據文摘從中精選出10個問題,從機器學習入門到深入探討都有涉及,帶你了解大佬眼中的機器學習。當然,我們也摘錄了Ian Goodfellow對他的「愛子」GAN的點評。

此外,文摘將在本周推出Quora問答精選專欄,大家敬請關注!

給新人的學習建議

1. 你建議其他領域的人(比如機械工程)來學習機器學習嗎?

Ian Goodfellow:當然了!我最崇拜的Geoffrey Hinton在博士階段研究領域是實驗心理學!

在機械工程裡,我想你已經學了很多能用到機器學習領域的數學工具,所以你並不需要從頭開始。通常而言,我們發現某一領域的變革往往是因為另一個領域的人帶來了其領域中已成型的新想法!

2. 一個幾乎沒有任何技術背景的人怎麼學習機器學習?

Ian Goodfellow:你應該要掌握一些基本的線性代數、概率和python的編程知識!

但是你不必知道所有的線性代數知識(比如QR分解就是不必要的),所有的概率論知識(通常我們也不會在深度學習中用到太多排列組合,序列重排序之類的知識),或者所有python編程的知識(實際上一些很晦澀難度的語言特性在一些公司是被禁用的)。

我覺得你應該從學習足夠的線性代數、概率論和python編程做起,目標是你可以只用python和numpy庫實現邏輯回歸!

通過閱讀我的深度學習(http://www.deeplearningbook.org)那本書的第一章到第五章,你就能學到完成邏輯回歸編寫所需的所有知識了,python的部分除外。當然我很難說這是否可行,因為我很難把自己放在一個沒有任何技術背景的人的角度去考慮,但是我們已經嘗試在書裡放入了足夠多的細節,所以你應該是沒問題的。你需要一些耐心和努力,從零開始學習知識!

3. 作為一個大二學生,我該如何進入人工智慧領域?

Ian Goodfellow:

如果你野心勃勃,邊實踐邊學習,並參與我們的對抗樣本競賽吧(NIPS 2017: Non-targeted Adversarial Attack)

學習教你線性代數和概率論的課。

學習可以教你寫出適合你所用硬體的高效代碼的課。有時這會是硬體設計的課,而不是編程課。如果你不確認的話可以詢問你的導師。

學習教你寫高效實時多線程代碼的課。有時這個課題會被包含在其他課裡,比如計算機系統開發和遊戲開發。

讀《深度學習》這本書。

選一個你感興趣的機器學習項目。如果不知道怎麼將深度學習應用到你的愛好或者課程項目上,那就做一些比較常用的項目,比如在TensorFlow上從頭開始構建一個SVHN(Street View House Numbers)分類器。做一遍這個項目,當你對某些你讀到的問題有疑問的時候,嘗試用你的代碼作一些實驗,從而回答這個問題。

如果你的學校有機器學習、計算機視覺、自然語言處理和機器人學的課,那就趕緊去上吧。

當然也可以來申請谷歌大腦的實習啦!

4. 說3本你最推薦的機器學習的書吧?

Ian Goodfellow:哈哈,我當然會推薦我和Yoshua還有Aaron一起寫的《深度學習》。十年前,當我在學習機器學習的時候,我最喜歡的書有:

Chris Bishop的《模式識別和機器學習》(Pattern Recognition and Machine Learning)以及Daphne Koller 和Nir Friedman 的《概率圖模型》(Probabilistic Graphical Models)。而在我對機器學習頗有了解之後,我就不怎麼看新書了,比如說Kevin Murphy’s 寫的《Machine learning: A Probabilistic Perspective》,所以我推薦的不一定就是最佳的。

一般機器學習類問題

5. 你最喜歡的超參數(hyperparameters)優化的方法是什麼?

Ian Goodfellow:隨機搜索。用隨機的超參數並行跑25次算法,選擇其中最好的兩三組超參數,在這些最好的超參數的附近再隨機選25組跑。

我幾乎每年都會試一些近來比較流行的超參數優化器,把他們和隨機搜索進行對比。到現在為止,我還沒看到哪一個專門的優化器能找到比隨機搜索更好的超參數。當然,我也知道其他人會有不同的看法。鑑於我更偏向研究領域,我通常會比別人用更多的超參數,我用到的算法也會更奇怪。

6. 谷歌大腦今年正在從事哪方面的研究呢?

Ian Goodfellow:谷歌大腦是一個很大的團隊,獨立研究者們有很大的自由度去實現他們自己的想法,所以我很難將這些研究方向總結出來。

你可以在我們的網站上看到更多的信息:Research at Google(https://research.google.com/teams/brain/)

我們的基礎研究試圖改進機器學習的算法,建造出使機器學習更強有力的計算機系統(像TensorFlow),我們也將機器學習應用到醫療保健、機器人學、音樂與藝術生成的問題中。

我和Alexey是聚焦對抗性機器學習的基礎研究團隊的一員。我們製造虛構的對抗器,令算法有表現的更好(像GAN),我們也試圖找到真實世界中的對抗器(像對抗樣本)。

7. 深度學習的下一步是什麼?

Ian Goodfellow:

深度學習還有好多需要發展的領域呢。試著開闊你的思維,不要僅僅只在一個方向上思考。

更好的強化學習/深度學習和強化學習的整合;能夠可靠地學習如何控制機器人的強化學習算法等。

更好的生成式模型;可以穩定地學習如何生成人類分不出真假的圖像、語音、文字的算法。

學習如何學習的算法,以及普適深度學習算法(可以重新設計它們自己的架構,自行優化超參數的算法)。現在,我們依然需要人類專家來運行「學習如何學習」的算法,未來我們希望這一過程能被簡化,而那些當前與AI關聯甚少的行業也能受益於AI的成果。

服務於網絡安全的機器學習,以及機器學習自身的網絡安全:越來越多的網絡攻擊使用機器學習來生成惡意軟體,這些軟體能有效率地躲過漏洞模糊測試。同時,更多的網絡防守軟體也會用到機器學習,從而給出比人類更快的反應,檢測更多細微的入侵。不同陣營的機器學習算法會互相欺騙對方,進行攻防大戰。

計算力提升:動態活動分配會讓更大的模型使用更少的計算操作來處理一個簡單的樣本。但總體來說,大量的計算依然會是人工智慧的關鍵。

半監督學習和極小樣本學習(one-shot learning):這能夠減少訓練所需的數據,使人工智得到更廣泛的應用。

幾乎不犯錯誤、具有極高穩定性的模型:這樣的模型會被用於對安全性有高要求的領域。

深度學習會繼續在大眾文化中擴張,我們會看到越來越多的藝術家和流行文化引領者們用深度學習去做我們意想不到的事。我認為Alexei Efros的實驗室和像CycleGAN這樣的項目就是這個潮流的開端。

8. 在未來,哪個機器學習領域會取代深度學習?

Ian Goodfellow:「深度學習」是一個非常廣泛的概念,我不確定它是否可以被取代。深度學習只是意味著用更多的處理步驟來學習,而不是僅僅只有一步。從這點來說,相比於「淺」的算法,「深」的算法會遇到組合爆炸的問題。

在2006-2011,「深度學習」很流行,但是這裡的「深度學習」多是把許多無監督學習算法疊起來,從而為監督學習定義複雜的特徵。

2012年之後,「深度學習」往往意味用反向傳播來優化一個代表某個可微分函數的深計算圖的所有參數。

在不久後,我們可能會更多地用到貝葉斯化算法(而不是基於最優參數的點估計),以及更多的不可微操作。(譯者註:貝葉斯算法從概率推斷的角度構建算法,通常對模型有先驗概率,通過觀察到的樣本和貝葉斯定理來進行推斷。)我們當然也可以繼續認為它們是「深」的,也可以不去思考它們是否是「深」的。我認為,試圖將深度學習和其他學習算法區分開是不必要的。我們對深度學習早已司空見慣,不需要再給它一個特殊的名字了。

9. 現今人工智慧和機器學習系統有什麼缺陷?

Alexey Kurakin:就我看來,一個最大的限制是大多數機器學習系統只能解決一個特定的問題(圖像、文字、強化學習等)和特定的任務。所以每次面對一個新任務,你都需要重新設計一個分類器,搜集訓練數據,訓練你的模型,或者至少要調整你上一個任務所獲得的分類器。

比如說如果你在一個圖像集上訓練一個分類器,可能在另一個圖像集上準確度就會降低。並且也可能難以解決不同類型的問題(比如說自然語言處理)。

現在有研究在試圖解決這些挑戰。近來谷歌大腦的一篇文章(One Model To Learn Them All)提出了一個能解決不同類型問題的架構,然而這個問題還遠沒被完全解決。

GAN類問題

10. 機器學習領域的新人應該了解對抗性機器學習(adversarial machine learning)的哪些內容?

Alexey Kurakin:首先,你要對機器學習和深度學習有一定的了解,這樣才能理解這個問題的背景。

對抗性機器學習研究的是,當同一個機器學習分類器的不同子部分有完全相反的獎勵函數(或是損失函數)時我們的應對技術。對抗式機器學習最典型的應用是:生成式對抗網絡和對抗樣本(Adversarial examples)。你也可以在其他機器學習論文中找到這個方法的應用。

在生成式對抗性網絡(generative adversarial network, GAN)中,你有兩個網絡:生成網絡和判別網絡。生成網絡的目標是生成「仿真」的數據樣本,判別網絡則是要將生成的「仿真」樣本和真實樣本區分開。

對抗樣本是那些被微調而導致錯誤分類的樣本。對抗樣本通常會在機器學習穩定性和安全性問題中被考慮到。有相反獎勵函數的兩個子部分如下:一個分類器被優化後能夠有很高的分類精確度和很好的泛化特性,而另一個對抗器則是要通過幹擾輸入試圖「欺騙」之前的分類器。

如果你想了解更多的信息,github網頁提供了很不錯的對抗性機器學習的論文和閱讀材料(yenchenlin/awesome-adversarial-machine-learning。)

相關焦點

  • Ian Goodfellow:GAN相比其他生成模型的優缺點及應用
    新智元推薦   來源:CSDN 授權轉載  作者:蔣紅亮  【新智元導讀】生成對抗網絡(GAN)的發明人 Ian Goodfellow  自2014年 Ian Goodfellow 提出生成對抗網絡(GAN)的概念後,生成對抗網絡便成為了學術界的一個火熱的研究熱點,Yann LeCun更是稱之為「過去十年間機器學習領域最讓人激動的點子」。
  • 人物 | Ian Goodfellow親述GAN簡史:人工智慧不能理解它無法創造的東西
    Goodfellow 的想法仍然有待完善,但已快速擴展到整個人工智慧領域。許多研究者,包括 LeCun,認為他們可以通過它實現「無監督學習」。即這一人工智慧研究領域的偉大抱負:實現無需人類直接幹預的機器學習。
  • 「GAN之父」Goodfellow與網友互動:關於GAN的11個問題(附視頻)
    演講視頻的前20分鐘整理出《「GANs之父」Goodfellow 38分鐘視頻親授:如何完善生成對抗網絡?(上)》,其中Goodfellow主要講述了什麼是 GAN 和 DCGANs、模型崩潰、小批量特徵、文本轉圖像等問題。本文是後18分鐘視頻的內容,主要是 Goodfellow 回答網友提問,總共有11個問題。本文由雷鋒網三川、亞萌聯合編譯。CNN、GANs 和 DBN(Deep Belief Network)之間區別是什麼?
  • 氰化鈉及其處置的十問十答
    新華全媒頭條:氰化鈉及其處置的十問十答新華網北京8月17日電(記者崔靜)關於天津港爆炸中氰化鈉及其相關處置,新華社記者對話化工行業資深研究員曲睿晶。一問:氰化鈉呈什麼形態?十問:若人體不得已暴露在氰化物超標的空氣中,應該如何防護?曲睿晶:空氣中氰化物超標時,人們應避免裸露皮膚直接接觸,無防護服和防毒面具時,用溼毛巾捂緊面部器官,躲避至空氣流通清新之處。
  • Ian Goodfellow推特小課堂又開課啦:數學求導的小技巧
    大數據文摘作品作者:小魚、蔣寶尚最近,Ian Goodfellow不斷在推特和大家分享一寫學習的小技巧。Goodfellow稱,他最喜歡用超實數(hyperreal numbers)來求導數。註:超實數是一個包含實數以及無窮大和無窮小的域,它們的絕對值分別大於和小於任何正實數。
  • 與大咖一起啟發「思想者洞見」 知乎用「十問」再叩未來之門
    2012 年,知乎與騰訊網際網路社會研究中心合作發起「網際網路十問 – 尋找中文網際網路思想者」活動,邀請了 10 位國內外科技網際網路領域大咖,以網際網路發展為思辨方向提出十個問題,引發了無數中文網際網路網民飽含預見性的觀點和見解。
  • 滷素阻燃劑檢測常見十問十答
    十問十答為你揭曉答案!Q1:什麼是滷素?答:滷素是元素周期表中第VIIA 族的元素,全部為非金屬元素。滷素共包括氟(Fluorine—F)、氯(Chlorine—Cl)、溴(Bromine—Br)、碘(Iodine—I)和砹(Astatine—At)五種元素,其中砹元素為放射性元素,在自然界極少存在,因此我們通常所指的滷素為氟、氯、溴、碘四種元素。
  • 自Ian Goodfellow之後,GANs還有哪些開拓性進展?
    Adit Deshpande目前是UCLA計算機科學專業生物信息學方向的大二學生。他熱衷於將自己的機器學習和計算機視覺技術應用在健康領域,給醫生和患者帶來更好的解決方案。一直以來,Adit Deshpande 都有總結和解釋一些深度學習論文的習慣,在本文中,Adit Deshpande 將圍繞對抗生成網絡(GANs)的主題來展開介紹。以下為雷鋒網編譯整理的內容:
  • 期刊相關知識十問十答
    期刊相關知識十問十答二、論文發表的期刊是幾號字印刷?紙張是多大?一個版面多少字?並且第一個版面,論文的標題,作者姓名,作者單位,摘要,關鍵詞等,都有和正文不一樣的格式,尤其是標題字體比較大,安排的字數就更少了。三、近期不少期刊都漲價或者調整了對最低字數的要求,那麼期刊漲價都有哪些方式呢?漲價的形式,大致可以分為以下幾種。1.直接漲價,這種比較常見。2.調整對論文的最低字數要求。
  • 百度王海峰Quora總結百度工程師品質:務實,自驅,負責到底
    【慧聰通信網】近日,百度副總裁王海峰博士受美國問答網站Quora邀請回答網友提問,回答了頗具代表性的十個問題,覆蓋從中國人工智慧的發展階段到百度工程師的日常工作狀態,十問十答的形式,為美國網友打開了解百度,了 【慧聰通信網】近日,百度副總裁王海峰博士受美國問答網站Quora邀請回答網友提問
  • 十問十答上線,快來看看有沒有你想知道的信息!
    點擊藍字關注我們為了更好的幫助大家了解賽事規定解決報名中產生的相關問題十問十答
  • 機器學習之父Michael I. Jordan 親臨2018全球機器學習技術大會
    在即將到來的2018全球機器學習技術大會上,Michael I. Jordan將為大家帶來《機器學習前沿發展》的主題演講,深入闡述機器學習領域最新的前沿發展情況及其領導的機器學習團隊的最新研究成果,包括如何在訓練生成式對抗網絡GAN的過程中找到好的鞍點、如何在非凸優化中避免鞍點、可解釋的機器學習、可證明的最優強化學習、多智能體決策、分布式強化學習平臺等熱點前沿話題。相信Michael I.
  • 中考物理「常客」:凸透鏡成像規律是重點 實驗疑難考點十問十答
    現將在研究成像規律實驗中遇到的疑難考點,整理成十問十答。一問:怎樣用最快的方法測出凸透鏡的焦距?答:凸透鏡焦距的大小,反映了凸透鏡會聚作用的強弱。凸透鏡的表面越凸,焦距越短,會聚作用越強。在凸透鏡成像中,隨著蠟燭由近及遠移動,距離焦點越來越遠時,物距在不斷變大,像距則在不斷變小,像的變化是越來越小。即所謂的:物遠像近像變小。八問:若實驗中,採用焦距不同的凸透鏡,蠟燭位置不變,像距如何變化?答:凸透鏡的焦距越大,意味著焦點越靠近蠟燭,實際物距在縮小,像距反而在增大。
  • 乾貨總結 | 動態規劃十問十答
    今天給大家總結動態規劃十問十答,快速幫你掃盲動態規劃。答:動態規劃是一種通過「大而化小」的思路解決問題的算法。區別於一些固定形式的算法,如二分法,寬度優先搜索法,動態規劃沒有實際的步驟來規定第一步做什麼第二步做什麼。
  • 駐以使館深夜通知,赴華航班乘客登機政策十問十答來了
    駐以使館深夜通知,赴華航班乘客登機政策十問十答來了 每日經濟新聞 2020-09-01 00:01:58
  • 汙水處理及再生利用行業排汙許可十問十答
    原標題:汙水處理及再生利用行業排汙許可十問十答免責聲明:以上內容轉載自北極星環保網,所發內容不代表本平臺立場。
  • Ian Goodfellow提出顯著...
    選自arXiv作者:Julius Adebayo、Ian Goodfellow等機器之心編譯參與:Geek AI、張倩顯著性方法被廣泛應用於突出輸入中與學到的模型的預測結果相關的特徵。現有的顯著性方法通常是以圖像數據的視覺吸引作為指導的。
  • 超全的GAN PyTorch+Keras實現集合
    機器之心編譯參與:劉曉坤、思源、李澤南生成對抗網絡一直是非常美妙且高效的方法,自 14 年 Ian Goodfellow 等人提出第一個生成對抗網絡以來,各種變體和修正版如雨後春筍般出現,它們都有各自的特性和對應的優勢。
  • 「GANs之父」Goodfellow 38分鐘視頻親授:如何完善生成對抗網絡...
    演講嘉賓有100多人,其中就有「GANs之父」Ian Goodfellow。這個會議由於是網絡播出,所以有完整錄像,雷鋒網對比Ian Goodfellow在NIPS的演講內容,二者十分相仿,故在此將此次會議的視頻搬運給大家,並附上中文圖文詳解(PS:本文由亞萌和三川共同編輯完成)。
  • 從植物入手,這十問十答足夠為你解惑~
    從植物入手,十問十答,想要的答案和解決方式都在其中~01 冬季樹木落葉後,庭院會顯得蕭條嗎?夏天的綠樹林蔭,大喬木適當種植。秋天的黃葉繽紛,彩色葉樹種的考慮。冬天的樹幹婆娑,院中還要有那麼一片紅綠。一般來說,常綠和落葉植物之間的比例為1:2或1:3。