ICLR 2019八大趨勢:RNN正在失去光芒,強化學習仍最受歡迎

2020-12-25 大數據文摘

大數據文摘出品

來源:huyenchip

編譯:笪潔瓊、周家樂

ICLR 2019過去有幾天了,作為今年上半年表現最為亮眼的人工智慧頂會共收到1591篇論文,錄取率為31.7%。

為期4天的會議,共有8個邀請演講主題,內容包括:算法公平性的進展、對抗機器學習、發展自主學習:人工智慧,認知科學和教育技術、用神經模型學習自然語言界面等等。

當然,除此之外,還有一大堆的poster。這些都彰顯了ICLR的規格之高,研究者實力之強大。

透過現象看本質,一位來自越南的作家和計算機科學家Chip Huyen總結了ICLR 2019年的8大趨勢。他表示。會議組織者越來越強調包容性,在學術研究方面RNN正在失去研究的光芒......

1.包容性。

組織者強調了包容性在人工智慧中的重要性,確保前兩次主要會談的開幕詞邀請講話是關於公平和平等的。

但是還是有一些令人擔憂的統計數據:

只有8.6%的演講者和15%的參與者是女性。在所有的LGBTQ+(Lesbian Gay Bisexual Transgender Queer:性別獨角獸群體)研究人員中,有2/3的研究人員並不是專業的。所有8位特邀演講者都是白人。

薩沙·拉什(Sasha Rush)開幕詞的截圖

不幸的是,這位AI研究人員仍然感到毫無歉意。雖然其他所有的研討會的訂閱量爆滿,但在Yoshua Bengio出現之前,AI賦能社會(AI for Social Good)研討會一直空無一人。在我在ICLR的眾多談話中,沒有人提到過差異性,除了有一次我大力聲討地問為什麼我被邀請參加這場似乎不適合我的技術活動?一位好朋友說:「有點冒犯的回答是,因為你是一個女人。」

原因之一是這個話題不是「技術性的」,因此在上面花時間將無助於你在研究領域的職業發展。另一個原因是仍然存在一些反對的偏見。有一次,一位朋友告訴我,不要理睬一位在群聊中嘲笑我的人,因為「那人喜歡取笑那些談論平等和差異性的人。」我有一些朋友,他們不會在網上討論任何關於差異性的話題,因為他們不想「與這種話題聯繫在一起」。

2.無監督表徵學習與遷移學習

無監督表示學習的一個主要目標是從未標記的數據中發現有用的數據,以便用於後續任務。在自然語言處理中,無監督的表示學習通常是通過語言建模來完成的。然後將學習到的表示用於諸如情感分析、名字分類識別和機器翻譯等任務。

去年發表的一些最令人興奮的論文是關於自然語言處理中的無監督學習的,首先是ApacheElmo(Peters等人)、DB2ULMFiT(Howard等人)、ApacheOpenAI的GPT(Radford等人)、IBMBert(Devlin等人),當然還有,比較激進的202GPT-2(Radford等人)。

完整的GPT-2模型是在 ICLR演示的,它的表現非常好。您可以輸入幾乎任何提示,它將撰寫文章的其餘部分。它可以撰寫BuzzFeed文章(美國新聞RSS訂閱,類似於今日頭條)、小說、科學研究論文,甚至是虛構單詞的定義。但這聽起來還不完全是人類的感覺。該團隊正在研究GPT-3,會比現在更好。我迫不及待地想看看它能產生什麼。

雖然計算機視覺社區是第一個將遷移學習用於工作的社區,但基礎任務-在ImageNet上訓練分類模型-仍然受到監督。我不斷從兩個社區的研究人員那裡聽到的一個問題是:「我們如何才能獲得為圖像工作的無監督學習?」

儘管大多數大牌研究實驗室已經在進行這方面的研究,但在ICLR上只有一篇論文:「元學習無監督學習的更新規則」(Metz et al.)。他們的算法不升級權值,而是升級學習規則。

然後,在少量的標記樣本上對從學習規則中學習到的表示進行調整,以完成圖像分類任務。他們找到了學習規則,在MNIST和FashionMNIST數據集上達到了70%的準確率。作者不打算發布代碼,因為「它與計算有關」。在256個GPU上,外層循環需要大約100k的訓練步驟和200個小時。

元學習的內層和外層循環(Metz等人)

我有一種感覺,在不久的將來,我們將看到更多這樣的研究。可用於無監督學習的一些任務包括:自動編碼、預測圖像旋轉(Gidaris等人的這篇論文是2018年ICLR的熱門文章),預測視頻中的下一幀。

3.機器學習的「復古」

機器學習中的思想就像時尚:它們繞著一個圈走。在海報展示會上走來走去,就像沿著記憶小路在漫步。即使是備受期待的ICLR辯論最終也是由先驗與結構結束,這是對Yann LeCun和 Christopher Manning去年討論的回溯,而且與貝葉斯主義者和頻率論者之間的由來的辯論相似。

麻省理工學院媒體實驗室的語言學習和理解項目於2001年終止,但基礎語言學習今年捲土重來,兩篇論文都是基於強化學習:

DOM-Q-Net:基於結構化語言(Jia等人)的RL-一種學習通過填充欄位和單擊連結導航Web的RL算法,給定一個用自然語言表示的目標。BabyAI:一個研究紮根語言學習樣本效率的平臺(Chevalier-Boisveret等人)-這是一個與OpenAI訓練兼容的平臺,具有一個手動操作的BOT代理,它模擬人類教師來指導代理學習一種合成語言。

AnonReviewer4很好地總結了我對這兩篇論文的看法:

「…這裡提出的方法看起來非常類似於語義解析文獻中,已經研究過一段時間的方法。然而,這篇論文只引用了最近深入的RL論文。我認為,讓作者熟悉這些文學作品將會使他們受益匪淺。我認為語義解析社區也會從這個…中受益。但這兩個社區似乎並不經常交談,儘管在某些情況下,我們正在解決非常相似的問題。」

確定性有限自動機(DFA)也在今年的深度學習領域中佔據了一席之地,它有兩篇論文:

表示形式語言的:有限自動機(FA)與遞歸神經網絡(RNN)的比較(Michalenko等人)。學習遞歸策略網絡的有限狀態表示(Koulet等人)

這兩篇論文背後的主要動機是,由於RNN中隱藏狀態的空間是巨大的,是否有可能將狀態數量減少到有限的狀態?我猜測DFA是否能有效地代表語言的RNN,但我真的很喜歡在訓練期間學習RNN,然後將其轉換為DFA以供參考的想法,正如Koul等人的論文中所介紹的那樣。最終的有限表示只需要3個離散的記憶狀態和10場觀察的桌球遊戲。有限狀態表示也有助於解釋RNN。

RNN的學習DFA的三個階段(Koul等人)
提取的自動機(Koul等人)

4.RNN正在失去研究的光芒

2018年至2019年提交(論文)主題的相對變化表明,RNN的下降幅度最大。這並不奇怪,因為儘管RNN對於序列數據是直觀的,但它們有一個巨大的缺點:它們不能被並行化,因此不能利用自2012年以來推動研究進展的最大因素:計算能力。RNN在CV或RL中從未流行過,而對於NLP,它們正被基於注意力的體系結構所取代。

RNN正在失去光芒

這是不是意味著RNN已經over了?不一定。今年的兩個最佳論文獎之一是「有序神經元:將樹結構集成到遞歸神經網絡中」。(Shen等人)。除了本文和上面提到的兩篇關於自動機的文章之外,今年又有9篇關於RNN的論文被接受,其中大多數都深入研究了RNN的數學基礎,而不是發現新的RNN應用方向。

RNN在行業中仍然非常活躍,特別是對於交易公司等處理時間序列數據的公司來說,不幸的是,這些公司通常不會發布它們的工作成果。即使RNN現在對研究人員沒有吸引力,說不定它可能會在未來捲土重來。

5.GAN持續火熱

儘管與去年相比GAN的相對增長略有下降, 但論文數量實際上從去年的約70篇漲到了今年的100多篇。Ian Goodfellow做了一個關於GAN的特邀報告,更是受其信徒大力推崇。以至於到了最後一天, 他不得不遮住胸前的徽章, 這樣人們才不會因為看到他的名字而激動不已。

第一個海報展示環節全是關於GAN的最新進展,涵蓋了全新的GAN架構、舊架構的改進、GAN分析、以及從圖像生成到文本生成再到語音合成的GAN應用。

衍生出了PATE-GAN, GANSynth, ProbGAN, InstaGAN, RelGAN, MisGAN, SPIGAN, LayoutGAN, KnockoffGAN等等不同的GAN網絡。總而言之,只要提到GAN我就好像變成了一個文盲,迷失在林林總總的GAN網絡中。值得一提的是,Andrew Brock沒有把他的大規模GAN模型叫做giGANtic讓我好生失望。

GAN的海報展示環節也揭示了在GAN問題上,ICLR社區是多麼的兩極分化。我聽到有些人小聲嘟囔著「我已經等不及看到這些GAN的完蛋啦」,「只要有人提到對抗(adversarial)我的腦瓜仁就疼」。當然,據我分析,他們也可能只是嫉妒而已。

6.缺乏生物啟發式深度學習

想想之前的輿論充斥著對基因測序和CRISPR 嬰兒(基因編輯嬰兒)的焦慮,而令我感到驚訝的是在ICLR上竟然沒有幾篇關於生物深度學習的論文。事實上,關於這一主題滿打滿算也就六篇:

兩篇關於受生物啟發的架構

Biologically-Plausible Learning Algorithms Can Scale to Large Datasets (Xiao et al.)https://openreview.net/forum?id=SygvZ209F7A Unified Theory of Early Visual Representations from Retina to Cortex through Anatomically Constrained Deep CNNs (Lindsey et al.)

一篇關於學習設計 RNA (Runge et al.)

三篇關於蛋白質操縱

Human-level Protein Localization with Convolutional Neural Networks (Rumetshofer et al.)

Learning Protein Structure with a Differentiable Simulator (Ingraham et al.Learning protein sequence embeddings using information from structure (Bepler et al.)

關於基因組學的論文為零。也沒有關於這一專題的研討會。儘管這一現象令人遺憾, 但也為對生物學感興趣的深度學習研究人員或對深度學習感興趣的生物學家提供了巨大的機會。

趣聞軼事:Retina論文(A Unified Theory of Early Visual Representations from Retina to Cortex through Anatomically Constrained Deep CNNs)的第一作者,Jack Lindsey,還只是Stanford的一名大四學生。真是英雄出少年啊!

7.強化學習仍舊是最受歡迎的主題。

會議上的報告表明,RL社區正在從model-free 方法向sample-efficient model-based和meta-learning算法轉移。這種轉變可能是受TD3和SAC在Mujoco平臺的連續控制任務,以及R2D2在Atari離散控制任務上的極高得分所推動的。

TD3:

https://arxiv.org/abs/1802.09477

SAC:

https://arxiv.org/abs/1801.01290

R2D2

https://openreview.net/forum?id=r1lyTjAqYX

基於模型的算法(即從數據中學習環境模型,並利用它規劃或生成更多數據的算法)終於能逐漸達到其對應的無模型算法的性能,而且只需要原先十分之一至百分之一的經驗。

這一優勢使他們適合於實際任務。儘管學習得到的單一模擬器很可能存在缺陷,但可以通過更複雜的動力學模型,例如集成模擬器,來改善它的缺陷。

另一種將RL應用到實際問題的方法是允許模擬器支持任意複雜的隨機化(arbitrarily complex randomizations):在一組不同的模擬環境上訓練的策略可以將現實世界視為另一個隨機化(randomization),並力求成功

元學習(Meta-learning)算法,可實現在多個任務之間的快速遷移學習,也已經在樣本效率(smaple-efficiency)和性能方面取得了很大的進步(Promp(Rothfuss等人)

這些改進使我們更接近「the ImageNet moment of RL」,即我們可以復用從其他任務中學到的控制策略,而不是每個任務都從頭開始學習。

大部分已被接受的論文,連同整個Structure and Priors in RL研討會,都致力於將一些有關環境的知識整合到學習算法中。雖然早期的深度RL算法的主要優勢之一是通用性(例如,DQN對所有Atari遊戲都使用相同的體系結構,而無需知道某個特定的遊戲),但新的算法表明,結合先驗知識有助於完成更複雜的任務。例如,在Transporter Network(Jakab et al.)中,使用的先驗知識進行更具信息量的結構性探索。

綜上所述,在過去的5年中,RL社區開發了各種有效的工具來解決無模型配置下的RL問題。現在是時候提出更具樣本效率(sample-efficient)和可遷移性(transferable)的算法來將RL應用於現實世界中的問題了。

趣聞軼事:Sergey Levine可能是這屆ICLR發表論文最多的人了,一共15篇。。。

8.大部分論文都會很快被人遺忘

當我問一位著名的研究人員,他對今年被接受的論文有何看法時,他笑著說:「大部分論文都會在會議結束後被遺忘」。在一個和機器學習一樣快速發展的領域裡,可能每過幾周甚至幾天曾經的最好記錄就會被打破,正因此對於論文還沒發表就已經out了這一現象也就見怪不怪了。例如,根據Borealis Ai對ICLR 2018的統計,「每八篇裡面有七篇論文的結果,在ICLR會議開始之前就已經被超越了。」

在會議期間我經常聽到的一個評論是,接受/拒絕決定的隨機性。儘管我不會指明有哪些,但在過去幾年中,確實有一些如今被談論最多/引用最多的論文在最初提交給會議的時候被拒了。而許多被接受的論文仍將持續數年而不被引用。

作為這個領域的研究者,我經常面臨生存危機。不管我有什麼想法,似乎別人都已經在做了,越來越好,越來越快。如果一篇論文對任何人都毫無用處,那麼發表它又有什麼意義呢?救救我吧!!!

結論

當然還有一些其他的趨勢需要提及:

優化和正則化:Adam與SGD之爭仍在繼續。許多新技術已經被提出了,其中一些非常令人興奮。現在似乎每個實驗室都在開發自己的優化器 - 甚至我們團隊也在開發新的優化器並且很快就會發布了。

評估指標(evaluation metrics):隨著生成模型越來越流行,我們不可避免地需要制定一些指標來評估生成的結果。生成的結構化數據的度量指標至今還問題重重,而生成的非結構化數據(如開放域對話和GAN生成的圖像)的度量更是未知的領域。

這篇博客已經很長啦,我需要回去工作了。如果你想了解更多,David Abel發表了他的詳細筆記。

詳細筆記:

https://david-abel.github.io/notes/iclr_2019.pdf

相關報導:

https://huyenchip.com/2019/05/12/top-8-trends-from-iclr-2019.html

相關焦點

  • 「句子級」的深度強化學習方法難以求解器空間
    backpropagation和progressivegradientxpress(引入hinton先驗,更多方法變為基於歷史記錄的scheme)都是深度學習起步之初的主流方法,除此之外還有包括reinforcementlearning和proximalandadaptiverl等重要進展。但是深度學習從起步到發展至今,說的上的諸多進展似乎都停留在rl的範疇。
  • 一文盡覽 ICLR 2019 Facebook & Google 入選論文
    標題:多智能體管理強化學習作者:Tianmin Shu, Yuandong Tian摘要:先前,大多數關於多代理強化學習(MARL)的工作都是通過直接學習每個代理的策略來實現最佳協作,從而最大限度地提高公共獎勵。
  • Reddit最火!55頁博士筆記總結ICLR 2019大會幹貨
    Mirella Lapata:用神經模型學習自然語言界面Noah Goodman:在上下文中學習語言Criteo AI Lab給出的ICLR 2019提交的研究課題熱度:ICLR亮點:深度學習局限引爭論,元學習、圖神經網絡最熱門最近圍繞Rich Sutton的一篇《痛苦的教訓》引發很多討論,也在本次會議上進行了辯論。SPiRL研討會2的小組討論也有很多關於這個主題的見解,SPiRL研討會非常出色。演講者陣容,演講和小組都很特別。
  • 循環神經網絡(RNN)入門帖:向量到序列,序列到序列,雙向RNN,馬爾科夫化
    作者:David 9地址:http://nooverfit.com/rnn似乎更擅長信息的保存和更新,而cnn似乎更擅長精確的特徵提取;rnn輸入輸出尺寸靈活,而cnn尺寸相對刻板。聊到循環神經網絡RNN,我們第一反應可能是:時間序列 (time sequence)。
  • Char RNN原理介紹以及文本生成實踐
    以要讓模型學習寫出「hello」為例,Char-RNN的輸入輸出層都是以字符為單位。輸入「h」,應該輸出「e」;輸入「e」,則應該輸出後續的「l」。輸入層我們可以用只有一個元素為1的向量來編碼不同的字符,例如,h被編碼為「1000」、「e」被編碼為「0100」,而「l」被編碼為「0010」。使用RNN的學習目標是,可以讓生成的下一個字符儘量與訓練樣本裡的目標輸出一致。
  • 深度學習的學習歷程
    極市正在推出CVPR2019的專題直播分享會,邀請CVPR2019的論文作者進行線上直播,
  • TensorFlow中RNN實現的正確打開方式
    上周寫的文章《完全圖解RNN、RNN變體、Seq2Seq、Attention機制》介紹了一下RNN的幾種結構,今天就來聊一聊如何在TensorFlow中實現這些結構,這篇文章的主要內容為:一、學習單步的RNN:RNNCell如果要學習TensorFlow中的RNN,第一站應該就是去了解「RNNCell」,它是TensorFlow中實現RNN的基本單元,每個RNNCell都有一個
  • Bengio、Sutton的深度學習&強化學習暑期班又來了,2019視頻已放出
    心心念念的 2019 深度學習&強化學習夏季課程終於來了。機器之心從 2016 年起就開始報導這一夏季課程,每一年都是大師雲集,幾十節課程視頻都乾貨滿滿、廣受好評。壞消息是,這一年的課程依舊沒有字幕;好消息是,我們終於可以享受 Youtube 自動生成的字幕了,而且可以自動翻譯成中文。
  • 【NLP傻瓜式教程】手把手帶你RNN文本分類(附代碼)
    上面的問題引出了本文的重點——「多任務學習(Multi-task learning)」,把多個相關(related)的任務(task)放在一起學習。多個任務之間共享一些因素,它們可以在學習過程中,共享它們所學到的信息,這是單任務學習沒有具備的。相關聯的多任務學習比單任務學習能去的更好的泛化(generalization)效果。
  • 深度學習RNN實現股票預測實戰(附數據、代碼)
    RNN是一種深度學習的網絡結構,RNN的優勢是它在訓練的過程中會考慮數據的上下文聯繫,非常適合股票的場景,因為某一時刻的波動往往跟之前的走勢蘊含某種聯繫。model_rnn.py構建模型的文件,通過build_graph函數去構建整個的LSTM網絡,同時定義最優化求法的optimizer。通過train函數定義數據如何在graph中訓練,包括model參數的存儲。plot_samples會在訓練過程中將測試集數據和訓練數據的比較列印成圖片輸出。
  • 【重磅】深度學習頂會ICLR2018評審結果出爐,一文快速了解評審分析簡報和評分最高的十篇論文
    【導讀】ICLR,全稱為「International Conference on Learning Representations」(國際學習表徵會議),2013 年才剛剛成立了第一屆。這個一年一度的會議雖然今年2017年辦到第六屆,已經被學術研究者們廣泛認可,被認為「深度學習的頂級會議」。ICLR 採用Open Review 評審制度。
  • 2019 年最受歡迎的TED 演講Top10 | 推薦
    編者按:2019 年最受歡迎的TED 演講主要聚焦3大主題。首先是個人成長,比如在複雜多變的市場,適應力商數(AQ)比智商(EQ)更重要,或是老生常談的語言學習,以及工作者如何在繁忙的生活中,擁有好的睡眠品質。第二是社會進步,臉書的崛起,對美國選舉、英國脫歐造成不可抹滅的影響,社會化媒體是否會讓苦心建立的民主毀於一旦?
  • 2019年最受歡迎的emoji表情,第一個你絕對用過
    不然,何以體現它的光芒呢。於是,World Emoji Day就誕生了,每年的7月17日被定為「World Emoji Day」 — 世界表情日。自2017年以來,每年Emojipedia都會通過收集投票和數據統計,來得出最受歡迎和青睞的新表情符號,並在「World Emoji Day」上頒布世界表情符號獎。
  • ICLR 2019評審結果出爐!一文看全平均8分論文
    投稿論文涉及最多的關鍵詞是強化學習、GAN、生成模型、優化、無監督學習、 表示學習等。關鍵詞:強化學習,生成對抗網絡,模仿學習,逆強化學習,信息瓶頸一句話簡介:通過信息瓶頸規範對抗性學習,應用於模仿學習、逆向強化學習和生成對抗網絡。
  • 用RNN和TensorFlow創作自己的《哈利波特》小說
    全文共5949字,預計學習時長15分鐘最近我開始學習神經網絡,著迷於深度學習的強大創造力。靈光乍現,我為什麼不把它們融合在一起呢?因此,我使用TensorFlow執行了一個簡單的文本生成模型來創作我自己的《哈利·波特》短篇小說。本文將介紹了我為實現它而編寫的完整代碼。
  • 2019年YouTube十大最受歡迎遊戲內容
    有趣的是,在YouTube最受歡迎的遊戲內容創建者  PewDiePie在6月底重新上傳了Minecraft內容之後,Minecraft呈上升趨勢  。 PewDiePie上傳了一個名為「 Minecraft第1部分 」 的視頻後一個月,與Minecraft相關的視頻上傳達到了最高點。
  • ICLR 2020華人雄起!華人參與度近60%,清華、南大均斬獲滿分論文
    可以看出谷歌的研究人員非常重視深度學習的泛化能力和通用性,雖然谷歌擁有全球最強大的算力,但是大力也不總是出奇蹟,如何減小模型參數量、降低對數據的依賴,也是需要重點關注的領域。而提到Reinforcement Learning的論文更是多達11篇。
  • 深度 | 基於TensorFlow打造強化學習API:TensorForce是怎樣煉成的?
    我們要強調一下:這篇文章並不包含對深度強化學習本身的介紹,也沒有提出什麼新模型或談論最新的最佳算法,因此對於純研究者來說,這篇文章可能並不會那麼有趣。開發動機假設你是計算機系統、自然語言處理或其它應用領域的研究者,你一定對強化學習有一些基本的了解,並且有興趣將深度強化學習(deep RL)用來控制你的系統的某些方面。
  • ICLR 2017即將開幕,機器之心帶你概覽論文全貌
    直播地址:https://www.facebook.com/iclr.ccICLR 全稱為「International Conference on Learning Representations(國際學習表徵會議)」。2013 年,深度學習巨頭 Yoshua Bengio、Yann LeCun 主持舉辦了第一屆 ICLR 大會。
  • 強化學習應用簡述
    下面簡單列舉一些強化學習的成功案例,然後對強化學習做簡介,介紹兩個例子:最短路徑和圍棋,討論如何應用強化學習,討論一些仍然存在的問題和建議,介紹《機器學習》強化學習應用專刊和強化學習應用研討會,介紹強化學習資料,回顧強化學習簡史,最後,簡單討論強化學習的前景。