機器之心&ArXiv Weekly Radiostation
參與:杜偉,楚航,羅若天
本周的重要論文包括 AAAI 2020 最佳論文、最佳學生論文以及Hinton組提出的新型無監督方法SimCLR。
目錄:
A Simple Framework for Contrastive Learning of Visual RepresentationsWinoGrande: An Adversarial Winograd Schema Challenge at ScaleFair Division of Mixed Divisible and Indivisible GoodsEfficient Neural Architecture Search via Proximal IterationsEpidemiological and clinical features of the 2019 novel coronavirus outbreak in ChinaReady Policy One: World Building Through Active LearningIs BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and EntailmentArXiv Weekly Radiostation:NLP、CV、ML更多精選論文(附音頻)。
論文 1:A Simple Framework for Contrastive Learning of Visual Representations
作者:Ting Chen、Simon Kornblith、Mohammad Norouzi、Geoffrey Hinton論文連結:https://arxiv.org/pdf/2002.05709.pdf
摘要:如今,在 ImageNet 上的圖像識別準確率的性能提升每次通常只有零點幾個百分點,而來自圖靈獎獲得者 Geoffrey Hinton 等谷歌研究者的最新研究一次就把無監督學習的指標提升了 7-10%,甚至可以媲美有監督學習的效果。SimCLR 是一種簡單而清晰的方法,無需類標籤即可讓 AI 學會視覺表示,而且可以達到有監督學習的準確度。論文作者表示,經過 ImageNet 上 1% 圖片標籤的微調,SimCLR 即可達到 85.8%的 Top-5 精度——在只用 AlexNet 1% 的標籤的情況下性能超越後者。
Hinton 發推推薦其領導小組推出的 SimCLR 無監督方法。
SimCLR 與此前各類自監督方法在 ImageNet 上的 Top-1 準確率對比(以 ImageNet 進行預訓練),以及 ResNet-50 的有監督學習效果(灰色×)。
推薦:Hinton 組推出的這種新型無監督學習方法在推特引起熱議,也得到了機器學習社區的廣泛關注。
論文 2:WinoGrande: An Adversarial Winograd Schema Challenge at Scale
作者:Keisuke Sakaguchi、Ronan Le Bras、Chandra Bhagavatula、Yejin Choi論文連結:https://mp.weixin.qq.com/s/QpT-oiocE1n2ZwD4-r-3oQ
摘要:維諾格拉德模式挑戰賽(Winograd Schema Challenge:WSC)是一個用於常識推理的基準測試,該測試有 273 個專家編寫的問題,專門應對依賴選擇偏好和詞語聯想的統計學模型。但是近來,許多模型在該基準測試的性能已達到 90%。因此,研究者希望了解,這些模型是否真正獲得了魯棒的常識能力。
因此,研究者提出了 WINOGRANDE,一個有著 44k 個問題的大規模數據集。該數據集在規模和難度上較之前的數據集更大。該數據集的構建包括兩個步驟:首先使用眾包的方式設計問題,然後使用一個新的 AFLITE 算法縮減系統偏見(systematic bias),使得人類可以察覺到的詞彙聯想轉換成機器可以檢測到的嵌入聯想(embedding association)。現在最好的 SOTA 模型可以達到的性能是 59.4 – 79.1%,比人臉性能水平(94%)低 15-35%(絕對值)。這種性能波動取決於訓練數據量(2% 到 100%)。
WSC 的問題通過問題對(pairs)的方式構建。其中,這兩個問題基本上是類似的,並有著兩個答案項。問題中包含一個觸發詞(trigger word),用來標明哪個選項是正確的。
使用 AFLITE 算法檢測出的數據集偏見,使用 X 標記。
推薦:本論文榮獲了 AAAI 2020 最佳論文獎,文中提出的 WINOGRANDE 是一個很好的遷移學習資源;但同時也說明我們現在高估了模型的常識推理的能力。研究者希望通過這項研究能夠讓學界重視減少算法的偏見。
論文 3:Fair Division of Mixed Divisible and Indivisible Goods
作者:Xiaohui Bei, Zihao Li, Jinyan Liu, Shengxin Liu, Xinhang Lu論文連結:https://arxiv.org/pdf/1911.07048.pdf
摘要:本文研究了當資源包含可分割商品及不可分割商品時的公平分配問題。比如,無嫉妒性(envy-freeness,EF)及無嫉妒性最多可用於單一商品(envy-freeness up to one good, EF1)這種經典公平問題概念,是無法直接應用於混合商品的分配問題中。而在此次研究中提出了一個新的公平概率-混合商品的無嫉妒性(envy-freeness for mixed goods, EFM),而它是 EF 和 EF1 針對混合商品集合的直接通用化結果。
研究者證明了對於任意數量的代理(agents)而言,EFM 的分配始終存在。他們還提出了一個有效算法去計算兩個代理和 n 個代理的 EFM 分配問題,並且對可分割商品進行分段化的線性評估。最後,研究者放鬆了對無嫉妒性的要求,改為針對混合商品的-無嫉妒性(-EFM),以及提出了一種算法,使其在一定的代理數量、一定的不可分割商品數量和的 1 /的情況下,找到時間多項式的-EFM 分配。
算法 1:EFM 算法。
推薦:本論文榮獲了 AAAI 2020 最佳學生論文獎,論文作者來自南洋理工大學、清華大學和香港大學。
論文 4:Efficient Neural Architecture Search via Proximal Iterations
作者:Quanming Yao,Ju Xu,Wei-Wei Tu,Zhanxing Zhu論文連結:https://arxiv.org/abs/1905.13577
摘要:神經架構搜索(NAS)因其比手工構建的架構更能識別出更好的架構而備受關注。近年來,可微分的搜索方法因可以在數天內獲得高性能的 NAS 而成為研究熱點。然而,由於超級網的建設,其仍然面臨著巨大的計算成本和性能低下的問題。
在本文中,我們提出了一種基於近端迭代(NASP)的高效 NAS 方法。與以往的工作不同,NASP 將搜索過程重新定義為具有離散約束的優化問題和模型複雜度的正則化器。由於新的目標是難以解決的,我們進一步提出了一種高效的算法,由近端啟發法進行優化。通過這種方式,NASP 不僅比現有的可微分的搜索方法速度快,而且還可以找到更好的體系結構並平衡模型複雜度。最終,通過不同任務的大量實驗表明,NASP 在測試精度和計算效率上均能獲得更好的性能,在發現更好的模型結構的同時,速度比 DARTS 等現有技術快 10 倍以上。此外,NASP 消除了操作之間的關聯性。
在所有這些工作中,最為出色的是 DARTS [1],因為它結合了可微分以及小搜索空間兩者的優點,實現了單元內的快速梯度下降。然而,其搜索效率和識別體系結構的性能仍然不夠令人滿意。
在第三步中,研究者利用臨近迭代算子產生離散結構;再在第四步中更新連續的結構參數(單步梯度下降,無二階近似);最後,在離散的網絡結構下,更新網絡權重。
實驗結果顯示,DARTS 的二階比一階慢得多,NASP 不僅比 DARTS 快得多,而且可以達到與其他最先進的方法相當的測試性能。
推薦:在本周結束的 AAAI 2020 中,第四範式提出了一種基於臨近迭代(Proximal Iterations)的 NAS 方法,其速度比 DARTS 快了 10 倍以上。
論文 5:Epidemiological and clinical features of the 2019 novel coronavirus outbreak in China
作者:Yang Yang、Qingbin Lu、Mingjin Liu、Yixing Wang 等論文連結:https://www.medrxiv.org/content/10.1101/2020.02.10.20021675v1
摘要:近日,一篇名為《中國 2019 新型冠狀病毒爆發流行病學和臨床特徵》的論文在醫學預印本平臺 medRxiv 上線,對 8866 名新冠肺炎患者的臨床學和流行病學特徵進行了總結,是迄今為止樣本量最大的新冠病毒肺炎臨床研究。這篇論文採用了來自 30 個省級行政單位 8866 名患者的數據,其中包括確診患者 4021 名(佔比 45.35%),其餘為疑似患者。數據截止到 2020 年 1 月 26 日 [注],這是當前樣本規模最大的新冠疫情臨床回顧性研究。
這篇論文得出以下主要結論:近半數(47.7%)患者的年齡在 50 歲及以上;每 10 萬人的發病率存在著明顯的性別差異,男性為 0.31,女性為 0.27(P<0.001);新型冠狀病毒肺炎對年紀較大的男性影響大於其他群體,確診率和病死率都是最高的;重症、輕症的患者比例分別為 25.5% 和 69.9%,剩下 4.5% 的受調查者無肺炎症狀;潛伏期中位數為 4.75 天,四分位距為 3.0-7.2 天;總體 CFR(病死率)估計為 3.06% 左右(95% 置信區間 2.02-4.59%),低於 SARS-CoV (9.2%) 和 MERS-CoV (34.4%),年齡大於等於 60、性別為男性、初診時已經發展為嚴重肺炎(滿足其中一個或多個條件)的患者群體病死率更高。R0 值(基本再生數)估計為 3.77(95% 置信區間 3.51-4.05),根據潛伏期和感染期的不同,R0 的敏感性分析取值範圍在 2.23 和 4.82 之間。
病死率的預估情況。以上都是 2020 年 1 月 26 日前,症狀出現時間小於 14 天的病例。該組統計的過程中,d 可能為 5 到 8 天不等。
年齡、性別因素對於新冠病毒感染的影響。A:所有病人根據年齡和性別的分布情況;B:確診病例;C:疑似病例。D:根據性別進行的統計,限於中國大陸的確診病例;E:武漢報告的確診病例;F:非武漢報告的確診病例。
推薦:根據發現結果,研究者認為,新冠病毒與 SARS-CoV 有著類似的傳染性,但病死率更低。在症狀轉為嚴重之前,應儘早發現年紀較大的患者並及時治療,尤其是男性患者。但需注意的是,這篇論文還處於同行評審階段,其結果有待評估,不能用來指導臨床實踐。
論文 6:Ready Policy One: World Building Through Active Learning
作者:Philip Ball、Jack Parker-Holder、Aldo Pacchiano、Stephen Roberts 等論文連結:https://arxiv.org/pdf/2002.02693.pdf
摘要:基於模型的強化學習(Model-Based Reinforcement Learning,MBRL)為樣本高效學習提供了一個有前途的方向,通常可以實現連續控制任務(continuous control task)的 SOTA 結果。然而,許多現有的 MBRL 方法依賴於貪婪策略(greedy policy)與探索啟發法的結合,甚至那些利用原則試探索獎金(exploration bonus)的方法也能夠以特定方式構建雙重目標。
在本文中,研究者介紹了 Ready Policy One(RP1),這是一種將 MBRL 視為主動學習問題的框架。研究者的目標是在儘可能少樣本中改進世界模型(world model)。RP1 通過利用混合目標函數來實現這一目標,該函數在優化過程中的適應性調整至關重要,從而使算法可以權衡不同學習階段的獎勵與探索。此外,一旦擁有足夠豐富的軌跡批(trajectory batch)來改進模型,研究者會引入一種原則式機制(principled mechanism)來終止樣本收集。
給定時間步為 10 的四次方時的最佳性能中位數對比。
RP1 關鍵組件的控制變量研究。
推薦:在實驗階段,研究者在各類連續控制任務上對他們的方法進行了嚴格的評估,結果證明與現有方法相比具有統計學上的顯著優勢。
論文 7:Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
作者:Di Jin、Zhijing Jin、Joey Tianyi Zhou、Peter Szolovits論文連結:https://arxiv.org/pdf/1907.11932.pdf
摘要:眾所周知,CV 領域的 adversarial attack 被非常廣泛的研究,但是在 NLP 領域的對抗攻擊卻因為文本的離散的特性而難以推進。對於 NLP 的模型來說,那些在人們眼裡幾乎沒變的文本卻會被模型非常不同地對待,甚至錯判。這些是特别致命的、且急需研究的方向。這是一篇與 MIT 合作的 AAAI 2020 Oral 文章,自然語言對抗樣本生成,我們將詳細解讀如何簡單高效地生成自然語言對抗樣本,並且高度 attack 文本分類和文本推測的 7 個數據集。
研究者探究了對抗攻擊在文本分類和文本蘊涵兩項重要 NLP 任務上的有效性,並採用了不同的數據集。
對於每個數據集,研究者在訓練集上訓練了三個 SOTA 模型,並得到了與原始實現相近的測試集準確率分數。
本文攻擊系統與其他已發表系統的比較。
推薦:本文二作金致靜,香港大學畢業,目前在亞馬遜上海人工智慧實驗室做實習研究。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
10 NLP Papers
19:31來自機器之心Pro
本周 10 篇 NLP 精選論文是:
1. Training with Streaming Annotation. (from Tongtao Zhang, Heng Ji, Shih-Fu Chang, Marjorie Freedman)
2. Limits of Detecting Text Generated by Large-Scale Language Models. (from Lav R. Varshney, Nitish Shirish Keskar, Richard Socher)
3. Joint Embedding in Named Entity Linking on Sentence Level. (from Wei Shi, Siyuan Zhang, Zhiwei Zhang, Hong Cheng, Jeffrey Xu Yu)
4. ConvLab-2: An Open-Source Toolkit for Building, Evaluating, and Diagnosing Dialogue Systems. (from Qi Zhu, Zheng Zhang, Yan Fang, Xiang Li, Ryuichi Takanobu, Jinchao Li, Baolin Peng, Jianfeng Gao, Xiaoyan Zhu, Minlie Huang)
5. Pre-Training for Query Rewriting in A Spoken Language Understanding System. (from Zheng Chen, Xing Fan, Yuan Ling, Lambert Mathias, Chenlei Guo)
6. Exploring Structural Inductive Biases in Emergent Communication. (from Agnieszka Sowik, Abhinav Gupta, William L. Hamilton, Mateja Jamnik, Sean B. Holden, Christopher Pal)
7. Abstractive Summarization for Low Resource Data using Domain Transfer and Data Synthesis. (from Ahmed Magooda, Diane Litman)
8. Learning to Compare for Better Training and Evaluation of Open Domain Natural Language Generation Models. (from Wangchunshu Zhou, Ke Xu)
9. Incorporating Visual Semantics into Sentence Representations within a Grounded Space. (from Patrick Bordes, Eloi Zablocki, Laure Soulier, Benjamin Piwowarski, Patrick Gallinari)
10. Snippext: Semi-supervised Opinion Mining with Augmented Data. (from Zhengjie Miao, Yuliang Li, Xiaolan Wang, Wang-Chiew Tan)