7 Papers & Radios | 1.6萬億參數語言模型;IJCAI 2020獎項公布

2021-02-07 澎湃新聞

機器之心 & ArXiv Weekly Radiostation

參與:杜偉、楚航、羅若天

本周的重要論文包括谷歌大腦提出的擁有 1.6 萬億參數的語言模型 Switch Transformer,以及 IJCAI 2020 各獎項論文。

目錄:

Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking

Online 3D Bin Packing with Constrained Deep Reinforcement Learning

Synthesizing Aspect-Driven Recommendation Explanations from Reviews

A Multi-Objective Approach to Mitigate Negative Side Effects

SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY

Deep learning-enabled medical computer vision

11 TOPS photonic convolutional accelerator for optical neural networks

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

論文 1:Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking

作者:Yingjie Gu、Xiaoye Qu、Zhefeng Wang 等

論文連結:https://arxiv.org/abs/2101.02394

摘要:實體連結技術的發展可以促進信息抽取、文檔分析、智能問答、知識庫擴充等不同的任務,但是由於名稱的變化和實體的模糊性,實體連結任務十分具有挑戰性,尤其是短文本的實體連結,句子長度短,在連結過程中,每個待消歧的實體能利用的上下文信息非常有限。

針對這個任務,華為雲的研究人員提出了一個多項選擇閱讀理解的框架,為句子中每個待消歧的實體分別生成一個問題,並將知識庫中的候選實體轉換成候選答案集,通過這樣一個設計,實體連結轉換為了一個閱讀理解的問題。為了進一步捕捉句子內待消歧實體間的主題一致性來提高連結的準確率,該工作採用了多輪閱讀理解的方式以序列去處理多個待消歧的實體,為句子內多個實體的消歧提供了更豐富的信息。另外,為了解決短文本中常見的不可連結問題(即知識庫中沒有對應的實體),該工作額外設計了一個兩階段的驗證機制來判斷實體是否可被連結。大量的實驗顯示,提出的框架在多個中英文數據集上均取得了目前最優的實體連結效果。

短文本實體連結 M3 框架示意圖。

算法 1。

中文和英文數據集上的評估結果對比。

推薦:本文被 AAAI 2021 會議接收。

論文 2:Online 3D Bin Packing with Constrained Deep Reinforcement Learning

作者:Hang Zhao、Qijin She、Chenyang Zhu 等

論文連結:https://arxiv.org/abs/2006.14978

摘要:國防科技大學、克萊姆森大學和視比特機器人的研究人員合作使用深度強化學習求解在線裝箱問題,該方法的性能表現優於現有的啟發式算法。用戶研究顯示,該算法達到甚至超越了人類的在線碼垛水平。作者團隊還將訓練模型部署到了工業機器人上,實現了業界首個高效能(連續碼放 50 個以上隨機尺寸箱子,空間利用率大於 70%)無序混合碼垛機器人。

基於「預測 - 投影」的動作監督機制實現帶約束的深度強化學習。

箱子的真實順序(左上)和虛擬重排順序(左下,實際順序靠前的箱子不能放在實際順序靠後箱子的上面),右邊展示了不同序列的排序樹。

基於深度強化學習的高效能無序混合碼垛機器人。

推薦:論文已被 AAAI 2021 會議接收。

論文 3:Synthesizing Aspect-Driven Recommendation Explanations from Reviews

作者:Trung-Hoang Le 和 Hady W. Lauw

論文連結:https://www.ijcai.org/Proceedings/2020/0336.pdf

摘要:解釋有助於理解建議並增加採納的可能性,然而有些解釋性建議方法依賴於嚴格、標準化的模板。為了獲取更加靈活、通俗、多樣化的解釋,覆蓋 interest 各個方面,來自新加坡管理大學的研究者從評論中選擇片段來進行綜合解釋,同時優化了其代表性和連貫性 。為了適應目標用戶的偏好,研究者基於一個兼容的可解釋推薦模型,將觀點與上下文相銜接。幾個產品類別數據集上的實驗表明,在模板、評論摘要、選擇和文本生成這些方面,本文方法具備更高的效率。

本文提出框架 SEER 的架構。

算法 1:SEER-Greedy

算法 2:Opinion Substitution

推薦:本文獲得了 IJCAI 2020 傑出論文獎。

論文 4:A Multi-Objective Approach to Mitigate Negative Side Effects

作者:Sandhya Saisubramanian、Ece Kamar、Shlomo Zilberstein

論文連結:https://www.ijcai.org/Proceedings/2020/0050.pdf

摘要:非結構化環境內運行的智能體通常會產生設計時不容易識別的負面作用 (NSE) 。來自 UMass Amherst 和微軟研究院的研究者分析了在系統部署過程中,如何利用各種形式的人類反饋或自主探索,來學習與 NSE 相關的懲罰函數。他們將降低 NSE 影響的問題描述為一個具備字典式獎勵偏好與鬆弛多目標馬爾科夫決策過程。鬆弛指的是相對於智能體的主要目標允許的最優策略的最大偏差,以減少次要目標 NSE。

多項實驗評估表明,本文所提出的框架能夠成功減少 NSE 的影響,不同的反饋機制會帶來不同的偏差,從而影響 NSE 的識別。

論文提出的消除 NSE 的框架。

算法 1:Slack Estimation

反饋技術中的 Bias

推薦:本文獲得了 IJCAI 2020 傑出論文獎。

論文 5:SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY

作者:William Fedus、Barret Zoph、Noam Shazeer

論文連結:https://arxiv.org/pdf/2101.03961.pdf

摘要:在深度學習領域,模型通常會對所有輸入重用相同的參數。但 Mixture of Experts (MoE,混合專家) 模型是個例外,它們會 為每個輸入的例子選擇不同的參數,結果得到一個稀疏激活模型——雖然參數量驚人,但計算成本恆定。目前,MoE 模型已在機器翻譯領域取得了令人矚目的成就,但由於模型複雜度高、通信成本高、訓練不夠穩定,其廣泛應用受到了一定的阻礙。

為了解決這些問題,Google Brain 的研究者提出了 Switch Transformer。在 Switch Transformer 的設計中,它們簡化了 MoE 的路由算法(routing algorithm),設計了直觀的改進模型,新模型的通信成本和計算成本都大大降低。此外,他們提出的訓練技術還提高了訓練的穩定性,首次表明大型稀疏模型也可以用低精度(bfloat16)進行訓練。研究者還將新模型與 T5-Base 和 T5-Large 進行了對比,結果表明,在相同的計算資源下,新模型實現了最高 7 倍的預訓練速度提升。

Switch Transformer 的編碼器塊。

具有不同專家容量因子(expert capacity factor)的路由示例。

Switch Transformer 與 MoE Transformer 的對比結果。

推薦:1.6 萬億參數的語言模型。

論文 6:Deep learning-enabled medical computer vision

作者:Andre Esteva、Katherine Chou、Serena Yeung 等

論文連結:https://www.nature.com/articles/s41746-020-00376-2#Sec6

摘要:十年來,人工智慧取得了前所未有的進展,包括醫學在內的許多領域都有望從中受益。在該論文中,研究者調查了以深度學習為支撐的現代計算機視覺技術在醫學領域的最新進展,重點包括醫學成像、醫療視頻和臨床部署。該論文首先簡要概述了卷積神經網絡的十年進展,包括它們在醫療領域中實現的視覺任務。接下來,論文討論了一些有益的醫學成像應用示例,涉及心臟病學、病理學、皮膚病學、眼科醫學,並為後續研究工作提出了新的方向。此外,研究者還介紹了醫療視頻,重點介紹了如何將臨床工作流程與計算機視覺結合來改善醫療效果。最後,論文討論了在現實世界中部署這些技術面臨的挑戰和障礙。

醫療領域中的計算機視覺任務示例。

醫師級別的診斷性能。

環境智能。

推薦:該論文發表在 Nature 旗下期刊 npj Digital Medicine 上

論文 7:11 TOPS photonic convolutional accelerator for optical neural networks

作者:Xingyuan Xu、Mengxi Tan、Bill Corcoran 等

論文連結:https://www.nature.com/articles/s41586-020-03063-0

摘要:近日,由徐興元博士 (莫納什大學)、David Moss 教授(斯威本大學)和 Arnan Mitchell 教授(RMIT 大學)的帶領的國際研究團隊展示了目前世界上最快的人工智慧光學神經形態處理器,其運行速度超過每秒 11 萬億次運算(TeraOPs/s),能夠處理超大規模數據。

這一突破以「11 TOPS photonic convolutional accelerator for optical neural networks」為題發表在著名的《自然》雜誌上,代表著神經網絡和整個神經形態處理的巨大飛躍。該團隊展示的是一種 "光學神經形態處理器",其運行速度是以往任何處理器的 1000 多倍,該系統還能處理創紀錄大小的超大規模圖像——足以實現完整的面部圖像識別,這是其他光學處理器一直無法完成的。

TOPS photonic CA 的運行原理。

光學 CNN 的實驗示意圖。

卷積層。

推薦:目前世界上最快的人工智慧光學神經形態處理器。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

本周 10 篇 NLP 精選論文是:

1. "Let's Eat Grandma": When Punctuation Matters in Sentence Representation for Sentiment Analysis. (from Huan Liu)

2. Of Non-Linearity and Commutativity in BERT. (from Roger Wattenhofer)

3. BERT-GT: Cross-sentence n-ary relation extraction with BERT and Graph Transformer. (from Zhiyong Lu)

4. Robustness Gym: Unifying the NLP Evaluation Landscape. (from Christopher Ré)

5. Machine-Assisted Script Curation. (from Ralph Weischedel)

6. Persistent Anti-Muslim Bias in Large Language Models. (from James Zou)

7. Neural Contract Element Extraction Revisited. (from Ion Androutsopoulos)

8. MeisterMorxrc at SemEval-2020 Task 9: Fine-Tune Bert and Multitask Learning for Sentiment Analysis of Code-Mixed Tweets. (from Peng Wang)

9. SICKNL: A Dataset for Dutch Natural Language Inference. (from Michael Moortgat)

10. Self-Training Pre-Trained Language Models for Zero- and Few-Shot Multi-Dialectal Arabic Sequence Labeling. (from Muhammad Abdul-Mageed)

本周 10 篇 CV 精選論文是:

1. GAN Inversion: A Survey. (from Ming-Hsuan Yang)

2. SEED: Self-supervised Distillation For Visual Representation. (from Lei Zhang, Zicheng Liu)

3. Probabilistic Graph Attention Network with Conditional Kernels for Pixel-Wise Prediction. (from Xiaogang Wang, Nicu Sebe)

4. DuctTake: Spatiotemporal Video Compositing. (from Markus Gross)

5. Understanding Action Sequences based on Video Captioning for Learning-from-Observation. (from Katsushi Ikeuchi, Masayuki Inaba)

6. TrackMPNN: A Message Passing Graph Neural Architecture for Multi-Object Tracking. (from Mohan M. Trivedi)

7. Explainability of vision-based autonomous driving systems: Review and challenges. (from Patrick Pérez)

8. Multimodal Engagement Analysis from Facial Videos in the Classroom. (from Ulrich Trautwein)

9. Cross-Modal Contrastive Learning for Text-to-Image Generation. (from Honglak Lee)

10. DAIL: Dataset-Aware and Invariant Learning for Face Recognition. (from Jiebo Luo)

本周 10 篇 ML 精選論文是:

1. Fast convolutional neural networks on FPGAs with hls4ml. (from Maurizio Pierini, Zhenbin Wu)

2. Average-Reward Off-Policy Policy Evaluation with Function Approximation. (from Richard S. Sutton)

3. A SOM-based Gradient-Free Deep Learning Method with Convergence Analysis. (from Jinde Cao)

4. Sound Event Detection with Binary Neural Networks on Tightly Power-Constrained IoT Devices. (from Luca Benini)

5. Unsupervised Domain Adaptation of Black-Box Source Models. (from Lei Zhang)

6. Neural networks behave as hash encoders: An empirical study. (from Dacheng Tao)

7. MC-LSTM: Mass-Conserving LSTM. (from Sepp Hochreiter)

8. BiGCN: A Bi-directional Low-Pass Filtering Graph Neural Network. (from Yang Wang)

9. Towards Practical Adam: Non-Convexity, Convergence Theory, and Mini-Batch Acceleration. (from Wei Liu)

10. BN-invariant sharpness regularizes the training model to better generalization. (from Tie-Yan Liu)

原標題:《7 Papers & Radios |1.6萬億參數語言模型;IJCAI 2020獎項公布》

閱讀原文

相關焦點

  • 超過GPT3的谷歌萬億參數的AI語言模型
    正如研究人員在一篇詳細介紹他們工作的論文中指出的那樣,大規模訓練是通往強大模型的有效路徑。簡單的架構,在大量數據集和參數數的支持下,超越了遠為複雜的算法。但是,有效的大規模訓練是非常耗費計算的。這就是為什麼研究人員追求他們所謂的Switch Transformer的原因,這是一種 "稀疏激活 "的技術,它只使用模型的權重子集,或者說在模型中轉換輸入數據的參數。
  • 【一分鐘論文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing
    跟隨小博主,每天進步一丟丟最近參加了一次蘇州大學HLT實驗室的LA(語言分析)組學術討論班,收穫不少。這是一次純英文講解和提問的mini講座我大概湊活聽懂了6-70%左右,哎,以後得多下功夫了。這次分享的論文是:http://hlt.suda.edu.cn/~zhli/papers/liying_ijcai19_dp.pdf是由SUDA-HLT實驗室LA組的博士二年級學生李英發表在2019IJCAI上的一篇文章。
  • IJCAI 2017,清華被收錄了哪些論文?
    雷鋒網注意到在這660篇文章中,清華大學 自然語言處理與社會人文計算實驗室(thunlp)就有7篇論文被IJCAI收錄。論文下載地址:https://www.ijcai.org/proceedings/2017/0544.pdf2、《Joint Training for Pivot-based Neural Machine Translation 》針對低資源語言的神經機器翻譯提出了源語言-橋接語言和橋接語言-目標語言翻譯模型的聯合訓練算法,增強兩個模型在參數估計中的關聯性。
  • 7 Papers & Radios | 阿里達摩院自動駕駛新成果;邱錫鵬預訓練模型...
    這還是主流模型,如果沒讀過具體論文,我們是很難分清楚的,對於更多的變體與擴展,基本上就無能為力了。但近日復旦大學邱錫鵬等研究者發了一篇論文,它以兩張圖詳細展示了預訓練語言模型的現狀與分類。復旦的這篇綜述性論文非常豐富,它以 25 頁的篇幅展示了預訓練語言模型的方方面面,不論是新奇的預訓練任務,還是各種模型針對領域知識的擴展,我們都能快速 Get 到。
  • 谷歌發布萬億參數語言模型,語言模型何時超越人類語言能力?
    ,近日Google提出萬億參數語言模型Switch Transformer,進一步提高了語言模型可以達到的頂峰。這個語言無關模型在語言上可以與BERT有相同的表現,此外,在該模型中,語言轉換過程中的一些幹擾的影響是非常有限的。
  • 7 Papers & Radios | EMNLP 2020最佳論文;新型優化器AdaBelief
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括EMNLP 2020 和CoRL 2020 學術會議的各獎項論文。聯合學習技能嵌入和技能先驗的深度潛變量模型。算法 1。本研究方法與其他方法的下遊任務學習曲線。推薦:CoRL 2020 最佳 Presentation 論文。
  • IJCAI 2020 已線上開獎!周志華、張成奇還將分別擔任2021程序主席和2024大會主席
    去年原定於 7 月 11 日在日本橫濱召開的IJCAI,也因為疫情延期半年到今年1月召開。 這個獎項是根據愛德華·費根鮑姆和 Julian Feldman 編輯的《計算機與思想》一書的版稅設立的。它目前由 IJCAI 基金的收入支助。 2020 IJCAI 計算機與思維獎的獲得者是 Piotr Skowron,華沙大學數學,信息學和力學學院的助理教授。
  • 超越Google 快手落地業界首個萬億參數推薦精排模型
    Google日前發布了首個萬億級模型 Switch Transformer 參數量達到1.6萬億 其速度是Google之前開發的最大語言模型 T5-XXL 的4倍。然而快手萬億參數精排模型總的參數量超過1.9萬億 規模更大 且已經投入實踐。下面就讓我們通過快手精排模型的發展史 一起揭秘它內部的的技術密碼吧!
  • 百度IJCAI2020之行的亮點總結,學術創新成果全球領先
    據知,IJCAI2020是史上最難的一屆,論文接受率12.6%創歷史最低;其中,百度不僅貢獻多篇優質論文,涵蓋眾多前沿領域,更有線上展臺技術講座,分享交流最新的學術突破。值得一提的是,百度研究院量子計算研究所所長段潤堯還在會上發表了以量子計算為主題的精彩演講。
  • NeurIPS 2020獎項出爐:GPT-3等三項研究獲最佳論文獎
    機器之心報導機器之心編輯部一萬八千人參會的NeurIPS 2020 相比去年數量暴漲了三成,在大會上,1750 億參數模型 GPT-3 再次成為了人們熱議的話題。北京時間 12 月 8 日凌晨,正在線上舉行的全球人工智慧頂會 NeurIPS 2020 公布了最佳論文等獎項。在一千八百餘篇論文中,三篇論文獲會議最佳論文獎項,OpenAI 等機構的 GPT-3 研究名列其中,可謂實至名歸。
  • NeurIPS 2020 獎項出爐:GPT-3等三項研究獲最佳論文獎
    機器之心報導機器之心編輯部一萬八千人參會的NeurIPS 2020 相比去年數量暴漲了三成,在大會上,1750 億參數模型 GPT-3 再次成為了人們熱議的話題。北京時間 12 月 8 日凌晨,正在線上舉行的全球人工智慧頂會 NeurIPS 2020 公布了最佳論文等獎項。
  • NeurIPS2020獎項出爐:GPT-3等三項研究獲最佳論文獎,華人一作論文...
    原創 Synced 機器之心機器之心報導機器之心編輯部一萬八千人參會的NeurIPS 2020 相比去年數量暴漲了三成,在大會上,1750 億參數模型 GPT-3 再次成為了人們熱議的話題。
  • 7 Papers & Radios | 王者榮耀AI絕悟完全體;目標檢測新範式
    上面這張圖片中的輸入 - 輸出結果,來源於一個 GitHub 熱門項目 U^2-Net (U square net),開源至今已經獲得了 1.7K 的 star 量。這項研究來自阿爾伯塔大學的一個團隊,論文此前已被國際模式識別大會 ICPR 2020 會議接收。研究團隊在論文中介紹,U^2-Net 是一個簡單而強大的深度網絡架構,其架構是兩層嵌套的 U 形結構。
  • 7 Papers & Radios | 何愷明組新型網絡設計範式;阿里達摩院高性能...
    使用 TResNet 模型以及與 ResNet50 相似的 GPU 吞吐量,研究者在 ImageNet 上實現了 80.7% 的 top-1 準確度。現有的大多數模型都使用遠程監督來獲取訓練數據,並且不可避免地會遇到噪聲標籤(noise label)的問題。為了解決這一問題,來自清華大學和加拿大滑鐵盧大學的研究者提出使用語言模型增強來進行實體分型。具體而言,它利用語言模型來度量上下文中句子和標籤之間的兼容性,從而自動將更多注意力集中在與上下文相關的標籤上。
  • 7 Papers & Radios | 陳丹琦關係抽取新SOTA;上海交大醫療版MNIST...
    研究人員對比了多個基線方法的性能,包括早停 ResNet [6]、開源 AutoML 工具(auto-sklearn [7] 和 AutoKeras [8]),以及商業化 AutoML 工具(Google AutoML Vision)。研究人員希望 MedMNIST Classification Decathlon 可以促進 AutoML 在醫療圖像分析領域的研究。
  • 7 Papers & Radios | MIT利用AI發現迄今最強抗生素;管軼團隊穿山甲中發現冠狀病毒
    論文 3:CodeBERT: A Pre-Trained Model for Programming and Natural Languages摘要:在本文中,研究者提出了 CodeBERT,這是一種用於程式語言(PL)和自然語言(NL)的雙峰預訓練模型。
  • ICML 2017首日公布兩大獎項:史丹福大學獲最佳論文獎
    在大會的第一天下午,備受關注的本屆大會最佳論文等獎項也已公布。ICML 是計算機科學領域的頂會之一。在機器之心昨日的文章《計算機領域頂級科學家、學術會議、期刊影響力排名(附國內排名)》中,根據 Google Scholar Metrics 的 H5-Index 值作出的排名可以看出,ICML 在計算機科學領域眾多會議中位列第四。
  • 【IJCAI 2018】30大 Tutorial,人工智慧百花齊放
    【導讀】當地時間 7 月 13 - 19 日,備受關注的 AI 頂級國際會議 IJCAI 在瑞典斯德哥爾摩舉行。
  • 活動| 6篇論文被IJCAI 2017接收,騰訊邀你在墨爾本共敘AI
    其中騰訊有 6 篇論文被接收,論文列表如下:論文一:Variational Deep Embedding: An Unsupervised and Generative Approach to Clustering本論文提出了變分深度嵌入(Variational Deep Embedding/VaDE)方法,VaDE 是一種在變分自編碼器(VAE
  • UC伯克利大學胡戎航博士論文公布:視覺與語言推理的結構化模型
    視覺 - 語言任務(如基於圖像回答問題或按照自然語言指令在視覺環境中導航)需要對圖像和文本兩種模態的數據進行聯合建模和推理。視覺和語言聯合推理方面已經取得了很大進步,但通常使用的是在更大的數據集和更多計算資源幫助下訓練的神經方法。視覺 - 語言任務的解決是否只是堆參數堆數據那麼簡單?如果不是,如何構建更好的推理模型,既能提高數據效率又具備不錯的泛化性能呢?