7 Papers | 谷歌量子霸權論文;13項NLP任務奪冠的小模型ALBERT

2021-02-07 機器之心

本周重要論文很多,特別是谷歌的研究非常耀眼,有量子霸權論文和參數小 BERT 很多但性能超 XLNe 的模型 ALBERTt。此外還有北大等的論文。

目錄:

Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks

InterpretML: A Unified Framework for Machine Learning Interpretability

ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

Language Models as Knowledge Bases?

Deep Learning For Symbolic Mathematics

Quantum Supremacy Using a Programmable Superconducting Processor

Do Massively Pretrained Language Models Make Better Storytellers?

論文 1:Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks

摘要:對濾波器進行剪枝是一種最為有效的、用於加速和壓縮卷積神經網絡的方法。在這篇論文中,來自北大的研究者提出了一種全局濾波器剪枝的算法,名為「門裝飾器(gate decorator)」。這一算法可以通過將輸出和通道方向的尺度因子(門)相乘,進而改變標準的 CNN 模塊。當這種尺度因子被設 0 的時候,就如同移除了對應的濾波器。研究人員使用了泰勒展開,用於估計因設定了尺度因子為 0 時對損失函數造成的影響,並用這種估計值來給全局濾波器的重要性進行打分排序。接著,研究者移除哪些不重要的濾波器。在剪枝後,研究人員將所有的尺度因子合併到原始的模塊中,因此不需要引入特別的運算或架構。此外,為了提升剪枝的準確率,研究者還提出了一種迭代式的剪枝架構——Tick-Tock。

圖 1:濾波器剪枝圖示。第 i 個層有 4 個濾波器(通道)。如果移除其中一個,對應的特徵映射就會消失,而輸入 i+1 層的通道也會變為 3。

圖 2:Tick-Tock 剪枝框架圖示。

圖 3:組剪枝展示。同樣顏色的 GBN 屬於同一組。

推薦:本文是北大和 Momenta 的一篇論文,借用 LSTM 的門控制思想對神經網絡進行剪枝,是一種新穎的剪枝方法,讀者朋友可借鑑。

論文 2:InterpretML: A Unified Framework for Machine Learning Interpretability

摘要:InterpretML 是一個為實踐者和研究者提供機器學習可解釋性算法的開源 Python 軟體包。InterpretML 能提供以下兩種類型的可解釋性:(1)明箱(glassbox),這是針對可解釋性設計的機器學習模型(比如線性模型、規則列表、廣義相加模型);(2)黑箱(blackbox)可解釋技術,用於解釋已有的系統(比如部分依賴、LIME)。這個軟體包可讓實踐者通過在一個統一的 API 下,藉助內置的可擴展可視化平臺,使用多種方法來輕鬆地比較可解釋性算法。InterpretML 也包含了可解釋 Boosting 機(Explanable Boosting Machine,EBM)的首個實現,這是一種強大的可解釋明箱模型,可以做到與許多黑箱模型同等準確的性能。

軟體架構和代碼

推薦:本文是微軟開源工具的論文,用於幫助人們使用科技史的模型進行機器學習。

論文 3:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

摘要:通常而言,在預訓練自然語言表徵時增加模型大小可以提升模型在下遊任務中的性能。但在某些情況下,由於 GPU/TPU 內存限制、訓練時間延長以及意外的模型退化等原因,進一步增加模型大小的難度也隨之增加。所以,為了解決這些問題,來自谷歌的研究者提出通過兩種參數削減(parameter-reduction)技術來降低內存消耗,加快 BERT 的訓練速度。綜合實驗表明,ALBERT 的擴展效果要優於原始 BERT。此外,他們還使用了聚焦於句間連貫性建模的自監督損失,並證明這種損失對下遊任務中的多語句輸入有持續幫助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基準測試上都取得了新的 SOTA 效果,並且參數量少於 BERT-large。

表 2:本文中用到的 BERT 和 ALBERT 模型配置。

推薦:雖然大型預訓練語言模型在很多 NLP 任務上取得了進展,但壓縮參數一直是研究者的目標。谷歌團隊這回再次發力,將 BERT 進行了明顯的參數縮減,但依然超越了現有的 SOTA——XLNet 模型。這一論文值得讀者閱讀。

論文 4:Language Models as Knowledge Bases?


摘要:近來在大型與來哦中預訓練的語言模型幫助 NLP 下遊任務提升了性能表現。當學習語言知識的同時,這些模型可能存儲了訓練集中的關聯知識,可以回答一些填空方面的問題。

作為結構化的知識基礎,語言模型有很多優勢:它們不需要抽取工程,使得使用者可以獲得開放的關係類別,也可以容易地擴展更多數據,也不需要監督訓練。本文中,研究者探究了一系列 SOTA 語言模型在不微調的情況下作為關係知識表示的能力。

語言模型作為知識表示的方法。

推薦:本文分析了語言模型作為關係知識表示的能力,為下一步利用預訓練模型進行知識推理和問答的研究提供了一些思路。

論文 5:Deep Learning For Symbolic Mathematics

摘要:神經網絡在解決統計或擬合問題時較計算和解決符號數據更為優秀。在本文中,研究者表明,神經網絡在解決一些複雜的數學問題上表現很好,例如符號積分和解決微分方程。研究者提出了一種語法,可以表示這些數學問題,以及一種用於生成大數據集的方法,用於訓練一個 seq2seq 模型。研究者提出的方法在表現上超過了商業代數計算軟體的性能,如 Matlab 或 Mathematica。

推薦:神經網絡強大的擬合能力使其在機器學習中佔有一席之地。本文創新性地使用神經網絡擬合數學問題,且計算速度很快。

論文 6:Quantum Supremacy Using a Programmable Superconducting Processor

摘要:量子計算機的誘人前景在於量子處理器上執行某項計算任務的速度要比經典處理器快指數倍,而根本性的挑戰是構建一個能夠在指數級規模的計算空間中運行量子算法的高保真度處理器。在這篇論文中,谷歌研究者使用具有可編程超導量子比特的處理器來創建 53 量子比特的量子態,佔據了 2^53∼10^16 的狀態空間。重複性實驗得到的測量值對相應的概率分布進行採樣,並利用經典模擬加以驗證。

谷歌的量子處理器大約只需 200 秒即可對量子電路採樣 100 萬次,而當前最優的超級計算機完成同樣的任務大約需要 1 萬年。

圖 1:Sycamore 量子處理器。a. 該處理器的布局,有 54 個量子比特,每個量子比特用耦合器(藍色)與四個最近的量子比特相連;b. Sycamore 晶片的光學圖像。

推薦:本文昭示著量子計算領域的進一步發展,為量子計算的實際應用奠定了研究基礎。論文依舊是谷歌相關團隊,足見其科研實力強大。

論文 7:Do Massively Pretrained Language Models Make Better Storytellers?

摘要:在大量文本上訓練過的大型神經語言模型在很多種 NLP 任務上都取得了很好的表現。但是,這些模型在自然語言生成任務上的能力依然不夠明確。一些線索說明這些模型可以生成高質量文本,但是並沒有關於這些模型生成能力的具體研究。本文中,研究者對比了這些預訓練模型,包括 GPT2-117 和現在的神經故事生成模型。通過多種指標評估生成文本後,研究人員發現了一些可以很好生成故事的模型,以及一些表現不太好的模型。研究人員表示,雖然 GPT2-117 在語境上更好,對事件的順序更敏感,而且使用了更多不常用的詞彙,但是它在使用最大似然解碼算法時只能生成重複的、沒有多樣性的文本。

不同模型生成的故事文本。

推薦:預訓練語言模型能講好故事嗎?本文說明:依然不能。故事不僅關乎語法和語序,還有隱式地表意和情感信息和額外的先驗知識作為基礎。目前很多文本生成的模型僅僅只是繼續續寫文本而已,它們既沒有理解文本的含義,也無法組織起連貫有趣的語言。

相關焦點

  • 谷歌實現量子霸權論文曝光,圈內人士:量子計算的裡程碑事件
    雖然相關論文上傳至 NASA 後不久即被刪除,但還是有眼疾手快的讀者及時保存了論文。谷歌是否真的實現了量子霸權?這一實驗算不算一個裡程碑事件?讀者可以去論文中尋找答案。論文連結:https://drive.google.com/file/d/19lv8p1fB47z1pEZVlfDXhop082Lc-kdD/view這篇論文的摘要寫道:量子計算機的誘人前景在於量子處理器上執行某項計算任務的速度要比經典處理器快指數倍,而根本性的挑戰是構建一個能夠在指數級規模的計算空間中運行量子算法的高保真度處理器
  • 《Nature》登出谷歌「量子霸權」論文 評價其為裡程碑式成就
    DoNews 10月24日消息(記者 趙晉傑)北京時間10月23日晚,《Nature》雜誌官網重磅發表了有關谷歌實現「量子霸權」的論文,評價其為量子領域中「Hello World」一樣的裡程碑式事件。谷歌CEO皮查伊和谷歌的量子計算機其實在今年9月份,谷歌講述「量子霸權」的論文j就曾被美國NASA網站率先發布,不過該論文很快又被刪除。
  • 谷歌量子霸權報告正式發布:200秒完成任務,經典計算機需要1萬年
    此前與谷歌在量子計算領域合作的美國宇航局局網站上洩露了這篇論文的早期版本,隨後該論文被迅速撤下,當時谷歌並沒有對此發表評論。現在谷歌的研究結果本周三正式發表在《自然》雜誌上,我們終於可以詳細了解谷歌的最新成果了。加州大學聖巴巴拉分校和加州山景城谷歌實驗室的實驗物理學家約翰·馬提尼斯領導的團隊進行了該項研究。
  • 谷歌ALBERT模型V2+中文版來了,GitHub熱榜第二
    十三 發自 凹非寺量子位 報導 | 公眾號 QbitAI比BERT模型參數小18倍,性能還超越了它。這就是谷歌前不久發布的輕量級BERT模型——ALBERT。而最近,谷歌開源了中文版本和Version 2,項目還登上了GitHub熱榜第二。
  • 谷歌實現量子霸權是什麼意思?谷歌實現量子霸權意味著什麼?
    據國外媒體報導,在日前發表在《自然》雜誌上的一篇論文中,谷歌研究人員聲稱首次獲得了「量子優勢」(也被稱為「量子霸權」)。他們的53位量子計算機(名為Sycamore)花了200秒來完成一項計算任務,根據谷歌的說法,這項計算任務將花費世界上最快的超級計算機10000年的時間。
  • 量子計算機200秒完成的運算,最強超算需1萬年,谷歌實現量子霸權
    邊策 慄子 發自 凹非寺量子位 出品 | 公眾號 QbitAI量子計算機用3分20秒完成的一項計算,全球最強大的超算Summit要花1萬年。這個成果,來自谷歌最新的量子計算研究,發表在NASA官網上。論文宣布,「量子霸權」實現了。
  • 最強NLP預訓練模型!谷歌BERT橫掃11項NLP任務記錄
    與最近的語言表徵模型不同,BERT 旨在基於所有層的左、右語境來預訓練深度雙向表徵。BERT 是首個在大批句子層面和 token 層面任務中取得當前最優性能的基於微調的表徵模型,其性能超越許多使用任務特定架構的系統,刷新了 11 項 NLP 任務的當前最優性能記錄。
  • 谷歌正式宣布量子霸權實現!獨家專訪谷歌CEO:意義堪比萊特兄弟發明...
    與此同時,谷歌 AI 量子團隊也發布了一條視頻,講述其如何實現了「量子霸權(Quantum Supremacy)」。從論文刊登的時間線上來看,谷歌於今年 7 月 22 日遞交了論文,而被 NASA 發表的那天正是它被正式接受的時間。谷歌在媒體發布會上表示,NASA在內部審核時出現了失誤,錯把已經接受但還不應該顯示的文章發布了出來,而且是初版。
  • 超越谷歌「量子霸權」100億倍!中國科學家如何做到的?
    據現有理論,該量子計算系統處理高斯玻色取樣的速度比目前最快的超級計算機快一百萬億倍,即「九章」一分鐘完成的任務,超級計算機需要一億年。  其速度也等效地比去年穀歌發布的53個超導比特量子計算原型機「懸鈴木」快一百億倍。  這一成果使得我國成功達到了量子計算研究的第一個裡程碑:量子計算優越性(國外稱「量子霸權」)。
  • 谷歌「量子霸權」核心人物:我為什麼從谷歌辭職?
    Martinis為谷歌的量子計算機領域立下過汗馬功勞,他帶領團隊在去年首次實現量子霸權(quantum supremacy)的裡程碑式突破,登上Nature封面。然而論文發表後,谷歌執行長 Sundar Picha將Martinis調離管理崗位。Martinis曾經是美國加州大學聖塔芭芭拉分校(UCSB)的教授,在超導量子比特領域做出過大量傑出工作。
  • 當神經網絡遇上量子計算:谷歌證明量子神經網絡可訓練圖像分類
    曉查 發自 凹非寺 量子位 報導 | 公眾號 QbitAI谷歌人工智慧量子(Google AI Quantum)團隊最近發表了兩篇論文,介紹了他們在理解量子計算機學習任務方面取得的新進展。量子計算,它能給AI技術的發展帶來什麼幫助嗎?
  • 揭秘谷歌「量子霸權」計劃:有望明年底突破經典計算極限
    20 世紀 80 年代時,理論學家認識到基於量子力學的計算機有望在特定的任務上遠超普通或經典計算機的性能。但說起來簡單做起來難,直到最近,可以擊敗經典計算機的量子計算機才有望從實驗室研究變成現實真正可用的東西,而谷歌想造出第一臺。這家公司的規劃目前還是機密,谷歌也拒絕就這篇文章發表評論。
  • 超越谷歌實現「量子霸權」?中國量子計算原型機「九章」到底是啥?
    根據現有理論,九章」量子計算系統處理高斯玻色取樣的速度比目前最快的超級計算機快一百萬億倍。這是一個什麼概念,簡單換算一下,「九章」一分鐘完成的任務,超級計算機需要花費一億年!再和谷歌去年的53個超導比特量子計算原型機「懸鈴木」相比,我們要比谷歌快一百億倍!簡單的羅列數字你可能感受不到這一成果究竟是一個什麼概念,在詳細講解之前我們不妨先看一下「九章」長什麼樣。
  • 谷歌的量子霸權什麼水平?相當於7歲的張怡寧打桌球贏了郎平
    但就在今天,谷歌在《自然》(Nature)在150周年紀念特刊發布論文表示,一臺可編程量子計算機超越了最快的經典超級計算機,傳統算法跑在IBM頂級計算機上要1萬年才能算出的東西,量子計算機200秒就搞定了。這可以說是量子計算的重大裡程碑事件,簡直一洗量子汙名,重振量子雄風。
  • 中國量子計算原型機「九章」問世,實現「量子霸權」
    這一成果使得我國成功達到了量子計算研究的第一個裡程碑:量子計算優越性(國外稱「量子霸權」)。相關論文於12月4日在線發表在國際學術期刊《科學》上。這當中,量子計算研究的第一個階段性目標,是實現「量子計算優越性」(亦譯為「量子霸權」),即研製出量子計算原型機在特定任務的求解方面超越經典的超級計算機。上面提到的量子計算「特定任務」,是指經過精心設計,非常適合於量子計算設備發揮其計算潛力的問題。這類問題包括隨機量子線路採樣、IQP線路、高斯玻色取樣。
  • 谷歌的量子霸權什麼水平?相當於7歲的張怡寧打桌球贏了郎平-虎嗅網
    但就在今天,谷歌在《自然》在150周年紀念特刊發布論文表示,一臺可編程量子計算機超越了最快的經典超級計算機,傳統算法跑在IBM頂級計算機上要1萬年才能算出的東西,量子計算機200秒就搞定了。這可以說是量子計算的重大裡程碑事件,簡直一洗量子汙名,重振量子雄風。
  • 中國量子計算原型機九章問世 實現「量子霸權」的兩種路徑
    據現有理論,該量子計算系統處理高斯玻色取樣的速度比目前最快的超級計算機快一百萬億倍,即「九章」一分鐘完成的任務,超級計算機需要一億年。其速度也等效地比去年穀歌發布的53個超導比特量子計算原型機「懸鈴木」快一百億倍。這一成果使得我國成功達到了量子計算研究的第一個裡程碑:量子計算優越性(國外稱「量子霸權」)。
  • 谷歌量子計算機登Nature封面,200秒頂超算1萬年!美國實現量子霸權...
    這個突破經由CEO皮猜親自官宣、論文登上Nature 150周年紀念特刊、各大主流媒體頭版頭條、熱度全網第一,甚至連川普的大女兒伊萬卡都忍不住第一時間發出賀電:官宣,美國實現了量子霸權!這是一個歷史性時刻,谷歌也首次透露,已經為此埋頭攻堅了13年。1量子優越性首次實現Quantum Supremacy,伊萬卡口中的「量子霸權」,谷歌更傾向於翻譯為量子優越性。
  • 九章量子計算機實現量子霸權?
    中國九章量子計算機的消息都聽說了吧,超越了谷歌去年的量子計算,往往有些媒體很激動,寫著打破谷歌量子霸權或者跟谷歌爭奪量子霸權什麼的,可惜全用錯了。量子霸權是個偽命題,一種營銷概念,這個詞本身就有問題,還有的媒體沒去看原論文,然後就在原文實現了區六個光子的輸出。
  • 中科大「九章」歷史性突破,但實現真正的量子霸權還有多遠?
    「九章」量子計算原型機光路系統原理圖如下:一年之前谷歌的量子計算機懸鈴木發布,美國總統川普的女兒伊萬卡就曾經官宣聲稱這項成果使美國實際擁有了量子霸權,其成就堪與萊特兄弟在1903年的飛機首秀相媲美。文中谷歌宣稱他們研製的53位量子比特計算機,僅僅花了100秒就跑完了傳統超級計算機需要1萬年才能完成的計算任務。這也使量子霸權的概念瞬間完成了國民級的傳播普及。