熱詞解讀丨GPT-2、XLNet與圖神經網絡

2021-02-20 微軟研究院AI頭條

編者按:在上期的NLP熱門詞彙解讀中,我們介紹了預訓練(Pre-training),它在自然語言處理領域正在掀起一股風潮,催生了「一本正經胡說八道」的編故事大師GPT-2,正與BERT相愛相殺的XLNet,以及許多新的想法與模型。除了文本數據,越來越多的圖數據為圖神經網絡研究提供了廣闊的應用背景。

AI世界瞬息萬變,本期熱詞,我們將為你解讀GPT-2、XLNet,與圖神經網絡。

OpenAI的研究人員在「Improving Language Understanding by Generative Pre-Training」中提出了OpenAI GPT,並用實驗驗證了使用基於Transformer的語言模型可以大幅度提升現有任務效果。在這篇論文的基礎上,OpenAI又提出了GPT-2。

除了模型細節上的微調,GPT-2與前代最主要的區別是使用更大規模的語料對模型進行了預訓練——它擁有15億參數,在800萬網頁數據上進行學習,最終實現針對給定的上文預測下一個詞的訓練目標。

相比GPT而言,藉助10倍的參數和10倍的數據,GPT-2能夠生成質量極高的文本,並在一些任務上,無需特定領域數據即可獲得很好的效果。如圖1所示,我們可以給定一個段落開頭,用GPT-2去續寫這個故事。原作者展示的幾個例子真的可以說是「大力出奇蹟」了。

以往的文本生成模型往往在解決連貫性、語法正確性、故事性等方面都遇到很多困難,但這些在GPT-2給出的例子中都得到了不錯的體現。也正是因為這個原因,GPT-2並沒有給出完整模型參數,因為該模型一旦公開,可能會被用於不良用途,如生成假新聞等。

圖1:GPT-2文本生成案例

GPT-2也對預訓練的模型規模和數據規模進行了探究,結果表明,隨著模型大小的增加,最終任務上的表現也不斷提高。而受限於現有的硬體計算能力,還沒有找到增大模型規模的收益上限。相信隨著算力的持續提升,更大、更快、更好的預訓練模型會不斷湧現,並為自然語言處理領域帶來新一輪的方法論變革。


https://openai.com/blog/better-language-models/#sample1

語言模型預訓練(Language Model Pre-training)正在成為自然語言處理技術的重要組成部分。之前的ELMo、GPT/GPT-2、BERT等開源模型,在各個自然語言理解任務上都取得了跨越式的提升。XLNet是由CMU和Google Brain的研究人員在「XLNet: Generalized Autoregressive Pretraining for Language Understanding」 這篇論文中提出的最新預訓練方法。

文章首先嘗試指出,當前的預訓練模型BERT存在的一大問題是預訓練和測試之間有輸入不匹配的問題。這一問題的根源是BERT是基於自解碼(denoising autoencoding)方式對語言模型進行預訓練,在輸入中人為遮蓋了一些詞進行預測,但在測試時卻是使用正常文本。

為了解決這個問題,XLNet嘗試用自回歸(autoregressive)的預訓練方式,提出了「詞序變換語言模型」(Permutation Language Modeling)。如圖2所示,模型對不同詞語之間的依賴關係進行了分解,在訓練中嘗試枚舉不同的詞語生成順序,從而對整個數據文本的概率進行計算。和BERT不同的是,為了避免使用「人為遮蓋詞語」的方式處理輸入,XLNet提出使用帶有錯位的自注意力模型(Two-Stream Self-Attention)對文本進行編碼。

這個模型的另一個亮點是使用了比以往模型更大的訓練語料,和BERT的13GB數據相比,XLNet使用了約110GB文本,並配之以512塊TPU v3晶片訓練了2.5天。再次體現出了大規模數據、強勁計算能力的重要性和威力。正如在BERT上大家觀察到的現象,使用更大的數據進行預訓練可以帶來持續的性能提升,XLNet也因此獲得了巨大加成。尋找數據規模、模型大小對預訓練效果提升的上界,也是目前大家探索的問題。Facebook研究院最近也使用更大的數據規模、更久的訓練,將BERT的預訓練效果提升到了XLNet的結果。隨著計算力的發展,更多的進展會在這一領域持續發生,不斷提升下遊任務效果。

圖2:詞序變換語言模型

來源:https://arxiv.org/abs/1906.08237

圖神經網絡(Graph Neural Network

日常生活中有許多數據,例如社交網絡、商品品目等,是天然可以被建模成成圖(Graph)的,由一組節點(對象)及其邊(關係)組成。傳統的圖研究者們希望能夠用機器學習的方法,在圖上挖掘出有效信息。例如,在已知的社交網絡中尋找相似的群體,在製藥學中判斷相似的分子結構等等。而隨著深度學習,尤其是卷積神經網絡(Convolution Neural Network)的發展,J. Bruna (2013) 在M. Gori (2005)、F. Scarselli (2009) 提出的圖神經網絡基礎上引入了圖譜論(Spectral Graph Theory),並實現了一個基於卷積神經網絡的圖神經網絡。

在傳統的研究中,研究者為了很好地處理圖數據結構特有的信息,往往要經歷數據清洗和特徵抽取(Feature Engineering)的環節,然後才進行數據建模(Modeling)。而由於圖類數據的特殊性,特徵抽取成為了影響後續任務的關鍵步驟。因此找到泛化性高、表達能力強、拓撲信息有效的特徵變得極其重要。圖神經網絡希望利用深度學習的技巧,來學習一個可以在低維空間中表達圖上每一個節點及其鄰居(乃至子網絡)和對應連接關係的圖嵌入(Graph Embedding),並可以直接使用端到端的訓練框架來解決後續問題。

此後的幾年中,不同的研究者也引入了不同的深度學習模型,用於解決不同的問題。例如,為了更好地刻畫更廣泛(長)的鄰居關係,YujiaLi (2015) 和Xiaodan Liang (2016),分別使用了GRU和LSTM替代了Convolution Layer;為了刻畫帶權重的鄰居關係,Petar Veličković (2017)用attention mechanism替代了Convolution Layer等。

圖3:採用不同Layer的圖神經網絡變種

來源:https://arxiv.org/pdf/1901.00596.pdf

此外,除了傳統的分類和預測任務外,圖神經網絡也與生成模型有一些結合。例如,Nicola De Cao (2018)提出的MolGAN結合了生成對抗網絡(GAN)的訓練方式,使得模型可以產生與元輸入相近且不同的圖數據結構;而You (2018)提出的GCPN則利用強化學習的視角和訓練方式,利用特定的激勵(reward)來生成相似的數據,用於生成相似的醫藥分子結構。

總而言之,圖神經網絡目前依然處於發展階段,傳統圖結構數據中特有的難題,如Sub-graph的表達方式等,依然亟待研究。而圖類數據的廣泛存在,也使得該領域有廣闊的應用背景。

參考資料:

[1] Gated Graph Neural Networks,Yujia Li, 2015

[2] Semantic Object Parsing with Graph LSTM, Xiaodan Liang, 2016

[3] MolGAN: An implicit generative model for small molecular graphs,Nicola De Cao, 2018

你也許還想看

感謝你關注「微軟研究院AI頭條」,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。

相關焦點

  • 熱詞解讀丨什麼是內卷?
    熱詞解讀丨什麼是內卷?「內捲化」是近幾年來中文網絡上特別流行一個詞,一般用於形容某個領域中發生了過度的競爭,導致人們進入了互相傾軋、內耗的狀態。內卷,英文叫involution,與之對應的是evolution,即演化。
  • 一份完全解讀:是什麼使神經網絡變成圖神經網絡?
    雷鋒網AI科技評論按:最近,Graph Neural Network(GNN)在很多領域日益普及,包括社交網絡、知識圖譜、推薦系統甚至於生命科學。GNN在對節點關係建模方面表現十分突出,使得相關的研究領域取得了一定突破。本文將就「為什麼圖有用」、「為什麼很難在圖上定義卷積」、「是什麼使神經網絡成為了圖神經網絡」這些問題進行討論。
  • 五行代碼玩轉GPT-2,新加坡高中生開源輕量級GPT-2「客戶端」
    五行代碼文本生成gpt2-client 是 GPT-2 原始倉庫的包裝器。OpenAI 帶來的功能,gpt2-client 一樣能實現,並且這個「客戶端」更具可訪問性,可理解性,也更加易用。首先,還是 pip 安裝:pip install gpt2-client下載模型權重和檢查點:from gpt2_client import GPT2Clientgpt2 = GPT2Client
  • 深入淺出圖神經網絡實現方式,讓圖神經網絡不再難!
    文章《A Comprehensive Survey on Graph Neural Networks》[1]提供了一個全面的圖神經網絡(GNNs) 概述,並且將最新的圖神經網絡分為四類,即遞歸圖神經網絡(RecGNNs)、卷積圖神經網絡(ConvGNNs)、圖自動編碼器(GAEs)和時空圖神經網絡(STGNNs)。
  • AAAI2021 | 圖神經網絡研究進展解讀
    上圖神經網絡方面的最新進展,主要涵蓋:更加基礎的研究:表示能力/過平滑/傳播機制/災難性遺忘更加複雜的圖數據:異質圖/有向圖/動態圖在微博圖上,用戶之間有關注或者拉黑等關係,這實際是一種有向符號網絡。SDGNN[7]是一種針對有向符號圖設計的圖神經網絡,同時考慮了邊的方向/符號(喜歡為正,討厭為負)和動態圖演化的相關理論(status theory 和 balance theory)來更好的建模動態性並實現圖的表示學習。
  • 從圖網絡表示到圖神經網絡
    而在更一般的情況下, 數字和數字之間,是一個互相聯繫的複雜網絡, 這時候我們用節點和連接它們的邊來描述這種數據類型, 這就是我們說的圖網絡結構。對於圖像CNN是目前深度學習的集大成者, 對於時間序列RNN, transformer是集大成者, 那麼對於圖結構呢?這就是當下的圖神經網絡崛起的背景。
  • 三篇論文,解讀神經網絡壓縮
    機器之心原創 作者:立早 編輯:H4O 本文是一篇關於神經網絡壓縮領域的論文解讀,通過對ICCV 2019中的三篇論文進行分析,讀者可以了解目前的發展趨勢
  • 網絡熱詞「乾飯人」被註冊公司名,如何看待大量網絡熱詞被註冊?
    雖然自然詞組一直在減少,但是隨著時代的發展,又有越來越多的詞彙在被創造出來,那就是網絡熱詞。 網絡熱詞通常自帶流量,具備傳播範圍廣、傳播速度快的特性。如果企業懂得借勢營銷,恰到好處的利用網絡熱詞的力量,不僅推廣力度大,而且宣傳費用少,對企業起到事半功倍的效果,以至於很多企業或個人熱愛將網絡熱詞註冊商標的。
  • 圖神經網絡前沿綜述:動態圖網絡
    雪梨科技大學的 Katarzyna 團隊最近發表了預印本論文,對實際的複雜網絡以時間尺度進行分類,並以此為基礎總結了目前用於表徵動態複雜網絡數據的各種圖神經網絡架構。動態圖神經網絡(DGNN) 本文考慮的圖神經網絡特指具有領域聚合操作的GNN,屬於網絡表示學習的一個子方向。讀者想了解整個圖表示學習領域對於動態網絡的研究,可以參考19年發表於 Journal of Machine Learning Research 的綜述。
  • 圖神經網絡的重要分支:時間圖網絡
    在本文中,我們將描述時間圖網絡(Temporal Graph Network,TGN),這是一個用於深度學習動態圖的通用框架。本文是 Michael Bronstein 與 Emanuele Rossi 共同撰寫的。圖神經網絡的研究已經成為今年機器學習領域 炙手可熱 的話題之一。
  • 從一種拓撲視角來優化神經網絡的連通性的解讀
    在設計神經網絡的深度、卷積類型、歸一化層和非線性層之外,我們提出對神經網絡的拓撲連接進行優化,來取代以往的堆疊或手工設計的連接方式。通過將網絡表示為有向無環圖,並向邊賦予可學習的權重來表示連接的重要程度。整個優化過程可以通過可微分的方式進行。進一步地,我們對連接的分布添加額外的稀疏約束,使得重要的連接得以保留,移除不重要的連接,進一步提升網絡的性能和泛化能力。
  • 學霸筆記丨神經網絡 丨前向傳播激勵函數與批處理 (2)
    關鍵詞:機器學習 / 神經網絡太多的廣告宣傳他們自家的課程:手把手教你從頭構建神經網絡,這回小編的神經網絡已經進入到了第二集,用 numpy 從頭搭建全連結卷積神經網絡,閒言少敘,訂閱!然後進入正題!簡介上篇文章討論完了神經網絡的神經元和初始化過程與方法,接下來要逐漸進入網絡的主要細節,嘗試讓讀者理解神經網絡厲害之處,為什麼能夠在眾多複雜且多變的圖片還能給出很棒的判斷?主要原因就在於神經網絡有很強的非線性擬合能力,而這個能力的起源則是來自於一個簡單的函數:激勵函數。
  • ICLR 2019論文解讀:量化神經網絡
    今年五月舉辦 ICLR 2019 會議共接收論文 502 篇,本文將解讀其中兩篇有關量化神經網絡的研究。id=ryM_IoAqYX深度神經網絡(DNN)已經極大推升了機器學習(ML)/人工智慧(AI)在許多不同任務中的性能,並由此帶來了許多我們日常生活中所見的成熟應用。
  • 一作解讀 | 一種信息門控的神經網絡模型:王彬旭
    圖 2 在一個大鼠積累感覺數據做決策的實驗(聽兩側的滴滴聲序列,判斷哪邊的滴滴聲次數更多)中,記錄PPC, FOF兩個腦區的神經活動,發現其對積累證據強度有著不同的連續編碼圖 3 前饋神經網絡的示意圖需要注意,這一模型為了方便數學上的處理與理解,經過了高度的簡化,實際的神經網絡包含著大量的反饋(feedback
  • 一文讀懂圖神經網絡
    圖神經網絡介紹什麼是圖神經網絡圖神經網絡(Graph Neural Networks, GNNs)是基於圖結構的深度學習方法,近期被廣泛應用到各類圖像、自然語言處理等任務上。圖圖神經網絡作為神經網絡擴展,可以處理以圖結構表示的數據格式。在圖中,每個節點都由本身的特性以及其相鄰的節點和關系所定義,網絡通過遞歸地聚合和轉換相鄰節點的表示向量來計算節點的表示向量。
  • 加州伯克利博士:基於隱模型的圖神經網絡設計|NeurIPS 2020論文分享
    近年來,人們對深度學習方法在圖上的擴展越來越感興趣。在多方因素的成功推動下,研究人員借鑑了卷積網絡、循環網絡和深度自動編碼器的思想,定義和設計了用於處理圖數據的神經網絡結構,由此出現了一個新的研究熱點——「圖神經網絡(Graph Neural Networks,GNN)」。
  • 極驗發布全國首個專注於圖神經網絡的書籍,《深入淺出圖神經網絡...
    圖神經網絡是當前 AI 領域最為火爆的研究熱點之一,學術界與工業界各大公司紛紛投入大量資源研究。它在因果推理上擁有巨大潛力,有望解決深度學習無法處理的關係推理、可解釋性等一系列問題,而這些問題被業界認為是能夠推動 AI 出現實質性進展的關鍵。
  • 清華大學圖神經網絡綜述:模型與應用
    這篇文章對圖神經網絡進行了廣泛的總結,並做出了以下貢獻:文章詳細介紹了圖神經網絡的經典模型。主要包括其原始模型,不同的變體和幾個通用框架。文章將圖神經網絡的應用系統地歸類為結構化場景、非結構化場景和其他場景中,並介紹了不同場景中的主要應用。本文為未來的研究提出四個未解決的問題。文章對每個問題進行了詳細分析,並提出未來的研究方向。
  • 二次元少女生成器、會開車的神經網絡...2019年最好的17個機器學習項目
    然後用一個可以學習的神經描述編碼擴展每個點。局部幾何形狀和外觀利用神經描述編碼,通過將點雲的柵格化從新的視點通過深度渲染網絡來獲得新的場景視圖。論文地址:https://arxiv.org/abs/1906.08240
  • 一天star量破千,特斯拉AI總監寫了個GPT的Pytorch訓練庫
    在項目頁面中,Karpathy 介紹稱:由於現有可用的 GPT 實現庫略顯雜亂,於是他在創建 minGPT 的過程中, 力圖遵循小巧、簡潔、可解釋、具有教育意義等原則。GPT 並非一個複雜的模型,minGPT 實現只有大約 300 行代碼,包括樣板文件和一個完全不必要的自定義因果自注意力模塊。