-
超越BERT、GPT,微軟提出通用預訓練模型MASS
2018年開始,預訓練(pre-train) 毫無疑問成為NLP領域最熱的研究方向。藉助於BERT和GPT等預訓練模型,人類在多個自然語言理解任務中取得了重大突破。然而,在序列到序列的自然語言生成任務中,目前主流預訓練模型並沒有取得顯著效果。
-
超越BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!
雷鋒網 AI 科技評論按:自 2018 年以來,預訓練無疑是自然語言處理(NLP)領域中最熱門的研究課題之一。通過利用 BERT、GPT 和 XLNet 等通用語言模型,該領域的研究者們在自然語言理解方面已經取得了許多重大的突破。
-
NLP領域預訓練模型的現狀及分析
預訓練的方法最初是在圖像領域提出的,達到了良好的效果,後來被應用到自然語言處理。預訓練一般分為兩步,首先用某個較大的數據集訓練好模型(這種模型往往比較大,訓練需要大量的內存資源),使模型訓練到一個良好的狀態,然後下一步根據不同的任務,改造預訓練模型,用這個任務的數據集在預訓練模型上進行微調。
-
NeurIPS|既能理解又能生成自然語言,微軟提出統一預訓練新模型
選自arXiv作者:Li Dong、Nan Yang、Wenhui Wang 等機器之心編譯參與:Panda自然語言是人工智慧正在攻克的一大難關,而微軟的研究者最近發布了一種統一的預訓練語言模型 UniLM
-
微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
微軟提出的系統使用遷移學習方法將不同源語言中詞彙級別和句子級別的表徵共享到一個目標語言中。該設置假設多種源語言包括高資源語言和低資源語言。微軟的主要目標是能夠共享所學的模型,以便幫助低資源語言。該系統架構對神經機器翻譯(NMT)的編碼器-解碼器框架新增了兩個修改,以實現半監督通用神經機器翻譯。主要修改了編碼器部分,如圖 2 所示。
-
PTMs|2020最新NLP預訓練模型綜述
提出了一種預訓練模型的分類體系,通過四種分類維度來劃分目前已有的預訓練模型。nlp中的預訓練模型就是這樣一類能夠在大規模語料上進行無監督訓練,學習得到通用的語言表徵,有助於解決下遊任務的nlp模型。「那麼什麼是好的語言表徵呢」?作者引用了Bengio的話,「好的表徵能夠表達非特定任務的通用先驗知識,能夠有助於學習器來解決AI任務.」
-
微軟認知AI團隊提出視覺詞表預訓練超越...
傳統的看圖說話方法主要有兩種:一種是模板生成,一種是基於 Transformer 的圖像文本交互預訓練。為解決這些問題,微軟認知服務團隊的研究人員提出了一種名為視覺詞表預訓練(Visual Vocabulary Pre-training,簡稱VIVO)的解決方案。
-
【微軟】大型神經語言模型的對抗性訓練,Adversarial Training
對抗性訓練可以增強魯棒性,但是過去的工作常常發現它不利於推廣。在自然語言處理(NLP)中,預訓練大型神經語言模型(例如BERT)在針對各種任務的通用化方面顯示出令人印象深刻的收益,而從對抗性微調中得到了進一步的改進。但是,這些模型仍然容易受到對抗性攻擊。在本文中,我們表明對抗性預訓練可以同時提高泛化性和魯棒性。
-
微軟亞研重新評估,提出極簡算子PosPool
中科大和微軟亞研的研究人員進行了系統性評估,並提出了無需可學參數的新型 3D 點雲算子 PosPool。近些年湧現了很多不同的 3D 點雲網絡和算子,它們在常見基準評測集上的性能逐步提升,但是由於各種網絡採用不同的局部算子、整體網絡結構和實現細節,人們對該領域的實質進步一直缺乏準確地評估。
-
預訓練圖像處理Transformer:華為諾亞、北大等提出IPT模型,刷榜多...
例如 OpenAI 的 iGPT、Facebook 提出的 DETR 等,這些跨界模型多應用於圖像識別、目標檢測等高層視覺任務。而華為、北大、悉大以及鵬城實驗室近期提出了一種新型預訓練 Transformer 模型——IPT(Image Processing Transformer),用於完成超解析度、去噪、去雨等底層視覺任務。
-
CoQA挑戰賽微軟創新紀錄
也就是說,人類與這個模型互動更像是與真人之間的交流。CoQA挑戰賽通過理解文本段落,並回答對話中出現的一系列相互關聯的問題,來衡量機器的性能。此次,微軟亞研院NLP團隊和微軟Redmond語音對話團隊聯手組成黃金搭檔參賽。在CoQA挑戰賽歷史上,他們是唯一一個在模型性能方面達到人類水平的團隊!
-
復旦邱錫鵬超全NLP預訓練模型綜述論文:兩張圖帶你梳理完整脈絡
最近一兩年,大量的研究工作表明,大型語料庫上的預訓練模型(PTM)已經可以學習通用的語言表徵,這對於下遊的 NLP 相關任務是非常有幫助的,可以避免大量從零開始訓練新模型。而隨著算力的發展、深層模型(Transformer)出現以及訓練技能的不斷提高,PTM 體系結構已然從淺層發展到了深層。
-
...微軟&哈工大最新提出 CodeBERT 模型,支持自然-編程雙語處理
論文連結:https://arxiv.org/pdf/2002.08155.pdf這篇論文提出了一個被稱為「CodeBERT」的雙模預訓練模型,據作者介紹,這也是目前已知的第一個大型 NL-PL(自然語言-程式語言)預訓練模型。
-
怎樣預訓練GNN能實現更好的遷移效果?北郵等提出自監督預訓練策略
近日,來自北京郵電大學和騰訊等機構的研究者進行了分析研究以顯示預訓練和微調之間的差異。為了緩解這種差異,研究者提出了 L2PGNN,這是一種針對 GNN 的自監督預訓練策略。
-
1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
此外,他們提出的訓練技術還提高了訓練的穩定性,首次表明大型稀疏模型也可以用低精度(bfloat16)進行訓練。models)預訓練可擴展性在預訓練期間,研究者對 Switch Transformer 的可擴展性進行了研究。
-
中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
機器之心報導參與:一鳴昨日,機器之心報導了 CMU 全新模型 XLNet 在 20 項任務上碾壓 BERT 的研究,引起了極大的關注。而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。
-
達摩院提出新模型EBM-Net,比最強基線模型...
在名為《Predicting Clinical Trial Results by Implicit Evidence Integration》的論文中,達摩院研究團隊設計了針對醫學臨床試驗的進一步預訓練任務,並提出全新的模型,幫助醫學研究工作者更好地選擇醫學臨床試驗,以更快地找到有效的治療方案。
-
百度提出冷聚變方法:使用語言模型訓練Seq2Seq模型
近日,百度研究院發表論文提出冷聚變(Cold Fusion)方法,即在 Seq2Seq 模型訓練過程中加入語言模型,實現更快地收斂、更好的泛化,以及僅需少量標註數據即可實現向新域的完全遷移。機器之心對這篇論文進行了介紹。
-
AI資訊|分析現階段最有效的NLP預訓練模型!
這些方法雖然在設計上有所不同,但在面對如情感分析和問題解答時,利用特定的NLP任務進行微調之前,都有著相同的想法,即利用大量未標記的文本來構建語言理解的通用模型。可以在幾天內在單個GPU上進行訓練,其準確性要高於GPT(該模型使用30倍以上的計算能力)。ELECTRA已作為TensorFlow之上的開源模型發布,其中包括許多易於使用的預訓練語言表示模型。
-
達摩院提出新模型EBM-Net,比最強基線模型準確率高9.6%
在名為《Predicting Clinical Trial Results by Implicit Evidence Integration》的論文中,達摩院研究團隊設計了針對醫學臨床試驗的進一步預訓練任務,並提出全新的模型,幫助醫學研究工作者更好地選擇醫學臨床試驗,以更快地找到有效的治療方案。