ACL最佳論文提出最新NLP模型測試方法,最佳論文提名也不可小覷

2021-02-16 機器學習研究組訂閱
導讀:近日,ACL 2020公布了最佳論文獎,另有兩篇最佳論文榮譽提名獎也各自提出了解決NLP領域問題的創新方法。最佳論文:Beyond Accuracy: Behavioral Testing of NLP Models with CheckList論文連結:https://arxiv.org/abs/2005.04118儘管測量模型的準確性一直是評估模型泛化能力的主要方法,但它通常會高估NLP模型的性能。而評估模型的替代方法則著重於關注單個任務或特定行為。本文受軟體工程中行為測試原理的啟發,作者引入了一種與任務無關的測試NLP模型的方法--CheckList。CheckList包含有助於全面測試的通用語言功能和測試類型矩陣,以及用於快速生成大量不同測試案例的軟體工具。本文通過測試三個任務說明了CheckList的實用性,鑑別出了商業模型和SOTA模型中的關鍵問題。例如,在用戶研究中,負責商業化情緒分析模型的團隊經過廣泛的測試,發現了模型中新的可操作的錯誤。在另一項用戶研究中,使用CheckList的NLP從業人員創建了兩倍的測試用例,發現的錯誤幾乎是沒有使用它的三倍。最佳論文榮譽提名:Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics論文連結:https://arxiv.org/abs/2006.06264自動化指標是開發和評估機器翻譯系統的基礎。判斷自動化度量標準是否與人類評估的黃金標準相一致不是一個簡單的問題。本文表明,當前的指標評估方法對用於評估的翻譯系統非常敏感,尤其是存在異常值時,這通常會導致對評價效果產生錯誤的自信判斷。
最終,本文研究了成對系統排名方法,開發了一種在自動度量標準下以人為判斷為閾值提高性能的方法,該方法可以量化所引起的I型錯誤與II型錯誤,即可以接受的人類評判質量差異,以及不能接受的人類評判差異。總之,這些發現對機器翻譯中的度量評估和系統性能評估的協議進行了改進。最佳論文榮譽提名:Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks論文連結:https://arxiv.org/abs/2004.10964作者:西雅圖Allen人工智慧研究所、華盛頓大學Allen計算機科學與工程學院對來源廣泛的文本進行預訓練的語言模型構建起了當今NLP的基礎。由於這類模型的成功,本文研究了將預訓練的模型定製為目標任務的領域是否仍然有幫助。本文提出了一項針對四個領域(生物醫學和計算機科學出版物,新聞和評論)和八個分類任務的研究,結果表明在領域內進行預訓練的第二階段(域適應性預訓練)可以在高和低兩個計算資源條件下,提高模型的性能。此外,在進行域自適應的預訓練之後,目標任務的未標記數據(任務自適應的預訓練)也可以提高模型性能。
最後,本文表明,使用簡單的數據選擇策略是一種有效的用於擴充任務語料庫的方法,尤其是在可能沒有用於域自適應預訓練時。總體而言,作者發現多階段自適應預訓練可大大提高任務性能。

想要了解更多資訊,請掃描下方二維碼,關注機器學習研究會

                                          

轉自:AI科技大本營

相關焦點

  • 華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典
    來自 CMU 的辛書冕等人獲得了最佳論文獎,而最佳學生論文獎被 UCSB 王鑫等人獲得。李飛飛、李佳等人因 ImageNet 的貢獻獲得最具影響力論文獎。作為計算機視覺領域內最負盛名的學術會議,今年的 CVPR 已於當地時間 6 月 16 日在美國加州長灘開幕。
  • 支持 53 種語言預訓練模型,斯坦福發布全新 NLP 工具包 StanfordNLP
    StanfordNLP 的相關論文、安裝、使用以及設置方法。研究者表示,該工作的主要貢獻包括:將符號統計知識與靈活、強大的神經系統相結合以提高穩健性的新方法;用於聯合 POS / UFeats 預測的 biaffine 分類器,可提高預測一致性;使用編輯分類器增強的詞形歸併工具,可提高少樣本序列上的序列到序列模型的穩健性;擴展解析器到模型線性化。
  • 支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP
    StanfordNLP 的相關論文、安裝、使用以及設置方法。論文:Universal Dependency Parsing from Scratch 論文地址:https://nlp.stanford.edu
  • KDD 2018 | 最佳論文:首個面向Facebook、arXiv網絡圖類的對抗攻擊研究
    最佳論文來自慕尼黑工業大學的研究者,他們提出了針對圖深度學習模型的對抗攻擊方法,是首個在屬性圖上的對抗攻擊研究。研究者還提出了一種利用增量計算的高效算法 Nettack。此外,實驗證明該攻擊方法是可以遷移的。圖數據是很多高影響力應用的核心,比如社交和評級網絡分析(Facebook、Amazon)、基因相互作用網絡(BioGRID),以及互連文檔集合(PubMed、Arxiv)。
  • 8種優秀預訓練模型大盤點,NLP應用so easy!
    模型的作者已經設計出了基準模型,這樣我們就可以在自己的NLP數據集上使用該預訓練模型,而無需從頭開始構建模型來解決類似的問題儘管需要進行一些微調,但這為我們節省了大量的時間和計算資源在本文中展示了那些助你開始NLP之旅的頂級預訓練模型,以及該領域的最新研究成果。
  • ACL 2020 | MobileBERT:一種與任務無關的模型壓縮方法
    目前很多預訓練模型的壓縮方法都是和下遊任務相關的,一般做法都是把 pre-train 的模型在下遊任務上 fine-tune 之後,進行縮小操作(蒸餾,裁剪等等)。可以看到 Table1 中,MobileBERT 就是作者之前說的那種窄的模型,會很難訓練。所以作者採用的方法就是先訓練一個 IB-BERT-large,然後把 IB-BERT-large 學到的知識遷移到 MobileBERT 中去。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    為了利用這種思想提升預訓練模型在中文的表現,百度發布了知識增強的表示模型 ERNIE,在中文數據集的表現中超過了 BERT。近期,谷歌發布了基於全詞覆蓋(Whold Word Masking)的 BERT 預訓練模型,則進一步提升了 BERT 模型的性能水平。然而,由於全詞覆蓋的 BERT 模型的研究測試集中於國外公開數據集,缺乏一種中文語言的相關模型。
  • NLP的「第四範式」之Prompt Learning總結:44篇論文逐一梳理
    通過這種方式,提出的方法就能夠在小樣本上也取得非常好的效果。同時通過實驗發現,本文提出的方法找到的映射關係幾乎可以與人工構建的映射關係一樣好。12.NAACL 2021 2021.3.15論文證明這個 < MASK > 方法比模型加一個線性層做分類任務性能好。這個方法比傳統任務(例如:加一個線性層做分類任務)用的樣本少,為幾分之一。針對任務的不同,只需用到幾百到幾千的樣本。21.
  • ACL 2019 | 清華等提出ERNIE:知識圖譜結合BERT才是「有文化」的語言模型
    論文:ERNIE: Enhanced Language Representation with Informative Entities預訓練語言模型怎麼了?預訓練語言表徵模型包括基於特徵的和基於精調(fine-tuning)的兩種方法,它們能從文本捕捉到豐富的語言信息,並用於不同的 NLP 任務。
  • NLP簡報(Issue#2):Reformer、ELECTRA、TinyBERT...
    AI 的最新論文Can You Trust Your Model's Uncertainty?[3]>提出了模塊模型和通用模型之間的比較,以及它們在語言理解中進行系統概括的有效性。基於對視覺問題回答任務進行的推理評估,作者得出結論,可能需要明確的正則化函數和先驗知識才能實現系統的概括。
  • 7 Papers & Radios | Bengio等創建GNN權威基準;130頁知識圖譜綜述論文
    不同方法在基於 MNIST 和 CI-FAR10 的標準測試集上的測試結果(數值越高越好)。該結果是使用 4 個不同種子運行四次結果的平均值。紅色為最佳水平,紫色為高水平。粗體則表示殘差連結和非殘差連接之間的最佳模型(如兩個模型水平相同則皆為粗體顯示)。推薦:這一新的研究有深度學習先驅 Yoshua Bengio 的參與,也得到了 Yann LeCun 的關注。論文 2:How Much Can A Retailer Sell?
  • ICLR 2019論文解讀:量化神經網絡
    在使用量化模型進行操作時,研究者們已經提出了很多用於獲取優良性能的策略。之前的一篇解讀給出了近期 SYSML 2019 會議上的一些研究成果:《SysML 2019 論文解讀:推理優化》。表 1 總結了實驗結果。表 1 記錄了這三種 STE 在不同實驗和網絡上的訓練損失和驗證準確度。
  • 4篇論文詳解One Shot NAS:方法綜述
    Abstract常規的網絡設計需要耗費大量的時間進行驗證,為了節約驗證時間,論文提出訓練一個輔助網絡HyperNet,用於動態生成不同結構模型的權重。因此,論文提出one-shot模型結構搜索SMASH(one-Shot Model Architecture Search through Hypernetworks),結合輔助網絡生成的權重,可以僅使用一輪訓練來對大量的結構進行排序。
  • 碩博士論文分析的方法你會了嗎?
    結構方程模型(SEM)是衡量潛在變量之間關係的統計技術,又稱為第二代的多變量分析。模型至少由兩個以上的潛在變量所組成,由於潛在構面,如態度、行為意圖等,無法直接測量,因此,每一個潛在變量至少使用三個測量變量來代表該構面的量測。驗證該測量模型的信、效度即稱為驗證式因素分析(CFA)。
  • ​[論文總結] 智慧農業論文摘要閱讀概覽
    在建議的強子卵子檢測系統中,使用預先訓練的剩餘網絡模型提取深層特徵,然後將獲得的特徵輸入雙向長期長期記憶 (BILSTM)。建議模型的效率是使用髒、血腥、破裂和堅固的雞蛋圖像與開發的機器視覺系統計算的。實驗結果表明,該模型的準確率達到99.17%。所獲得的結果還與最先進的方法進行了比較,並觀察到建議的模型在比較方法中表現出最高的準確性。評分:這個論文不咋地。大量實驗+3分。
  • 【專知薈萃02】自然語言處理NLP知識資料大全集(入門/進階/論文/Toolkit/數據/綜述/專家等)(附pdf下載)
    看完對於nlp的許多技術原理都有了一點初步認識。可以說是自然語言處理最好的入門讀物。 語義分析的一些方法(一,二,三) by 火光搖曳 騰訊廣點通 http://www.flickering.cn/ads/2015/02/我們是這樣理解語言的-3 神經網絡語言模型 by 火光搖曳 騰訊廣點通 總結了詞向量和常見的幾種神經網絡語言模型 http://www.flickering.cn/nlp/2015/03/深度學習word2vec
  • 何愷明的ResNet論文,被引量剛剛突破10萬大關
    「深度神經網絡非常難以訓練,我們提出的殘差網絡框架使得神經網絡的訓練變得容易很多。」文章摘要的開頭如今已被無數研究者們細細讀過。
  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    新智元報導編輯:SF【新智元導讀】本文該綜述系統地介紹了nlp中的預訓練模型,深入盤點了目前主流的預訓練模型,提出了一種預訓練模型的分類體系。背景「nlp、cv領域的傳統方法極度依賴於手動特徵工程」。例如nlp中的log-linear、CRF模型等,cv中各種抽取特徵的模型,如sift特徵等。深度學習中本質上是一種表示學習,能夠一定程度上避免手動的特徵工程。
  • 復旦大學邱錫鵬教授:NLP預訓練模型綜述
    這種嵌入方式有兩個局限:一是一個詞通過這種方法獲得的詞嵌入總是靜態且與上下文無關的,無法處理多義詞;二是難以解決不在詞彙表中的詞(針對這個問題,很多 NLP 任務提出了字符級或詞根級的詞表示,如 CharCNN、FastText、Byte-Pair Encoding (BPE))。上下文嵌入:為解決多義性和上下文相關的問題,將詞在不同上下文的語義做區分。
  • 從4篇頂會論文看Self-training最新研究進展
    What is self-training?Self-training 是最簡單的半監督方法之一,其主要思想是找到一種方法,用未標記的數據集來擴充已標記的數據集。算法流程如下:1. 首先,利用已標記的數據來訓練一個好的模型,然後使用這個模型對未標記的數據進行標記。2.