導讀:近日,ACL 2020公布了最佳論文獎,另有兩篇最佳論文榮譽提名獎也各自提出了解決NLP領域問題的創新方法。最佳論文:Beyond Accuracy: Behavioral Testing of NLP Models with CheckList論文連結:https://arxiv.org/abs/2005.04118儘管測量模型的準確性一直是評估模型泛化能力的主要方法,但它通常會高估NLP模型的性能。而評估模型的替代方法則著重於關注單個任務或特定行為。本文受軟體工程中行為測試原理的啟發,作者引入了一種與任務無關的測試NLP模型的方法--CheckList。CheckList包含有助於全面測試的通用語言功能和測試類型矩陣,以及用於快速生成大量不同測試案例的軟體工具。本文通過測試三個任務說明了CheckList的實用性,鑑別出了商業模型和SOTA模型中的關鍵問題。例如,在用戶研究中,負責商業化情緒分析模型的團隊經過廣泛的測試,發現了模型中新的可操作的錯誤。在另一項用戶研究中,使用CheckList的NLP從業人員創建了兩倍的測試用例,發現的錯誤幾乎是沒有使用它的三倍。
最佳論文榮譽提名:Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics論文連結:https://arxiv.org/abs/2006.06264自動化指標是開發和評估機器翻譯系統的基礎。判斷自動化度量標準是否與人類評估的黃金標準相一致不是一個簡單的問題。本文表明,當前的指標評估方法對用於評估的翻譯系統非常敏感,尤其是存在異常值時,這通常會導致對評價效果產生錯誤的自信判斷。
最終,本文研究了成對系統排名方法,開發了一種在自動度量標準下以人為判斷為閾值提高性能的方法,該方法可以量化所引起的I型錯誤與II型錯誤,即可以接受的人類評判質量差異,以及不能接受的人類評判差異。總之,這些發現對機器翻譯中的度量評估和系統性能評估的協議進行了改進。
最佳論文榮譽提名:Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks論文連結:https://arxiv.org/abs/2004.10964作者:西雅圖Allen人工智慧研究所、華盛頓大學Allen計算機科學與工程學院對來源廣泛的文本進行預訓練的語言模型構建起了當今NLP的基礎。由於這類模型的成功,本文研究了將預訓練的模型定製為目標任務的領域是否仍然有幫助。本文提出了一項針對四個領域(生物醫學和計算機科學出版物,新聞和評論)和八個分類任務的研究,結果表明在領域內進行預訓練的第二階段(域適應性預訓練)可以在高和低兩個計算資源條件下,提高模型的性能。此外,在進行域自適應的預訓練之後,目標任務的未標記數據(任務自適應的預訓練)也可以提高模型性能。
最後,本文表明,使用簡單的數據選擇策略是一種有效的用於擴充任務語料庫的方法,尤其是在可能沒有用於域自適應預訓練時。總體而言,作者發現多階段自適應預訓練可大大提高任務性能。
想要了解更多資訊,請掃描下方二維碼,關注機器學習研究會
轉自:AI科技大本營