AI研究員收集NLP數據的四種創意方法

2020-12-16 吃魚不多餘

數據是推動AI發展的催化劑,但如果要收集有效的數據,這就需要AI專家富有創造性了。自然語言處理(NLP)是AI的一個子域,側重於教計算機如何解析人類語言。在MIT的年度自然語言處理實證方法會議(EMNLP 2018)中,來自微軟、臉譜網和谷歌等科技公司或組織的AI專家們介紹了一大系列收集信息的新穎方法,本文主要總結了其中令人印象深刻的四種方法。

1. 混合語言(Spanish+English=Spanglish)

微軟在多語種NLP的論文提出了一種專注於處理「混合語言」的方法,即在夾雜不同語言的文本或語音中自由切換,考慮到世界上超過一半的人口使用多語言,這個對此前未涉及領域的研究非常重要。

研究人員從西班牙語和英語著手,不過他們缺少足量的西班牙語文本來訓練機器。正如混合代碼,很少能找到包含多語言會話的文本,研究人員編寫了一個程序克服這個挑戰:把流行英語文本錄入到微軟的必應翻譯器,然後將以詞組為單位翻譯的西班牙語譯文轉入源文本,確保交換的單詞和短語具備同樣的意思。通過這種方式,他們能夠創建出足夠多的西班牙式英語。

通過這種方式產生的NLP模型明顯優於之前只用西班牙語或只用英語訓練的模型。研究人員希望他們的工作最終能幫助開發多語言聊天機器人。

2. 食譜

食譜以圖文並茂和循序漸進的方式教人如何做菜,類似這種的方法也可以被用來訓練機器:用結構數據教會機器同時理解文本和圖像。土耳其哈斯特帕大學的研究人員彙編了一套涵蓋兩萬多本插圖烹飪食譜的大型數據集,他們希望將此作為用於訓練機器文本-圖像理解性能的基準測試的新資源。

這個所謂的「食譜QA」的數據集是建立在先前的研究基礎之上,此前的研究分別側重機器閱讀理解和視覺理解能力,對於前者,機器必須理解問題和相關段落才能找到答案,而對於後者,機器只能在相關圖像中搜索答案。文本和圖像的並排增加了任務的複雜性,因為這會呈現出互補或多餘的信息。

3. 短句

谷歌希望用AI潤色散文,研究人員為此創造了有史以來最大的數據集:將長句縮減成短句,但兩者具備相同意義。在哪裡才能找到大量的編輯數據呢?當然是維基百科了。

研究團隊從維基百科豐富的編輯歷史中提取了拆分長句的實例,結果顯示,相比以前的基準數據集,這次任務中發現了60倍不同的句子拆分例子和90倍的詞彙單詞,而且數據集跨越多種語言。

當研究人員用新的數據訓練機器學習模型時,其準確度(這裡的準確度是指句子被重寫後其意義和語法保持正確的比例)高達91%,相比之下,用先前數據進行訓練的模型僅達到32%的準確度,最後,研究人員結合了兩個數據集並用此對第三個模型進行了訓練,準確度達到了95%。因此,研究人員得出結論,可以通過尋找更多的數據來源實現更好的效果。

4. 社交媒體的偏差

相關研究已表明,人類創造的語言是人類種族、性別和年齡很好的一個預測指標,即使這些信息從未被明確地陳述過。因此,以色列巴伊蘭大學和艾倫AI研究所的研究人員試圖利用AI通過移除這些內嵌指標來消除文本中的偏差。

為了獲取足夠數據代表基於不同人口統計的語言模式,他們轉向了Twitter平臺,收集了幾組不同用戶的推文,其中的對比組用戶包括非西班牙裔的白人和非西班牙裔的黑人、男性和女性、18-34歲和35歲以上。

研究人員採用一種對抗方式將兩個神經網絡相互對立,查看其是否能自動除去推文中內在的人口統計指標。其中一個神經網絡試圖預測人口統計學,而另一個試圖將文本調整到完全中立的狀態,其目的是將第一個模型的預測準確度(或可能性)降低到50%。通過這種方式能顯著減低種族,性別和年齡的指標,但無法完全消除。

相關焦點

  • 2019,不可錯過的NLP「高光時刻」
    BioBERT: https://arxiv.org/abs/1901.08746在發布BERT後,Facebook 的研究員們進一步提出了RoBERTa,其引入了新的優化方法來改進BERT,並在各種NLP基準測試上達到了最佳效果。
  • NLP簡報(Issue#8)
    1.2 通過Grand Tour可視化神經網絡Grand Tour是一種線性方法(不同於t-SNE等非線性方法),可將高維數據集投影到二維。數據集包含數千篇學術文章,這些文章可以讓NLP啟發性研究有助於對抗COVID-19[10]。2.2 SECNLP:臨床自然語言處理中的embedding綜述SECNLP[11]是一份綜述論文,其中詳細介紹了在臨床領域中應用的各種NLP方法和技術,概述主要強調嵌入方法,使用嵌入解決的問題/挑戰以及對未來研究方向的討論。
  • FaceApp 數據收集比 Facebook 更過分?
    雖然Facebook保留了大量的元數據和設備信息,用於營銷和廣告定位,但谷歌、Facebook和另一款流行的圖片編輯應用Facetune等服務也是如此。與此同時,安全研究員威爾•斯特拉法奇(Will Strafach)發現,有關FaceApp將您iOS設備的整個相冊上傳的傳言很可能是假的。
  • 2019已經過去一大半了,努力一把成為NLP專家!
    Fastai:https://course.fast.ai/videos/?lesson它會教你在fastai,語言模型是如何實現的。LSTM:即使transfomer更為流行,你還是有必要學習一些LSTM相關的知識, 因為在某些時候你仍然可以使用它,並且它是第一個在序列數據上取得較好較好效果的模型。
  • 【獨家】自然語言處理(NLP)入門指南
    displaCy網站上的可視化依賴解析樹https://demos.explosion.ai/displacy/?text=Great%2C%20this%20is%20just%20what%20I%20needed!
  • NLP領域最優秀的8個預訓練模型(附開源地址)
    在自然語言處理的背景下,遷移學習本質上是在一個數據集上訓練模型,然後對該模型進行調整,以在不同的數據集上執行不同的自然語言處理功能。這一突破,使得每個人都能夠輕鬆地完成任務,尤其是那些沒有時間、也沒有資源從頭開始構建自然語言處理模型的人們。對於想要學習或過渡到自然語言處理的初學者來講,它也堪稱完美。
  • 斯坦福NLP團隊發布最新自然語言處理Python庫
    【版本特性】新版的StandfordNLP包含以下特性:【安裝】pip install stanfordnlp【使用】>>> import stanfordnlp>>> stanfordnlp.download('en')   # 這會下載英語的神經網絡模型
  • 深度學習的NLP工具
    在今天的世界中,這些都是自然語言處理(NLP)的研究員遇到的問題。我們來看一個假想的博士學生。我們叫它亞歷山大,他剛開始機械翻譯(NMT)的研究。有一天早上他看到了Google 最著名的 論文「注意力是你全部需要的」,其中介紹了Transformer 模型,完全基於注意力機制。
  • 賽爾筆記 | 四種常見NLP框架使用總結
    Tensor2Tensor(Transformer)使用方法注意:有可能隨著版本迭代更新的過程中會有局部改動1. 安裝CUDA 9.0 (一定是9.0,不能是9.2)2. 安裝TensorFlow (現在是1.12)3. 安裝Tensor2Tensor (參考官網安裝)1.
  • NLP 數據增強方法 EDA
    當數據集比較少的時候,往往會導致模型陷入過擬合。數據增強是一種比較有效的擴充數據集的方法,在計算機視覺領域有比較重要的作用。但是在 NLP 領域數據增強的方法相對少一些,本文介紹一種比較傳統的 NLP 數據增強方法 EDA。
  • NLP簡報(Issue#9)
    此外,它介紹了數據集,以及可以解決的問題,包括圍繞微調方法和文本摘要評估指標的討論,並為將來的工作進行了總結。有關如何訪問數據集的說明,可以在此Github repo[26]中找到,以及使用數據集進行微調的案例[27]。關於文本摘要,HuggingFace團隊為其Transformers庫[28]庫添加了BART[29]和T5[30]。
  • 如何開始學習NLP? 6種用來標識化的方法
    介紹你對網際網路上的大量文本數據著迷嗎?你是否正在尋找處理這些文本數據的方法,但不確定從哪裡開始?畢竟,機器識別的是數字,而不是我們語言中的字母。在機器學習中,這可能是一個棘手的問題。那麼,我們如何操作和處理這些文本數據來構建模型呢?
  • 這套1600贊的NLP課程已開放,面向實戰,視頻代碼都有丨資源
    裡面融合了此前經典NLP課程的基礎內容,比如正則表達、SVD、樸素貝葉斯,還加入了最近興起的神經網絡中新方法,比如RNN、seq2seq、注意力機制和Transformer架構。還加上了對道德問題、偏見問題和虛假信息可能帶來的影響。
  • 2019 年 NLP 領域都發生了哪些大事件?
    論文《Building Machine Learning Models via Comparisons》中,研究者們還研發出了一種方法,重點研究通過比較的方法構建並訓練機器學習模型。這項技術不需要大量的「特徵-標籤」數據對,而是將圖像與模型之前看到過的圖像進行比較,以確定圖像是否應該被賦予某種標籤。
  • NLP、KG相關數據集匯總
    把自己找到的語料和語言資源整理一下,避免以後需要的時候又浪費時間去收集(長期坑位)。NLP語料是按照中文和外語,以及不同task來進行分類。DuReader(http://ai.baidu.com/broad/introduction?
  • Kaggle Grandmaster 的 NLP 方法
    在進入德國各大公司開始數據科學家的工作之前,Abhishek Thakur 先後在 NIT Surat 和人 Bonn 大學獲得了電氣工程學士學位和計算機科學碩士學位。目前,他擔任挪威 Boost.a i 的首席數據科學家,這是一家「專門研究會話人工智慧(ai)的軟體公司」,但我對 Abhishek 印象最深的地方在於他的 Kaggle 影響力。
  • 數據競賽必備的NLP庫總結!
    import spacynlp = spacy.load("en_core_web_sm")text = ("When Sebastian Thrun started working on self-driving cars at " "Google in 2007, few people outside of the
  • NLP is fun!
    要注意的是:儘管這篇文章的作者在 2015 年聲稱,這種方法現在已成為標準。但是實際上,它已經過時了,甚至連作者都不再使用這個方法了。2016年,Google 發布了一個新的依存句法分析器,名為 Parsey McParseface,它使用了一種新的深度學習方法,迅速在整個行業流行開來,其性能超過了以前的基準測試。
  • 支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP
    的相關論文、安裝、使用以及設置方法。StanfordNLP 用高度準確的神經網絡構建而成,允許使用自己的標註數據進行高效訓練和評估。這些模塊基於 PyTorch 構建。然而,大多數研究都已經將依賴解析單獨處理,並且在很大程度上忽略了為解析器準備相關數據的上遊 NLP 組件,例如標記器和詞形化器。然而,實際上,這些上遊系統仍然遠非完美。為此,研究者構建了一個 raw-textto-CoNLL-U 管道系統,該系統執行 Shared Task 所需的所有任務。
  • 機器學習 | 43種開源數據集(附地址/調用方法)
    網址:http://archive.ics.uci.edu/ml/datasets.php網址:https://www.kaggle.com/datasets網址:https://www.visualdata.io/網址:http://nlp.stanford.edu