NLP經典論文推薦:baseline paper(文本分類)

2022-01-03 學姐帶你玩AI

Efficient Estimation of Word Representation in Vector Space

提出兩個新穎的模型來計算詞的連續向量表示,這些表示的質量用詞的相似度來計算,結果和其他表現最好的技術進行比較。我們發現有很大的提高而且計算量低,比如1.6百萬的詞只需要不到一天的計算,而且這些向量對於語義和語法的相似度的計算獲得最好的成績。

https://arxiv.org/pdf/1301.3781v3.pdf

關注公眾號後臺回復「Word2Vec」,領取資料。

GloVe: Global Vectors for Word Representation

學習詞的向量空間表示可以很好捕獲語法和語義規則信息,但是這些規則的起源並不透明。我們分析和闡明模型需要的這些規則。這是logbilinear regression模型,集合了全局矩陣分解和本地窗口大小的方法。模型訓練在詞和詞的共現矩陣中,而不是整個語料庫的稀疏矩陣。

http://emnlp2014.org/papers/pdf/EMNLP2014162.pdf

Compositional character models for open vocabulary word representation

我們引入了一種通過使用雙向 LSTM 組合字符來構建單詞向量表示的模型。相對於每個詞類型都有獨立向量的傳統詞表示模型,我們的模型只需要每個字符類型一個向量和一組固定的組合模型參數。儘管這個模型很緊湊,更重要的是,語言中形式-功能關係的任意性,我們的「組合」詞表示在語言建模和詞性標註方面產生了最先進的結果。在形態豐富的語言(例如土耳其語)中,優於傳統基線的優勢尤為明顯。

https://arxiv.org/pdf/1508.02096.pdf

代碼:

https://github.com/wlin12/JNN

Convolutional Neural Network for Sentence Classification

本文報告了在預訓練詞向量之上訓練的卷積神經網絡 (CNN) 的一系列實驗,用於句子級分類任務。我們表明,具有很少超參數調整和靜態向量的簡單 CNN 在多個基準測試中取得了出色的結果。通過微調學習特定於任務的向量可進一步提高性能。我們還建議對架構進行簡單的修改,以允許使用特定於任務的向量和靜態向量。此處討論的 CNN 模型在 7 個任務中的 4 個任務上改進了現有技術,其中包括情感分析和問題分類。

https://arxiv.org/pdf/1408.5882.pdf

Character-level Convolutional Networks for Text Classification

一方面目前文本分類技術主要考慮詞或詞的組合;另一方面,研究表明,卷積神經網絡在從原始信號中抽取信息的方面,非常有用。在這篇論文中,作者將字符級的文本當做原始信號,並且使用一維的卷積神經網絡來處理它。研究表明,單詞嵌入表示可以直接用於卷積神經網絡,而無需考慮語言的語法或語義結構。

這篇論文,僅僅使用字符,運用在卷積神經網絡上。作者發現,當訓練大規模數據集的時候,深度卷積神經網絡並不需要單詞層面的意義(包括語言的語法和語義)。這是非常激動人心的工程簡化,因為不管什麼語言,它都是由字符組成的,因此這對於構建跨語言的系統至關重要。還有一個好處,對於異常的字符組成(比如拼寫錯誤)和表情符,該模型依然能夠應付。

https://proceedings.neurips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf

Bag of Tricks for Efficient Text Classification

本文提出了一種簡單而有效的文本分類和表示學習方法。我們的實驗表明,我們的快速文本分類器fastText在準確性方面通常與深度學習分類器保持一致,並且在訓練和評估中速度快很多。我們可以在不到10分鐘的時間內使用標準的多核CPU對超過10億個單詞進行快速文本訓練,並在不到一分鐘的時間內對312K類中的50萬個句子進行分類。

https://arxiv.org/pdf/1607.01759v2.pdf

代碼:

https://github.com/facebookresearch/fastText

Sequence to Sequence Learning with Neural Networks

DNN可以在有大量標記訓練集下表現很好,但是無法處理用於序列映射到序列。在本文中,我們提出了一種端到端的序列訓練方法,可以對序列結構做最小的假設。我們的方法使用了多層LSTM將輸入序列映射成一個固定維度的向量,然後用另一個深度LSTM從向量中解碼出目標序列。

https://arxiv.org/pdf/1409.3215.pdf

回復LSTM 領取論文資料

Neural Machine Translation by Jointly Learning to Align and Translate

近年來,基於神經網絡的機器翻譯模型經常被用來處理機器翻譯任務。與傳統基於統計的翻譯方法相比,神經機器翻譯模型意在構建單個神經網絡模型來提升整體翻譯準確率,主要的模型架構基本都是seq2seq家族的。在本論文中,作者認為該模型的瓶頸主要在於中間轉換的固定緯度大小的向量。

因此,作者提出了一種新的解碼方式,其解碼的源頭並不僅僅包括該向量,他們希望構建一種為當前預測詞從輸入序列中自動搜尋相關部分的機制(soft-search,也就是注意力機制)。作者運用這種新的機制來搭建升級版的神經機器翻譯模型,取得了卓越的效果,並且也通過定量分析來證明這種注意力機制的合理性。

https://arxiv.org/abs/1409.0473

hierarchical attention networks for document classification

文本分類問題一直是自然語言處理(NLP)中一個廣受人們關注的問題。可能好多剛接觸深度學習做NLP的項目就是使用循環神經網絡(RNN)對IMDB影評進行分類。但使用循環神經網絡時一般會遇到一個問題,那就是當所要處理的序列較長時,就會導致網絡容易忘記之前的東西,這在機器翻譯、對話系統中會經常出現,為解決這一問題,大佬們就根據心理學原理提出了「注意力」機制,使得網絡工作過程中可以像人一樣將注意力放在不同部位。那麼對於文本分類能否使用「注意力」機制呢?答案是肯定的,這篇論文就針對文本分類問題提出了層級注意力模型結合雙向RNN實現對文本的分類,其效果明顯好於其他方法。

https://www.cc.gatech.edu/~dyang888/research.html

(代碼就自己發消息問作者要吧)

SGM: Sequence Generation Model for Multi-label Classification

多標籤分類是自然語言處理中一項重要但具有挑戰性的任務。它比單標籤分類更複雜,因為標籤往往是相關的。現有方法傾向於忽略標籤之間的相關性。此外,文本的不同部分對預測不同標籤的貢獻不同,這是現有模型沒有考慮的。在本文中,我們建議將多標籤分類任務視為序列生成問題,並應用具有新穎解碼器結構的序列生成模型來解決該問題。大量的實驗結果表明,我們提出的方法大大優於以前的工作。

https://arxiv.org/abs/1806.04822

參考代碼:

https://github.com/lancopku/SGM

覺得有用就點讚吧!

每天18:30分更新

關注學姐+星標+在看

不迷路看好文

很多小夥伴說這段時間看不到學姐的推文更新,以為學姐吃瓜去了。實際上是公眾號推文機制調整了,如果你只是看文章,沒有留言,也從來沒有點過【在看】,那很可能會和我們失聯。想要找回我們其實也很簡單,在留言板裡誇我們真棒,或者說點個在看就OK了~

相關焦點

  • 文本分類經典論文:fasttext,textcnn解讀
    文本分類是自然語言處理領域一個非常經典的任務,一般文本分類分為三種,基於規則的文本分類,基於機器學習的文本分類和基於深度學習的文本分類。本文我們重點關注基於深度學習的文本分類,並為大家介紹文本分類中非常經典的fasttext和textcnn。
  • 基於Bert和通用句子編碼的Spark-NLP文本分類
    每一個文本分類問題都遵循相似的步驟,並用不同的算法來解決。更不用說經典和流行的機器學習分類器,如隨機森林或Logistic回歸,有150多個深度學習框架提出了各種文本分類問題。文本分類問題中使用了幾個基準數據集,可以在nlpprogress.com上跟蹤最新的基準。以下是關於這些數據集的基本統計數據。
  • 保 姆 級 NLP 學 習 路 線
    之後就可以開始逐個擊破,但也不用死磕,控制好目標難度,先用三個月時間進行第一輪學習:了解經典任務的baseline,動手實踐,看懂代碼邁過了上面這道坎後,就可以重新回歸理論,提高對自己的要求,比如手推公式、盲寫模型、拿到比賽Top等。
  • 用Spark-NLP建立文本分類模型
    這些平臺不僅能夠處理大數據,使組織能夠對非結構化數據(如文本分類)進行大規模分析。但在機器學習方面,大數據系統和機器學習工具之間仍然存在差距。流行的機器學習python庫,如scikit-learn和Gensim,經過高度優化,可以在單節點計算機上執行,而不是為分布式環境設計的。
  • 深度學習文本分類|模型&代碼&技巧
    文本分類是NLP的必備入門任務,在搜索、推薦、對話等場景中隨處可見,並有情感分析、新聞分類、標籤分類等成熟的研究分支和數據集。本文主要介紹深度學習文本分類的常用模型原理、優缺點以及技巧。P.S.Fasttext直到現在還被不少人使用,主要有以下優點:模型本身複雜度低,但效果不錯,能快速產生任務的baselineFacebook使用C++進行實現,進一步提升了計算效率採用了char-level的n-gram作為附加特徵,比如paper的trigram是 [pap, ape, per],在將輸入paper轉為向量的同時也會把trigram
  • 文本匹配相關方向打卡點總結
    (不過分類相關的tricks可以看之前寫的這篇文章《文本分類重要tricks總結》)。PS:訂閱號後臺回復「文本匹配」可領取小夕打包好的論文大禮包噢~(包括正文中的papers)打卡的baseline模型打卡的任務場景和數據集
  • 【NLP】文本分類綜述 (上)
    文本分類綜述A Survey on Text Classification: From Shallow to Deep Learning,2020[1]文本分類是自然語言處理中最基本,也是最重要的任務。由於深度學習的成功,在過去十年裡該領域的相關研究激增。鑑於已有的文獻已經提出了許多方法,數據集和評估指標,因此更加需要對上述內容進行全面的總結。
  • 精品推送9:NLP經典書籍與論文推薦
    本書涵蓋了傳統的和基於神經網絡的NLP方法,可以看作是書單中前兩本書的組合,其中涵蓋了使用現代工具,如TensorFlow和Keras的實際編碼解決方案。摘自本書網站:「《自然語言處理實際應用》是一本指南,幫助你建立可以閱讀和解釋人類語言的機器。你將使用現成的Python包來捕獲文本中的含義並做出反應。
  • 在Python中使用SpaCy進行文本分類
    【導讀】在這篇文章中,我們將學習如何使用SpaCy進行文本分類, spaCy是Python中流行且易於使用的自然語言處理庫。
  • 文本分類綜述 | 邁向NLP大師的第一步(上)
    (文末 下期預告 別錯過)綜述內涉及的所有文本分類必讀論文清單,我們已經為大家整理打包好啦,訂閱號後臺回復『文本分類』即可獲取喔~文本分類綜述A Survey on Text Classification: From Shallow to Deep Learning,2020[1]文本分類是自然語言處理中最基本,也是最重要的任務
  • 文本分類有哪些論文中很少提及卻對性能有重要影響的tricks?
    前言一年前小夕在知乎上提問過這麼一個問題文本分類有哪些論文中很少提及卻對性能有重要影響的tricks?
  • 文本分類最新進展
    連結 | https://zhuanlan.zhihu.com/p/449914433有幾個文本分類的idea醞釀很久了,準備把CRS做完投naacl之後,把這幾個idea實踐一下。運氣好能趕上sigir,不好只能趕emnlp了;本文收集一些相關工作!!!
  • 今日Paper | COVID-19;深度興趣網絡;COVIDX-NET;場景文本遷移等
    from=leiphonecolumn_paperreview0407推薦原因這是一篇綜述論文,概述了最近在新冠病毒研究中使用的計算機和人工智慧相關的技術應用。目前新冠病毒的研究重點包括追蹤病毒傳播、促進病毒檢測、開發疫苗、尋找新的治療方法、了解疫情的社會經濟影響等。
  • 關於NLP和機器學習之文本處理的你需要知道的一切(附學習資源)
    然而,在我之前的大多數文本分類工作中,詞幹提取僅僅略微提高了分類準確性,而不是使用更好的工程特徵和文本豐富方法,例如使用單詞嵌入。詞形還原表面上的詞形還原與詞幹還原非常相似,其目標是刪除變形並將單詞映射到其根形式。唯一的區別是,詞形還原試圖以正確的方式去做。它不只是切斷單詞,它實際上將單詞轉換為實際的根。
  • 【關於 文本分類 trick】那些你不知道的事
    作者:楊夕項目地址:https://github.com/km1994/nlp_paper_study
  • 今日Paper | 可視問答模型;神經風格差異轉移;圖像壓縮系統 ;K-SVD...
    /Barnes Nick發表時間:2020/1/20論文連結:https://paper.yanxishe.com/review/9627?from=leiphonecolumn_paperreview0211推薦原因這篇論文考慮的是視覺問答的問題。
  • 【附論文】白話文本識別經典模型:CRNN
    在前一篇文章中(詳見本公眾號文章:白話文本檢測經典模型 CTPN),介紹了文字識別在現實生活中的廣泛應用,以及文字識別的簡單流程: 其中「文本檢測」、「文本識別」是其中兩個關鍵環節,「文本檢測」已經在前一篇文章中介紹了詳細的介紹,本文主要介紹「文本識別」的經典模型CRNN及其原理。
  • NLP之文本分類:「Tf-Idf、Word2Vec和BERT」三種模型比較
    ,我將使用NLP和Python來解釋3種不同的文本多分類策略:老式的詞袋法(tf-ldf),著名的詞嵌入法(Word2Vec)和最先進的語言模型(BERT)。NLP常用於文本數據的分類。文本分類是指根據文本數據內容對其進行分類的問題。我們有多種技術從原始文本數據中提取信息,並用它來訓練分類模型。本教程比較了傳統的詞袋法(與簡單的機器學習算法一起使用)、流行的詞嵌入模型(與深度學習神經網絡一起使用)和最先進的語言模型(和基於attention的transformers模型中的遷移學習一起使用),語言模型徹底改變了NLP的格局。
  • 支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP
    53 種語言預訓練模型的自然語言處理工具包 StanfordNLP,該工具包支持 Python 3.6 及之後版本,並基於 PyTorch,支持多種語言的完整文本分析管道,包括分詞、詞性標註、詞形歸併和依存關係解析,此外它還提供了與 CoreNLP 的 Python 接口。
  • NLP領域最優秀的8個預訓練模型(附開源地址)
    在文本分類任務方面,ULMFiT 的性能優於許多最先進的技術。我喜歡 ULMFiT 的原因是,它只需要很少的例子就可以產生這些令人印象深刻的結果。讓像你我這樣的人更容易理解,並在我們的機器上實現它!有關 ULMFiT 的更多信息,請參閱以下資源:《Tutorial on Text Classification (NLP) using ULMFiT and fastai Library in Python》(《在 Python 中使用 ULMFiT 和 fastai 庫的文本分類(自然語言處理)教程》):