Efficient Estimation of Word Representation in Vector Space
提出兩個新穎的模型來計算詞的連續向量表示,這些表示的質量用詞的相似度來計算,結果和其他表現最好的技術進行比較。我們發現有很大的提高而且計算量低,比如1.6百萬的詞只需要不到一天的計算,而且這些向量對於語義和語法的相似度的計算獲得最好的成績。
https://arxiv.org/pdf/1301.3781v3.pdf
關注公眾號後臺回復「Word2Vec」,領取資料。
GloVe: Global Vectors for Word Representation
學習詞的向量空間表示可以很好捕獲語法和語義規則信息,但是這些規則的起源並不透明。我們分析和闡明模型需要的這些規則。這是logbilinear regression模型,集合了全局矩陣分解和本地窗口大小的方法。模型訓練在詞和詞的共現矩陣中,而不是整個語料庫的稀疏矩陣。
http://emnlp2014.org/papers/pdf/EMNLP2014162.pdf
Compositional character models for open vocabulary word representation
我們引入了一種通過使用雙向 LSTM 組合字符來構建單詞向量表示的模型。相對於每個詞類型都有獨立向量的傳統詞表示模型,我們的模型只需要每個字符類型一個向量和一組固定的組合模型參數。儘管這個模型很緊湊,更重要的是,語言中形式-功能關係的任意性,我們的「組合」詞表示在語言建模和詞性標註方面產生了最先進的結果。在形態豐富的語言(例如土耳其語)中,優於傳統基線的優勢尤為明顯。
https://arxiv.org/pdf/1508.02096.pdf
代碼:
https://github.com/wlin12/JNN
Convolutional Neural Network for Sentence Classification
本文報告了在預訓練詞向量之上訓練的卷積神經網絡 (CNN) 的一系列實驗,用於句子級分類任務。我們表明,具有很少超參數調整和靜態向量的簡單 CNN 在多個基準測試中取得了出色的結果。通過微調學習特定於任務的向量可進一步提高性能。我們還建議對架構進行簡單的修改,以允許使用特定於任務的向量和靜態向量。此處討論的 CNN 模型在 7 個任務中的 4 個任務上改進了現有技術,其中包括情感分析和問題分類。
https://arxiv.org/pdf/1408.5882.pdf
Character-level Convolutional Networks for Text Classification
一方面目前文本分類技術主要考慮詞或詞的組合;另一方面,研究表明,卷積神經網絡在從原始信號中抽取信息的方面,非常有用。在這篇論文中,作者將字符級的文本當做原始信號,並且使用一維的卷積神經網絡來處理它。研究表明,單詞嵌入表示可以直接用於卷積神經網絡,而無需考慮語言的語法或語義結構。
這篇論文,僅僅使用字符,運用在卷積神經網絡上。作者發現,當訓練大規模數據集的時候,深度卷積神經網絡並不需要單詞層面的意義(包括語言的語法和語義)。這是非常激動人心的工程簡化,因為不管什麼語言,它都是由字符組成的,因此這對於構建跨語言的系統至關重要。還有一個好處,對於異常的字符組成(比如拼寫錯誤)和表情符,該模型依然能夠應付。
https://proceedings.neurips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf
Bag of Tricks for Efficient Text Classification
本文提出了一種簡單而有效的文本分類和表示學習方法。我們的實驗表明,我們的快速文本分類器fastText在準確性方面通常與深度學習分類器保持一致,並且在訓練和評估中速度快很多。我們可以在不到10分鐘的時間內使用標準的多核CPU對超過10億個單詞進行快速文本訓練,並在不到一分鐘的時間內對312K類中的50萬個句子進行分類。
https://arxiv.org/pdf/1607.01759v2.pdf
代碼:
https://github.com/facebookresearch/fastText
Sequence to Sequence Learning with Neural Networks
DNN可以在有大量標記訓練集下表現很好,但是無法處理用於序列映射到序列。在本文中,我們提出了一種端到端的序列訓練方法,可以對序列結構做最小的假設。我們的方法使用了多層LSTM將輸入序列映射成一個固定維度的向量,然後用另一個深度LSTM從向量中解碼出目標序列。
https://arxiv.org/pdf/1409.3215.pdf
回復LSTM 領取論文資料
Neural Machine Translation by Jointly Learning to Align and Translate
近年來,基於神經網絡的機器翻譯模型經常被用來處理機器翻譯任務。與傳統基於統計的翻譯方法相比,神經機器翻譯模型意在構建單個神經網絡模型來提升整體翻譯準確率,主要的模型架構基本都是seq2seq家族的。在本論文中,作者認為該模型的瓶頸主要在於中間轉換的固定緯度大小的向量。
因此,作者提出了一種新的解碼方式,其解碼的源頭並不僅僅包括該向量,他們希望構建一種為當前預測詞從輸入序列中自動搜尋相關部分的機制(soft-search,也就是注意力機制)。作者運用這種新的機制來搭建升級版的神經機器翻譯模型,取得了卓越的效果,並且也通過定量分析來證明這種注意力機制的合理性。
https://arxiv.org/abs/1409.0473
hierarchical attention networks for document classification
文本分類問題一直是自然語言處理(NLP)中一個廣受人們關注的問題。可能好多剛接觸深度學習做NLP的項目就是使用循環神經網絡(RNN)對IMDB影評進行分類。但使用循環神經網絡時一般會遇到一個問題,那就是當所要處理的序列較長時,就會導致網絡容易忘記之前的東西,這在機器翻譯、對話系統中會經常出現,為解決這一問題,大佬們就根據心理學原理提出了「注意力」機制,使得網絡工作過程中可以像人一樣將注意力放在不同部位。那麼對於文本分類能否使用「注意力」機制呢?答案是肯定的,這篇論文就針對文本分類問題提出了層級注意力模型結合雙向RNN實現對文本的分類,其效果明顯好於其他方法。
https://www.cc.gatech.edu/~dyang888/research.html
(代碼就自己發消息問作者要吧)
SGM: Sequence Generation Model for Multi-label Classification
多標籤分類是自然語言處理中一項重要但具有挑戰性的任務。它比單標籤分類更複雜,因為標籤往往是相關的。現有方法傾向於忽略標籤之間的相關性。此外,文本的不同部分對預測不同標籤的貢獻不同,這是現有模型沒有考慮的。在本文中,我們建議將多標籤分類任務視為序列生成問題,並應用具有新穎解碼器結構的序列生成模型來解決該問題。大量的實驗結果表明,我們提出的方法大大優於以前的工作。
https://arxiv.org/abs/1806.04822
參考代碼:
https://github.com/lancopku/SGM
覺得有用就點讚吧!
每天18:30分更新
關注學姐+星標+在看
不迷路看好文
很多小夥伴說這段時間看不到學姐的推文更新,以為學姐吃瓜去了。實際上是公眾號推文機制調整了,如果你只是看文章,沒有留言,也從來沒有點過【在看】,那很可能會和我們失聯。想要找回我們其實也很簡單,在留言板裡誇我們真棒,或者說點個在看就OK了~