文本匹配模型TextMatching

2021-01-14 機器學習BOX


0. 寫在前面

本次分享一篇NLP文本匹配的經典文章,主要思路是借鑑圖像識別的思路來解決NLP文本匹配問題,畢竟計算機視覺技術的發展在當時異常迅猛。

個人心得:

文本匹配問題可轉化為二分類問題,輸出概率則為相似度將圖像識別的思路應用於文本匹配任務中,利用卷積抽取文本特徵

論文地址:

https://arxiv.org/pdf/1602.06359.pdf

1. 背景

文本匹配廣泛用於搜尋引擎、問答系統、信息流相關文章推薦等場景中,目的是為了在文本庫中找出與目標文本類似或相關的文本。本文即將介紹的TextMathcing模型是一種端到端的文本匹配方法,將計算機視覺領域圖像識別任務的解決方案思路引入文本匹配模型中,讓我們一起來看看作者是如何設計和實現的。

2. 模型架構

TextMatching模型架構如圖所示。

我們將模型架構拆解為如下幾個步驟:

文本嵌入本文方法首先利用詞向量模型得到文本或者句子中的每個詞的embedding向量,這一步也是非常通用的步驟,目前主流的詞向量模型為word2vec/fastText/glove/bert等,本文選用glove。

計算相似度矩陣對待匹配的文本(具體而言是一個二維數組,每一維是文本中每個詞的embedding向量)進行外積,得到每個詞之間的相似度得分。如果兩個文本分別由M,N個詞組成,那麼,相似度矩陣大小為M*N。作者提供了三種詞與詞之間的相似度得分計算方法:

a. 0-1類型,對應的詞相同為1,否則為0。這種方法的缺點在於無法捕獲相似詞間的語義匹配關係。

b. cosine相似度

c. 點積

經實驗,方案3的效果最佳。

CNN特徵提取

為什麼說本文的思路是像圖像識別一樣做文本匹配呢?關鍵一步就是作者使用了圖像識別中常用的CNN卷積層來提取文本特徵。TextMatching模型使用了兩層CNN從相似度矩陣中抽取特徵。這裡需要注意的一點是,不同的文本對產生的文本相似度矩陣大小是不一致的,為了讓CNN抽取的feature map在輸入到全連接層時能夠在尺寸上保持一致,作者在第一層CNN後使用了一層動態pooling層來動態調整feature map尺寸。

全連接層

經CNN抽取特徵後,TextMatching將特徵送入兩層全連接層,再經softmax得到模型推理結果,輸出的概率值即可認為是文本對的匹配程度。

3. 模型評估

作者將本文模型與其他主流文本匹配模型進行對比,可以看出,本文提出的TextMatching模型效果還是優於當時的主流模型的。

4. 總結

本文介紹了一種文本匹配的經典工作,其思路是將基於CNN的圖像識別思路引入文本匹配模型中,進而提升文本匹配效果。

相關焦點

  • Propensity Score Matching 傾向得分匹配
    傾向得分匹配(propensity score matching)是一種常用的降維方法。檢驗樣本的均值是否沒有顯著差異,所以先進行異方差 Levene-test,然後對不同結果進行同/異方差 t-test :test_table = pd.DataFrame(index = ['before matching', '1:1 matching', '1:2 matching', '1:4 matching'])alpha
  • 雅思閱讀匹配題攻略 IELTS Answer Matching Headings Questions
    In this lesson, you're going to learn how to complete matching headings questions in the IELTS reading exam. Part 1: basic tips for the matching headings section.
  • 使用PyTorch建立你的第一個文本分類模型
    概述學習如何使用PyTorch執行文本分類理解解決文本分類時所涉及的要點學習使用包填充(Pack Padding)特性介紹我總是使用最先進的架構來在一些比賽提交模型結果。得益於PyTorch、Keras和TensorFlow等深度學習框架,實現最先進的體系結構變得非常容易。
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    因此,OpenAI 和其它地方的研究者試圖將圖像與文本結合起來,讓 AI 更好地理解人類日常事物的概念。CLIP 和 DALL·E 試圖從兩個不同的方向解決這一問題。CLIP,「另類」的圖像識別目前,大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像,而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
  • 論文推薦|[AAAI 2020] TextScanner:依序閱讀分類的魯棒場景文本識別
    該論文分析了現有的場景文本方法,包括基於RNN注意力的方法以及基於語義分割的方法的局限性,針對上述方法存在的不足之處提出改進。圖1 本文方法的對比結果場景文本識別任務在近幾年得到很大的關注,現有的場景文本識別的方法主要分為兩種,一種是基於RNN Attention的方法[1][2],通過對編碼後的圖片特徵序列使用注意力機制來對準字符同時進行解碼
  • 百度NLP | 神經網絡語義匹配技術
    作者:百度NLP一、序言文本匹配是自然語言處理中一個重要的基礎問題,自然語言處理中的許多任務都可以抽象為文本匹配任務。例如網頁搜索可抽象為網頁同用戶搜索 Query 的一個相關性匹配問題,自動問答可抽象為候選答案與問題的滿足度匹配問題,文本去重可以抽象為文本與文本的相似度匹配問題。
  • ACL2019|圖表示解決長文本關係匹配問題:騰訊提出概念交互圖算法
    機器之心發布作者:Bang Liu、Di Niu等文章之間關係匹配是自然語言處理領域的重要問題。傳統算法忽略了文本內部語義結構,而深度神經網絡目前主要用於句子對之間的匹配。同時由於長文本對計算量需求較大,且目前缺乏訓練數據集,因此長文本的匹配問題一直難以解決。
  • NLP之文本分類:「Tf-Idf、Word2Vec和BERT」三種模型比較
    ,我將使用NLP和Python來解釋3種不同的文本多分類策略:老式的詞袋法(tf-ldf),著名的詞嵌入法(Word2Vec)和最先進的語言模型(BERT)。NLP常用於文本數據的分類。文本分類是指根據文本數據內容對其進行分類的問題。我們有多種技術從原始文本數據中提取信息,並用它來訓練分類模型。本教程比較了傳統的詞袋法(與簡單的機器學習算法一起使用)、流行的詞嵌入模型(與深度學習神經網絡一起使用)和最先進的語言模型(和基於attention的transformers模型中的遷移學習一起使用),語言模型徹底改變了NLP的格局。
  • PyTorch:Bi-LSTM的文本生成
    —歐內斯特·海明威本博客的目的是解釋如何通過實現基於LSTMs的強大體系結構來構建文本生成的端到端模型。許多模型都從不同的角度提出了解決不同NLP任務的方法。同樣,最受歡迎的模型中的共同點是實施基於深度學習的模型。如前所述,NLP領域解決了大量的問題,特別是在本博客中,我們將通過使用基於深度學習的模型來解決文本生成問題,例如循環神經網絡LSTM和Bi-LSTM。
  • 以BBC新聞文章為例:應用XGBoost等算法進行文本分類
    本數據集包含BBC新聞文本及其雙欄CSV格式的分類列表,展示如下:import pandas as pdbbc_text_df = pd.read_csv('../data/bbc-text.csv')bbc_text_df.head()表中似乎含有許多長文本。後續章節將對其作詳細論述。現在的問題是:若給定一個「文本」,就需要預測其類別。
  • 使用Flask部署機器學習模型
    我們將創建一個包含如下文本框的網頁(用戶可以搜索任何文本):對於任何搜索查詢,我們將實時抓取與該文本相關的tweet,對於所有這些被抓取的tweet,我們將使用仇恨言語檢測模型對種族主義和性別歧視tweet進行分類。設置項目工作流模型構建:我們將建立一個邏輯回歸模型管道來分類tweet是否包含仇恨言論。
  • 入門| CNN也能用於NLP任務,一文簡述文本分類任務的7個模型
    參與:李詩萌、路 本文介紹了用於文本分類任務的 7 個模型,包括傳統的詞袋模型、循環神經網絡,也有常用於計算機視覺任務的卷積神經網絡,以及 RNN + CNN MAX_NB_WORDS = 80000 tokenizer = Tokenizer(num_words=MAX_NB_WORDS) tokenizer.fit_on_texts(data[ 'cleaned_text']) 當分詞器適用於數據時,我們就可以用分詞器將文本字符級
  • 第43節 Text、Comment及CDATASection
    特徵:nodeType值為3;nodeName的值為」#text」;nodeValue的值為節點所包含的文本;parentNode是一個Element;沒有子節點;data屬性:可以通過nodeValue屬性或data屬性訪問或設置Text節點包含的文本;var h2 = document.getElementsByTagName("h2")[
  • NeuralNLP-NeuralClassifier:騰訊開源深度學習文本分類工具
    NeuralNLP是騰訊廣告(Tencent Marketing Solution,TMS)(https://e.qq.com/)數據算法團隊搭建的一個基於PyTorch的深度學習NLP公共實驗平臺,主要涵蓋文本分類、序列標註、語義匹配、BERT微調和文本生成等,目前已經廣泛應用於騰訊廣告業務文本相關的需求場景中,如廣告定向、相關性計算、LookAlike、動態創意、點擊率/轉化率預估等
  • 內生性問題和傾向得分匹配, 獻給準自然試驗的厚禮
    *這個模型也叫作選擇模型。*我們應該先檢驗打分的平衡性。選擇模型描述~~滿足了平衡性要求。(3)匹配估計量注意:由於採用了自助法抽樣,而且是1000次,所以計算起來會費時費力,在此僅做演示。(電腦配置:臺式機,六代i7處理器,16G內存,1T硬碟+256G SSD。
  • 從人臉識別到文本分析,50+超實用的 API 推薦清單
    Animetrics Face Recognitionhttp://api.animetrics.com/該 API 可用於檢測圖片中的人臉,並將其與一組已知的人臉數據集進行匹配。 API 還可以添加或刪除可搜索圖庫中的對象,並添加或刪除某一分類中的人臉。
  • 多標籤文本分類模型總結
    什麼是多標籤文本分類學術上常用的說法有兩個,一個是ExtremeMulti-label Learning, 簡稱XML,另一個是Extreme Multi-label Text Classification,簡稱XMTC,本質上都是對文本進行多標籤分類,即對於一個給定的文本,可能有多個標籤,我們需要設計一個模型預測其標籤。
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    智東西(公眾號:zhidxcom)編譯 |子佩編輯 |Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派