思必馳在中文文本相似度計算任務上的探索與進展

2020-12-25 和訊

文本相似度計算旨在識別兩段文本在語義上是否相似，是自然語言處理領域的一個重要研究方向，其在智能問答、信息檢索等領域都發揮重要作用，具有很高的商業價值。

近期，思必馳知識服務團隊在中文文本相似度計算方向投入研究，並取得階段性成果：

1）在第十四屆全國知識圖譜與語義計算大會（CCKS: China Conference on Knowledge Graph and Semantic Computing）[1]上發表相關論文一篇《Neural Fusion Model for Chinese Semantic Matching》。

該會議是國內知識圖譜、語義技術、連結數據等領域的核心學術會議，聚集了知識表示、自然語言理解、知識獲取、智能問答、連結數據、圖資料庫、圖計算、自動推理等相關技術領域的和研究人員的學者和研究人員。

2）在「千言數據集：文本相似度」評測[2]中取得階段性進展。該評測的文本相似度數據集包括公開的三個文本相似度數據集，分別為哈工大（深圳） LCQMC 、 BQ Corpus和谷歌的 PAWS-X（中文）。目前，思必馳知識服務團隊在三個數據集上均暫列第一。

針對中文文本相似度計算的魯棒性和泛化性問題，思必馳知識服務團隊在以下幾個方面開展了技術研究：1）針對中文特點的字、詞融合編碼器；2）基於預訓練模型的領域自適應訓練；3）目標應用領域導向的多階段模型微調。相關技術實現在上述公開評測中得到了應用和驗證。語言智能常被稱為人工智慧皇冠上的一顆明珠。在未來，思必馳知識服務團隊將繼續深耕認知智能領域，在面向通用領域的文本相似度計算基礎上，打造領域自適應的文本相似度計算系統，推動文本相似度在垂直領域的應用和發展。

參考文獻：[1] 第十四屆全國知識圖譜與語義計算大會（CCKS: China Conference on Knowledge Graph and Semantic Computing）

[2] 千言數據集：閱讀理解公開評測

（責任編輯：張洋 HN080）

相關焦點

思必馳在中文機器閱讀理解公開評測中取得階段性進展

日前，注重源頭基礎創新的思必馳，其知識服務團隊在多個中文機器閱讀理解公開評測中取得階段性進展。此前，該團隊還入選姑蘇重大創新團隊。　　機器閱讀理解（Machine Reading Comprehension）是自然語言處理和人工智慧領域的重要前沿課題，旨在讓機器閱讀並理解非結構化的文本，可以準確地回答和文本內容相關的任何問題。
自然語言處理之文本相似度計算

文本向量化相似度的計算相關示例總結文本向量化無論是中文人們能想到最簡單的方式就是統計一句話有多少個詞；然後很自然的比較兩句話的相似程度就看它們有多少個詞一樣就好了；再比上兩個句子的總詞數，就能得到一個 0-1 之間的相似度了。這就是 Jaccard 相似度計算方法：僅從一個詞語是否出現的角度，進行數學表示，進而進行相似度計算顯然是沒有充分利用文本中的信息的。
計算文本相似度常用的四種方法

在這篇博文中，作者比較了各種計算句子相似度的方法，並了解它們是如何操作的。詞嵌入（word embeddings）已經在自然語言處理領域廣泛使用，它可以讓我們輕易地計算兩個詞語之間的語義相似性，或者找出與目標詞語最相似的詞語。然而，人們關注更多的是兩個句子或者短文之間的相似度。如果你對代碼感興趣，文中附有講解細節的Jupyter Notebook地址。以下是論智的編譯。
【論文】文本相似度計算綜述

相關度體現在文本共現或者以任何形式相互關聯（包括上下位關係、同義關係、反義關係、部件-整體關係、值-屬性關係等）反映出文本的組合特點。而相似度是相關度的一種特殊情況，包括上下位關係和同義關係。由此得出，文本的相似度越高，則相關度越大，但是相關度越大並不能說明相似度高。相似度一般用[0,1]表示，該實數可以通過語義距離計算獲得。
Kaggle文本語義相似度計算Top5解決方案分享

向AI轉型的程式設計師都關注了這個號👇👇👇機器學習AI算法工程公眾號： datayx句子相似度計算今年和去年前後相繼出現了多個關於句子相似度判定的比賽，即得定兩個句子，用算法判斷是否表示了相同的語義或者意思。
一文講述常見的文本相似度計算方法

在對語料進行預處理的時候，我們需要給予文本的相似度，把相似度高的重複主題過濾掉。總之，相似度是一種非常有用的工具，可以幫助我們解決很多問題。任務目標一般來說，是比較兩個物體（商品，文本）之間的相似度。這裡的相似度是一個抽象的值，它可以抽象成估計的百分比。在推薦工程中，計算相似度是為了給用戶推送一定量的物品。即把所有的相似度排序，然後選出最高的那幾個物品。
短文本相似度在金融智能客服中的應用 - 專注金融科技與創新未央網

短文本相似度，顧名思義是指長度較短文本（在中文中一般小於50個字符）的相似度計算，一般用於搜尋引擎、智能問答、知識檢索、信息流推薦等系統中的召回、排序等階段。1. 短文本相似度基本介紹短文本相似度的計算方式，最基本的分為無監督和有監督兩種方式。
機器不學習:基於深度學習CNN的短文本相似度計算方案

機器學習深度學習乾貨棧 www.jqbxx.com基於CNN模型的短文本相似度的計算方法可以大致分為兩類：一類是基於Siamese結構的神經網絡模型，先分別學習輸入的文本對兒的句子向量表達，再基於句子向量計算相似度；另一類是直接以詞語粒度的相似度矩陣作為輸入，學習並計算文本相似度。
文本分析詞頻與餘弦相似度

上一期，我們介紹了文本相似度的概念，通過計算兩段文本的相似度，我們可以：對垃圾文本（比如小廣告）進行批量屏蔽；對大量重複信息（比如新聞）進行刪減；對感興趣的相似文章進行推薦，等等。那麼如何計算兩段文本之間的相似程度？
使用gensim進行文本相似度計算

評論和商品描述的相似度越高，說明評論的用語比較官方，不帶太多感情色彩，比較注重描述商品的屬性和特性，角度更客觀。再比如知乎、貼吧等問答社區內問題下面有很多回復者，如何快速過濾掉與問題無關的回答或者垃圾廣告？？那麼Python 裡面有計算文本相似度的程序包嗎，恭喜你，不僅有，而且很好很強大。
自然語言語義相似度計算方法

由於文本相似度計算在文檔複製檢查、信息檢索和機器翻譯等領域都有十分廣泛的應用，所以，近年來有越來越多的學者致力於文本相似度算法的研究。這樣，就把文本表示成了向量的形式，同時兩文本的相似度問題也就可以通過兩向量之間的夾角大小來計算了，夾角越大，兩文本的相似度就越低。基於向量空間模型的計算方法假設文本中的詞語是相互獨立的，因而可以用向量的形式來表示，這種表示方法簡化了文本中詞語之間的複雜關係，也使得文本的相似程度變得可以計算了。
NLP實戰之基於TFIDF的文本相似度計算

：當一個詞條在文檔中出現的頻率越高，且新鮮度低（即普遍度低），則其對應的TF-IDF值越高。）中的TF-IDF值為：更多詳細的關於TFIDF的介紹可以參考關於TF-IDF的其他實戰：基於TFIDF計算文本相似度
計算相似度

在機器學習中，經常要度量兩個對象的相似度，例如k-最近鄰算法，即通過度量數據的相似度而進行分類。在無監督學習中，K-Means算法是一種聚類算法，它通過歐幾裡得距離計算指定的數據點與聚類中心的距離。在推薦系統中，也會用到相似度的計算（當然還有其他方面的度量）。
如何計算出文本數據的相似矩陣?

今天要計算texts中兩兩文本計算相似性，生成texts對應的相似矩陣。我們需要先將text轉為為向量，texts轉化後就是文檔-詞頻矩陣。texts = ['吃著火鍋唱著歌，突然失業了怎麼辦？', '北京今年高考外語口試取消!
【TF-IDF】傳統方法TF-IDF解決短文本相似度問題

今天在這裡就介紹一下傳統算法TF-IDF是如何計算短文本相似度的。TF-IDF是英文Term Frequency–Inverse Document Frequency的縮寫，中文叫做詞頻-逆文檔頻率。那麼，TF-IDF是怎麼產生的？又是從何而來呢？在一個文本中，當一個詞彙出現很多次時，我們往往認為這個詞是重要的，可以代表該文本。
前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索

近年來，基於神經網絡的自然語言理解研究取得了快速發展（尤其是學習語義文本表示），這些深度方法給人們帶來了全新的應用，且還可以幫助提高各種小數據集自然語言任務的性能。本文討論了兩篇關於谷歌語義表示最新進展的論文，以及兩種可在 TensorFlow Hub 上下載的新模型。
圖計算黑科技:打開中文詞嵌入訓練實踐新模式

而在中文搜索場景下，同音詞、易混詞、錯別字等文本的召回和相似度匹配一直存在著棘手的問題，本文將嘗試從圖計算的角度來進行中文詞向量的訓練，並取得了積極的效果，希望與大家一同分享交流。文章作者：翟彬旭，騰訊雲大數據高級研發工程師。在中文搜索場景下，同音詞、易混詞、錯別字等文本的召回和相似匹配是一個常見且棘手的問題。
中文文本分析相關資源匯總

jieba分詞https://github.com/fxsjy/jieba中文分詞庫中文複雜事件的概念與顯式模式https://github.com/thunderhit/eventextraction中文複合事件的概念與顯式模式，包括條件事件、因果事件、順承事件、反轉事件等事件抽取，並形成事理圖譜。
專訪思必馳俞凱:大規模可定製的對話式語音交互,已經來臨

但目前情況是，工業界落地的都是最簡單的方法，比如說解碼、執行度選擇等等，主要還是在小規模數據上的落地效果比較明顯。而到了萬小時（語音）數據上，這個方法的效果不夠高，是目前比較明顯的一個通病。基本上就是處於一個「大家意識到很重要但還沒有完全解決」的過程中。如果這件事情能有所突破，對未來的影響還是很大的。思必馳也是近一兩年開始研究。
騰訊TDW千臺Spark千億節點對相似度計算

相似度計算在信息檢索、數據挖掘等領域有著廣泛的應用，是目前推薦引擎中的重要組成部分。隨著網際網路用戶數目和內容的爆炸性增長，對大規模數據進行相似度計算的需求變得日益強烈。在傳統的MapReduce框架下進行相似度計算會引入大量的網絡開銷，導致性能低下。

思必馳在中文文本相似度計算任務上的探索與進展

相關焦點

思必馳在中文機器閱讀理解公開評測中取得階段性進展

自然語言處理之文本相似度計算

計算文本相似度常用的四種方法

【論文】文本相似度計算綜述

Kaggle文本語義相似度計算Top5解決方案分享

一文講述常見的文本相似度計算方法

短文本相似度在金融智能客服中的應用 - 專注金融科技與創新 未央網

機器不學習:基於深度學習CNN的短文本相似度計算方案

文本分析 詞頻與餘弦相似度

使用gensim進行文本相似度計算

自然語言語義相似度計算方法

NLP實戰之基於TFIDF的文本相似度計算

計算相似度

如何計算出文本數據的相似矩陣?

【TF-IDF】傳統方法TF-IDF解決短文本相似度問題

前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索

圖計算黑科技:打開中文詞嵌入訓練實踐新模式

中文文本分析相關資源匯總

專訪思必馳俞凱:大規模可定製的對話式語音交互,已經來臨

騰訊TDW千臺Spark千億節點對相似度計算

短文本相似度在金融智能客服中的應用 - 專注金融科技與創新未央網

文本分析詞頻與餘弦相似度