基於典型相關分析的詞向量

2020-12-05 雷鋒網

雷鋒網 AI 研習社按:本文為 seaboat 為雷鋒網 AI 研習社撰寫的獨家稿件,未經雷鋒網(公眾號:雷鋒網)許可不得轉載。

前言

在 NLP 領域中,為了能表示人類的語言符號,一般會把這些符號轉成一種數學向量形式以方便處理,我們把語言單詞嵌入到向量空間中就叫詞嵌入(word embedding)。

比如有比較流行的谷歌開源的 word2vec ,它能生成詞向量,通過該詞向量在一定程度上還可以用來度量詞與詞之間的相似性。word2vec採用的模型包含了連續詞袋模型(CBOW)和 Skip-Gram 模型,並通過神經網絡來訓練。

但這篇文章不深入講 word2vec 的內容,而是看看另外一種詞向量生成方式——基於典型相關分析的詞向量。

one-hot形式的詞向量

說到詞向量就必須先看詞向量的形式,一般有兩類,分別是 one-hot 形式和分布式形式。前面我們說過詞向量就是用來表示人類語言的一種數學化的方式,最簡單的向量方式即是 one-hot 形式。

它的處理方式簡單粗暴,一般就是統計詞庫包含的所有V個詞,然後將這V個詞固定好順序,然後每個詞就可以用一個V維的稀疏向量來表示,向量中只有在該詞出現的位置的元素才為1,其它元素全為0。比如下面這幾個詞,第一個元素為1的表示中國,第六個元素為1的表示美國,第五個元素為1的表示日本。

從中可以看到 one-hot 形式的維數通常會很大,因為詞數量一般在10W級別,這會導致訓練時難度大大增加,造成維數災難。另外這麼多維只以順序信息並且只用1和0來表示單詞,很浪費空間。再一個是這種方式的任意兩個詞都是孤立的,沒法看出兩個詞之間的相似性。於是看看有沒有改進的方法。

分布式詞向量

鑑於 one-hot 形式詞向量的缺點,出現了另外一種詞向量表示方式——分布式詞向量(distributed word representation)。 分布式詞向量則乾脆直接用普通的向量來表示詞向量,而元素的值為任意實數,該向量的維數可以在事前確定,一般可以為50維或100維。這時的詞向量類似如下(這裡假設用5維來表示):

其中每個元素的具體數值則由訓練來確定。這樣一來就克服了在深度學習中可能的維度災難,而且充分利用了空間,如果使用適當的訓練方法訓練出來的詞向量還可以直接根據兩個詞之間的距離來計算相似性。

典型相關分析

典型相關分析主要用於分析兩組變量之間的關係,通過該方法能有效分析相關關係。

傳統簡單的分析方式是直接用協方差矩陣,比如我們有兩組變量和,那麼最原始的方法就是直接計算X和Y的協方差矩陣,矩陣有m*n個值。有了協方差矩陣就得到了兩兩變量之間的相關性,比如就是變量和的相關性。但這種方式存在缺點,只考慮了變量之間單個維度之間的相關性,於是可採用經典相關分析改進。

經典相關分析是分別在兩組變量中找出第一對線性組合,使他們具有最大相關性;接著再分別在兩組變量中找出第二對線性組合,使他們具有第二大的相關性,並且它們分別與本組內的第一線性組合不相關。以此類推找出其他線性組合。

該方法的思想與主成分分析的思想相似,而其本質就是從兩組變量中選取若干個有代表性的變量線性組合,用這些線性組合的相關性來表示原來兩組變量的相關性。

核心思想

基於典型相關分析的詞向量的核心思想,它認為一段文字中某個詞的左右兩邊指定長度的窗口內的詞組應該具有關聯,也就是說某個詞的左邊若干單詞組成上文,右邊若干單詞組成下文,從而應該讓上下文的關係儘可能緊密。如圖,假設窗口大小為2,則 w4 的左右兩窗口包含的詞組為上下文,類似的 w5 也有對應的上下文,每個詞都有一個對應的詞向量,那麼要做的事就是最大化上下文兩個矩陣的協方差。

模型訓練

假設我們的語料包含了 n 個單詞,表示為{w1,w2,…wn},我們的詞典大小為 v,窗口大小為 h,再設詞向量的維度為 k。單詞左右兩邊的上下文組成的矩陣我們分別定義為, 和 ,而整個語料的矩陣定義為。

現在我們要做的就是找出兩個分別能最好代表左邊窗口的矩陣 L 和右邊窗口矩陣 R 的方向和,這兩個方向應該使得這兩個矩陣分別在對應方向上的投影的協方差最大,投影可以看成是在這兩個方向保留了兩個窗口矩陣的最具代表性的信息。於是最大化目標可以表示為

其中 E 表示經驗期望,另外我們用 表示矩陣 L 和矩陣 R 的協方差矩陣,用  表示矩陣 L 和矩陣 L 之間的協方差矩陣,用表示矩陣 R 和矩陣 R 之間的協方差矩陣,則有 

通過轉換,上述最大化目標的解可以由下面等式給出,

解上述方程,分別取得 k 個最大特徵值的特徵向量,組成左右窗口兩個方向向量,它們的結構為(vh × k)。然後將左窗口矩陣 L 和右窗口矩陣 R 分別投影到兩個方向向量上,即,得到單詞對應的隱狀態 S 矩陣,S 則是用 k 個最相關的成分來表示單詞。最後再對 S 和語料矩陣 W 做典型相關分析,即 CCA(S,W),得到最終的詞向量嵌入矩陣,結構為(v × k),此即為用 k 維向量表示原來的 v 個單詞,實現詞嵌入。

雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 典型相關分析
    典型相關分析,如果是第一次學習這個概念,可能會感到奇怪,怎麼是典型呢?難道我們原來學的相關分析不典型嗎?說實在的,我也不知道為啥叫典型相關分析,但是英文是Canonical Correlation Analysis,翻譯過來就典型了,知道的可以告訴我啊,謝謝啦! 典型相關分析(Canonical Correlation Analysis):是研究兩組變量之間相關關係的一種多元統計分析方法。
  • 賽爾筆記|基於知識引入的情感分析
    作者:哈工大SCIR 袁建華 袁明琛 盧延悅1.引文情感分析 知識當training數據不足以覆蓋inference階段遇到的特徵時,是標註更多的數據還是利用現有外部知識充當監督信號?基於機器學習、深度學習的情感分析方法,經常會遇到有標註數據不足,在實際應用過程中泛化能力差的局面。
  • 「兩組」連續變量之間的相關分析(SPSS:典型相關分析)
    老年人靜態平衡能力與動態平衡能力之間的典型相關分析測試老年人靜態平衡和動態平衡指標。動態平衡指標:Center、VM、HM、Rot. speed。靜態平衡指標:Lng、Area、Lng/A。2)動態平衡四個指標放入「集合1」,靜態平衡三個指標放入「集合2」圖4中,第1行為動態平衡和靜態平衡的第1對典型變量之間相關分析的結果。
  • 第五講 典型相關分析——數據結果分析(一)
    在Syntax窗口中,先選擇改程序,然後點擊如圖1中紅色橢圓標識的三角形按鈕(Run Current),典型相關分析即可運行,並會輸出結果(如圖2所示)。    需要注意的是,典型相關分析的輸出結果並不是我們常見的表格形式輸出。一般是以文本的形式輸出的,需要我們對數據結果進行重新整理和分析。
  • 詳聊「相關分析」(二)---偏相關、典型相關 | 醫學方統計學專題
    我們之前講到的直線相關、秩相關都只是分析兩個變量間的相關,並沒有考慮當兩個變量同時與第三個變量相關時的情況。所以這就引出了「偏相關分析」。偏相關分析是指當兩個變量同時與第三個變量相關時,將第三個變量的影響剔除,只分析另外兩個變量之間相關程度的過程。
  • 基於類別深度典型相關分析的多模態數據下的細粒度場發現
    為此,我們提出了一種新穎的深度學習模型,即基於類別的深度典型相關分析(D-CCA)。給定照片作為輸入,此模型執行:1)通過進行精確的場地搜索(查找照片所在的場地)和 2)通過對輸入的照片與場地文字描述進行跨模式相關分組場地搜索(查找與照片具有相同類別的相關場地)。
  • 基於用戶畫像與新聞詞向量的個性化新聞推薦模型
    摘要:目前,由於用戶行為數據的高維稀疏特點以及衡量新聞內容相似性的複雜度較高,本文針對這兩個問題,從分類角度考慮,提出一種基於用戶畫像與新聞詞向量的個性化新聞推薦模型,對用戶的行為數據等進行分析,構建用戶畫像模型,提取用戶畫像特徵,並使用指數衰減模型的Word2Vec框架進行詞向量訓練,結合文本特徵的向量空間模型構建新聞全局特徵
  • 每日一讀:基於雙重注意力模型的微博情感傾向性分析
    2.基於雙重注意力模型的微博情感傾向性分析2.1 論文信息太原理工大學信息與計算機學院,羅春春,郝曉燕南京大學學報(自然科學),2020年歸檔:WPS網盤\我的雲文檔\論文匯報\畢業論文\論文部分\短文本情感分析算法部分\參考文獻2.2 論文重點研究目的
  • 分析研究典型USB控制器晶片性能
    然而這又給選擇帶來了困難,不同的USB控制器晶片有不同的性能和特點,以下對一些典型的USB控制器晶片進行分析和比較,供選擇時決策參考。幾款典型USB控制器晶片性能分析從晶片大的構架來分,市面上所有的USB控制器晶片可以分為不需要外接微處理器的晶片和需要外接微處理器的晶片。
  • 基於LabVIEW的振動疲勞分析
    疲勞分析對材料和部件進行疲勞分析及預測壽命有幾種可能的方法,包括應力-壽命、應變-壽命、裂紋擴展和點焊接頭等方法。而應力-壽命方法是最為行之有效的技術,該方法在設計中被廣泛應用。下圖顯示了基於應力-壽命模型的疲勞分析過程。本文引用地址:http://www.eepw.com.cn/article/201612/333317.htm
  • 每日一讀:基於Self-Attention和Bi-LSTM的中文短文本情感分析
    4.基於Self-Attention和Bi-LSTM的中文短文本情感分析4.1論文信息西北大學 信息科學與技術學院,吳小華,陳 莉,魏甜甜,範婷婷中文信息學報,2019年>歸檔:WPS網盤\我的雲文檔\論文匯報\畢業論文\論文部分\短文本情感分析算法部分\參考文獻4.2論文重點研究目的:對於當前基於注意力機制和雙向LSTM依賴於分詞精度的問題,研究者認為,採用字向量的方法可以解決過度依賴分詞精度的問題,採用自注意力機制可以獲取文本內信息。
  • 達觀數據乾貨分享丨情感分析架構演進
    達觀數據基於在自然語言處理、機器學習算法和文本挖掘領域的多年技術積累,融合文本標籤提取、文本分類和情感分析,打造了針對產品評論的觀念挖掘服務,幫助用戶從海量評論數據中提煉出核心觀點,從而對產品的真實情況一目了然。
  • 概率統計之《指數分布》相關基本概念、性質與典型例題分析
    四、無記憶關鍵性質  服從指數分布的隨機變量具有以下性質:如果某元件的壽命用T來表示,已知元件已使用了t小時,它總共能使用至少s+t小時條件概率,與從開始使用時算起它至少能使用s小時的概率相等,即元件對它已使用過小時無記憶:當s,t≥0時,有   五、典型例題
  • 論文推薦 | 施闖,張衛星,曹雲昌,等:基於北鬥/GNSS的中國-中南半島地區大氣水汽氣候特徵及同降水的相關分析
    基於北鬥/GNSS PWV產品,研究了該地區大氣水汽平均含量、年周期振幅和半年周期振幅等氣候特徵,發現這些特徵主要受到了測站緯度、高程以及季風的影響。通過分析PWV同並址氣象站降水觀測的關聯特性,揭示了該地區大氣水汽含量同降水相關性隨測站緯度減小而降低的特點(在雲南相關係數可達0.8,在靠近赤道的泰國南部相關係數約為0.2)。
  • 每日一讀:基於情感融合和多維自注意力機制的微博文本情感分析
    從今天開始,我會將每天的閱讀筆記上傳至公眾號,因本人水平有限,如存在錯誤之處,還請批評指正3.基於情感融合和多維自注意力機制的微博文本情感分析3.1論文信息中國民航大學電子信息與自動化學院,韓萍,孫佳慧,方 澄,賈雲飛計算機應用,2019年歸檔:WPS
  • 衝刺2019年高考數學,典型例題分析108: 與平面向量相關高考題
    典型例題分析1:考點分析:平面向量數量積的運算;正弦函數的圖象.題幹分析:由f(x)=2sin(πx/6+π/3)=0,結合已知x的範圍可求A,設B(x1,y1),C(x2,y2),由正弦函數的對稱性可知B,C兩點關於A對稱即x1+x2=8,y1+y2=0,代入向量的數量積的坐標表示即可求解。典型例題分析2:考點分析:平面向量的坐標運算.
  • 衝刺19年高考數學,典型例題分析211:簡單線性規劃相關的題型
    典型例題分析1:考點分析;簡單線性規劃.題幹分析:作出不等式組對應的平面區域,利用兩點間的距離公式,以及數形結合進行求解即可.典型例題分析2:考點分析:簡單線性規劃.題幹分析:作出不等式組對應的平面區域,根據點到直線的距離公式進行轉化求解即可.
  • 如何測量、分析算法中的偏見
    本期推文將以詞向量算法中反映的社會偏見為例,為大家介紹目前測量以及分析算法中偏見的相關研究。如何圖1左側具體呈現了w2vNEWS中分別與she和he最相關(語義距離更近)的職業,可以明顯看到男性和女性相關職業的巨大差異。圖2右側展示了詞向量模型中可以與she和he類比的詞對(詞對在向量空間中餘弦距離近似即為可類比),上半部分為明顯帶有性別刻板印象的詞對,下半部分為不帶有性別刻板印象的詞對。
  • 重慶市承擔的863計劃項目「基於連續紫外光譜分析的工業水汙染監測...
    近日,重慶大學聯合重慶川儀自動化股份有限公司承擔的863計劃項目「基於連續紫外光譜分析的工業水汙染監測微系統」順利通過科技部驗收。    項目組針對工業汙水監測的迫切需求,以化學需氧量等重要水質參數為檢測對象,攻克了基於連續紫外直接光譜檢測技術的水汙染監測微系統的基礎理論和關鍵技術,研製出具有完全自主智慧財產權的基於連續紫外光譜分析的工業水汙染監測微系統,實現了小批量生產,在重慶大新藥業股份有限公司、湖南漣源鋼鐵集團有限公司、中國石化集團四川維尼綸廠等企業完成了典型應用示範。