AI產品經理必修——揭開算法的面紗(餘弦定理)

2020-11-27 人人都是..

餘弦定理作為初中課本就學過的知識,AI產品經理將會把它運用到相似度計算當中。

世界上有些事物的聯繫常常超出人們的想像。

在數據採集及大數據處理的時候,數據排重、相似度計算是很重要的一個環節,由此引入相似度計算算法。

但你知道我們在初中課本中學過的餘弦定理是如何完成相似度計算的嗎?

要揭開謎底,我們先來「三步走」。

一、TF-IDF單文本詞彙頻率/逆文本頻率值

1. 單文本詞彙頻率(TF: Term Frequency,是詞頻一詞的英文縮寫)

即一個詞在文中出現的次數。具體地講,如果一個查詢包含n個關鍵詞,它們在一個特定網頁中的詞頻分別是: TF1……TFn。

那麼,這個查詢和該網頁的相關性(即相似度)就是:T1+T2+…+Tn。

2. 逆文本頻率指數(Inverse Document Frequency,縮寫為IDF)

在詞頻的基礎上,要對每個詞分配一個「重要性」權重。

最常見的詞(「的」、「是」、「在」)給予最小的權重,較常見的詞(「中國」「北京」)給予較小的權重,較少見的詞(可能就是文章的主題詞)給予較大的權重。

這個權重叫做「逆文本頻率」,它的大小與一個詞的常見程度成反比。

概括地講,假定一個關鍵詞w在Dw個網頁中出現過,那麼Dw越大,w的權重越小,反之亦然。它的公式為logD/Dw,其中D是全部網頁數。

二、特徵向量

先看一下特徵向量的嚴格定義吧:

特徵向量是數學學科中的一個專業名詞,即線性變換的特徵向量(本徵向量)是一個非退化的向量。其方向在該變換下不變,該向量在此變換下縮放的比例稱為其特徵值(本徵值)。

一個線性變換通常可以由其特徵值和特徵向量完全描述,相同特徵值的特徵向量集合稱之為特徵空間。

嗯,這段話看看就好了。我們知道特徵向量是有方向的就好了。

接下來我們看看如何把一篇文章或一段話或一句話轉換成特徵向量。

首先,我們需要有一個詞彙表,比如是這樣的64000個詞:

其次,我們需要把輸入的文章或是段落或是語句進行分詞。目前市面常用的分詞器有很多,比如結巴分詞器、hanlp分詞器等,每種分詞器都有自己的優缺點,我們知道可以利用第三方的分詞工具幫助我們分詞就好了。

然後,就是最重要的一步,結合分詞結果,得到一個64000維的向量,比如是這樣的:

好了,現在對於每一個輸入,無論這篇文章多長,我們都能得到這樣一個向量。

例如向量1:[0,0.0034,0,0.00052,0…,0.034,…0.075]。

至此,我們已經完成了最重要的一步,把一篇篇文章變成一串串數字。是不是很有意思?

三、餘弦定理:向量距離的度量

好了,回顧一下餘弦定理。

只看夾角A。

如果把三角形的兩邊b和c看成是兩個以A為起點的向量,那麼上述公式等價於:

現在以兩篇文章為例,說明是如何進行計算的。

加入文章1和文章1對應的向量分別是x1,x2,…,x64000和y1,y2,…,y64000。

那麼他們夾角的餘弦等於:

計算所得的餘弦取值在0和1之間,也就是說夾角在0度到90度之間。

現在,結論閃亮登場:

  1. 當兩篇文章向量夾角的餘弦等於1時,這兩個向量的夾角為零,兩篇文章完全相同;
  2. 當夾角的餘弦接近於1時兩篇文章相似,從而可以歸成一類;
  3. 夾角的餘弦越小,夾角越大,兩篇文章越不相關;
  4. 當兩個向量正交時(90度),夾角的餘弦為零,說明兩篇文章根本沒有相同的主題詞,它們毫不相關。

四、餘弦定理總結

餘弦定理:通過對兩個文本分詞,TF-IDF算法向量化,對比兩者的餘弦夾角,夾角越小相似度越高,但由於有可能一個文章的特徵向量詞特別多導致整個向量維度很高,使得計算的代價太大不適合大數據量的計算。

餘弦定理的應用非常廣泛,我們在做智能問答系統中就用到餘弦定理做問題的相似度計算。

大概原理是這樣:用戶輸入問題1,系統對語料庫中的問題進行相似度計算,找出相似度最高的問題2,然後輸出問題2的答案。

可以看看下面的例子:

情況1:完全相同

情況2:相似

情況3:不相關

 

本文由@CARRIE 原創發布於人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基於CC0協議

相關焦點

  • AI產品經理必修:揭開算法的面紗
    正式開講之前,先大概了解一下,這個算法有哪些主要的應用場景。一個詞概括,進行預測。20世界80年代末李開復堅持採用隱馬爾可夫模型的框架,成功的開發了世界上第一個大詞彙量連續語音識別系統sphinx。本文由 @CARRIE 原創發布於人人都是產品經理。未經許可,禁止轉載題圖來自Unsplash,基於CC0協議
  • AI產品經理需要了解的數據知識:餘弦相似度
    本文概括介紹了餘弦相似度是什麼、如何應用以及案例說明,目的是希望我們產品經理在設計相關跟相似度功能或是利用相似性功能解決某一業務的場景時能利用上餘弦相似度,並希望您讀完對自己在設計相關推薦業務、搜索業務、識別業務時能有更深層次的理解。
  • 正弦定理和餘弦定理的證明過程匯總和適用的條件
    正弦定理和餘弦定理是解三角形的工具,它們使用的範圍不局限於直角三角形當中,可以在任意的三角形中使用。正弦定理在各個三角形中的證明過程正弦定理適用於任何的三角形中,而三角形可以分為三類,即直角三角形、銳角三角形、鈍角三角形。在直角三角形中的證明過程也是必修5中證明的過程。
  • 解三角形除了正餘弦定理,還可以用射影定理
    第一問很自然先想到正弦定理,發現可以接著利用和角公式化簡,得到sinB=sin(A-B),這個地方要注意角的範圍(0,π),B與(A-B)兩角關係一是相等,二是互補,其中一種情況不符合題意捨去。方法2利用餘弦定理稍顯複雜,主要原因是利用餘弦定理直接看不出方向,能想到用餘弦二倍角公式還是不容易的,而且要得到cosA=cos2B這個等量關係,推導過程計算是有點麻煩的,其實也就是有從結論入手反推,總之,這條路肯定行得通,但是不建議大家採用從射影定理入手,額~~~慢慢算吧做題就像回家
  • AI產品經理的入門必修——概念篇
    四、算法需要懂多少?確認算法的流程通常是由產品經理和算法工程師共同完成,包含:需求確定 -> 算法設計 -> 算法討論 -> 算法確認 -> 算法驗收 -> 持續改進。算法模型的選擇和訓練是個繁瑣且複雜的過程,依賴於具體所解決問題的複雜程度。產品經理除了要明確定位要解決的核心問題,還需要了解模型訓練的整個流程。很多人會說產品經理不需要了解這麼多,不是還有算法工程師嗎?
  • 30分鐘了解貝葉斯定理――AI產品經理了解的數學知識系列
    貝葉斯定理提供的是一種逆條件概率的方法,本文簡單總結了貝葉斯定理是什麼,貝葉斯定理應用的理解,以及貝葉斯定理在AI場景下的應用,目的是希望產品經理了解到這個定理的能力後,在設計相關推薦或是具有推理功能的應用場景,能通過貝葉斯定理來解決。
  • 正弦定理、餘弦定理
    正弦定理(Law of Sines)在一個三角形中,各邊和它所對角的正弦的比值相等。餘弦定理(Law of Cosines)三角形中任何一邊的平方 = 其它兩邊的平方和減去這兩邊與它們的夾角的餘弦的積的兩倍。
  • 【遠見】個人信息保護法將出臺 揭開數據算法的神秘「面紗」
    本期話題:揭開數據大算法的「面紗」。從「大數據殺熟」到「外賣員困在系統裡」,大數據算法愈發受到關注。從手機購物的「千人千面」,到金融放貸的「用戶畫像」,「算法」究竟是什麼?它是如何影響人的?從網絡安全法,到個人信息保護法、數據安全法,法規能否有效控制算法的「濫用」?如何讓算法更好地服務人,而不是侵犯人?
  • 常用推薦算法介紹 | 人人都是產品經理
    在本文中,作者主要是介紹了常見推薦算法的基本原理。對於向量和而言,他們的在多維空間的夾角可以用向量餘弦公式計算:餘弦相似度的值本身是一個0~1的值,0代表完全正交,1代表完全一致。就剛才用戶A和用戶B的例子而言,我們可以知道他們的相似度為:餘弦公式本身應用範圍很廣,量化相似度在搜索推薦,商業策略中都是常見問題,餘弦公式是很好的解決方案。
  • 3分鐘,搞懂餘弦定理
    餘弦定理是什麼?餘弦定理可以理解為是勾股定理在一般三角形中的擴展。勾股定理解決直角三角形的邊關係問題,餘弦定理則解決所有三角形的邊角關係問題。所以餘弦定理公式也是在勾股定理的基礎上,增加了角度要素而成。
  • 餘弦定理知識點總結及典型例題
    餘弦定理和正弦定理是高中階段解三角形的理論基礎,上期分享了正弦定理的基礎知識和常見題型,本期小編和大家分享一下餘弦定理的基礎知識和基本題型及常用解題技巧。一、基礎知識二、典型例題題型一、餘弦定理的基本概念總結:(1)在解三角形的時候,我們什麼時候選擇正弦定理什麼時候選擇餘弦定理呢?
  • 餘弦定理及其應用的深入剖析
    1.對餘弦定理的四點說明(1)勾股定理指出了直角三角形中三邊平方之間的關係,餘弦定理則指出了一般三角形中三邊平方之間的關係,餘弦定理是勾股定理的推廣,勾股定理是餘弦定理的特例.(2)與正弦定理一樣,餘弦定理揭示了三角形的邊角之間的關係,是解三角形的重要工具之一.(3)餘弦定理的三個等式中,每一個都包含四個不同的量,它們是三角形的三邊和一個角,知道其中的三個量,代入等式,就可以求出第四個量.(4)運用餘弦定理時,若已知三邊(求角)或已知兩邊及夾角(求第三邊),則由三角形全等的判定定理知,三角形是確定的,所以解也是唯一的.
  • 餘弦定理的定義公式及證明方法
    餘弦定理的定義公式及證明方法很多還沒有學到餘弦定理的同學們不知道什麼是餘弦定理,但是餘弦定理在很多題目的解答上都很簡便,有些題目如果同學們用餘弦定理解答會節約很多時間,今天有途網小編就來給大家講解一下餘弦定理。三角形任何一邊的平方等於其他兩邊平方的和減去這兩邊與他們夾角的餘弦的積的兩倍。
  • AI產品經理必懂算法:k-近鄰(KNN)算法
    作為想在AI領域長期發展的PM同學來說,對算法有一個初步、通識的了解是非常有必要的。今天我們就從一個最為簡單、易懂的「k-近鄰(KNN)算法」聊起,KNN屬於監督學習算法,即可以用於分類,也可以用於回歸,後續還會逐步為大家介紹一些常用的其他算法。
  • 一般三角形中的正弦定理和餘弦定理
    一般三角形的正弦定理在一般形狀的三角形ABC中的其中一個頂點向對邊作垂線,可形成兩個直角三角形,在這兩個三角形中,根據直角三角形中斜邊與直角邊的關係,可得這就是一般三角形中的正弦定理,它表示了邊和對角之間的比例關係。
  • 樸素貝葉斯:幫助AI產品經理「小步快跑,快速迭代」
    貝葉斯定理相信不少人都接觸過,這個看似只屬於數學領域的定理,在AI產品經理看來有怎樣的魅力呢?我們常常遇到這樣的場景。與友人聊天時,一開始可能不知道他要說什麼,但是他說了一句話之後,你就能猜到接下來他要講什麼內容。友人給的信息越多,我們越能夠推斷出他想表達的含義,這也是貝葉斯定理所闡述的思考方式。
  • 乾貨|解三角形之餘弦定理證明
    1.對餘弦定理的四點說明(1)勾股定理指出了直角三角形中三邊平方之間的關係,餘弦定理則指出了一般三角形中三邊平方之間的關係,餘弦定理是勾股定理的推廣,勾股定理是餘弦定理的特例(2)與正弦定理一樣,餘弦定理揭示了三角形的邊角之間的關係,是解三角形的重要工具之一.(3)餘弦定理的三個等式中,每一個都包含四個不同的量,它們是三角形的三邊和一個角,知道其中的三個量,代入等式,就可以求出第四個量.
  • 餘弦定理的多種證明方法
    大家好,今天我們來看看餘弦定理的證明方法,有好多種,我試試看今天能寫多少種?餘弦定理:指三角形任何一邊的平方等於其他兩邊平方的和減去這兩邊與他們夾角的餘弦的積的兩倍。即在△ABC中,已知AB=c,AC=b,BC=a,則有
  • 高一數學篇:兩角和與差的餘弦公式(必修1)
    必修1--第82課時:兩角和與差的餘弦公式
  • 關於正餘弦定理的推導
    關於正餘弦定理的推導 數學城堡今天數學城堡帶著大家來一起推導一下正餘弦定理,餘弦定理很簡單一步帶過只需要利用向量,最後兩邊平方即可,詳見電子稿證明下面我們主要來證明正弦定理如果這個三角形是直角三角形,正弦定理很明顯成立,下面證明其他情況也符合正弦定理我給大家一個 圓O ,這個圓呢有一個弦 AB,這個 AB對的圓周角呢是角ACB ,一條弦對應的兩類圓周角如圖所示,角1+角2=180度,其正弦值相等!