自從個人入門AI產品經理以來,在網絡上搜索了大量的學習資料,卻始終知其雲不知其所以雲,算法就一定是晦澀難懂的嗎?
我們都知道,人工智慧產品由數據、算力、算法三部分組成。作為一名傳統行業的產品經理,數據和算力好歹看詞彙能夠知其一,唯獨這個高高在上的算法讓人傷透了腦筋。自從個人入門AI產品經理以來,在網絡上搜索了大量的學習資料,卻始終知其雲不知其所以雲,算法就一定是晦澀難懂的嗎?
我想說,NO!讓我們一起來揭開算法神秘的面紗。
什麼是算法?
算法就是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令。算法代表著用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規範的輸入,在有限時間內獲得所要求的輸出。
簡單理解,算法和紅燒鯽魚的處理流程很類似,如下圖:
計算機算法,是用計算機解決問題的方法、步驟。解決不同的問題,需要不同的算法。
具體理解什麼是算法, 一個非常典型的例子, 排序就是一個很經典的算法, 雜亂無章的數字堆在一起, 我們要一從大到小給它排列出來。然後,我們會規定一個過程, 讓這串數據進去, 然後整齊從大到小的出來,這就是一個算法。
我們可以如何做呢?
有無數種方法,最簡單的讓每個數據從左到右與旁邊數據比較,每次遇到比自己大的,就右移一格,遇到不如自己的,就不動。這樣下來,然後那個小的繼續比較,這樣最小的那個就沉到最後,這樣再對剩下的數處理,往復循環,就可以從小到大的出來。
當然我們可以發明無數過程實現這個東西,比如插入法,堆排序等。但是萬變不離其綜的是,一個可以自動實現的過程,每一步按照一定規則行進,得到一個我們想要的結果。我們可以看到算法是把人的邏輯過程給自動化了。
介紹一種信息檢索中最常用的算法——TF-IDF
在信息檢索中,TF-IDF(詞頻-逆文檔頻率)是一種統計方法,用以評估一個單詞在一個文檔集合或語料庫中的重要程度。經常被用作信息檢索、文本挖掘以及用戶模型的權重因素。tf-idf的值會隨著單詞在文檔中出現的次數的增加而增大,也會隨著單詞在語料庫中出現的次數的增多而減小。TF-IDF是如今最流行的詞頻加權方案之一。
TF-IDF的各種改進版本,經常被搜尋引擎用作在給定用戶查詢時,對文檔的相關性進行評分和排序的主要工具。TF-IDF可以成功地用於各種主題欄位的停用詞過濾,包括文本摘要和分類。
典型應用場景:如何針對某個查詢,找到最相關的網頁?
(1)什麼是TF?
需要根據網頁的長度,對關鍵詞的次數進行歸一化,也就是用關鍵詞的次數除以網頁的總字數。我們把這個商稱為「關鍵詞的頻率」,或者「單文本詞頻」(TF:Term Frequency)。
短語「原子能的應用」可以分成三個關鍵詞:原子能,的,應用。
例如,某個網頁上一共有1000個詞,其中「原子能」、「的」和「應用」分別出現了2次、35次和5次,那麼它們的詞頻就分別是0.002、0.035 和0.005。將這三個數相加,其和0.042就是相應網頁和查詢「原子能的應用」的「單文本詞頻」。
(2)什麼是IDF?
假定一個關鍵詞w在DW個網頁中出現過,那麼DW越大,w的權重越小,反之亦然。在信息檢索中,這個權重稱為「逆文本頻率指數」(IDF:Inverse Document Frequency)。
這個概率解釋得更通俗一點:
一個詞預測主題的能力越強,權重越大,反之,權重越小。停止詞的權重為零。比如,假定中文網頁數是D=10億。停止詞「的」在所有網頁中都出現,即DW=10億,那麼它的IDF=log(10億/10億)=log(1)=0 ; 假如「原子能」在200萬個網頁中出現,即DW=200萬,那麼它的IDF=log(200萬/10億)=log(500)=8.96 ;假如通用詞「應用」在5億個網頁中出現,即DW=5億,那麼它的IDF=log(5億/10億)=log(2)=1 . 0.01792。
(3)什麼是TF-IDF?
上述相關性的計算公式就由詞頻的簡單求和變成了加權求和,即:TF1·IDF1 + TF2·IDF2 + …… + TFn·IDFn
從以上計算公式便可以看出,某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向於過濾掉常見的詞語,保留重要的詞語。
在上面的例子中,該網頁和「原子能的應用」的相關性為0.0161,其中「原子能」貢獻了0.0126,而「應用」只貢獻了0.0035.這個比例和我們的直覺就比較一致了。
通過大量網頁的計算,我們就可以把相關性最高的網頁作為檢索結果呈現給用戶,這就是最直接的評分和排序的應用了。
怎麼樣,是不是很簡單?是不是很神奇?
後續
如果你們都聽懂了,接下來我們可以再來講講
隱含馬爾可夫模型最大熵模型動態規劃維特比算法期望最大值算法等等本文由 @CARRIE 原創發布於人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議