AI產品經理必修——揭開算法的面紗(1)

2020-12-08 人人都是產品經理

自從個人入門AI產品經理以來,在網絡上搜索了大量的學習資料,卻始終知其雲不知其所以雲,算法就一定是晦澀難懂的嗎?

我們都知道,人工智慧產品由數據、算力、算法三部分組成。作為一名傳統行業的產品經理,數據和算力好歹看詞彙能夠知其一,唯獨這個高高在上的算法讓人傷透了腦筋。自從個人入門AI產品經理以來,在網絡上搜索了大量的學習資料,卻始終知其雲不知其所以雲,算法就一定是晦澀難懂的嗎?

我想說,NO!讓我們一起來揭開算法神秘的面紗。

什麼是算法?

算法就是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令。算法代表著用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規範的輸入,在有限時間內獲得所要求的輸出。

簡單理解,算法和紅燒鯽魚的處理流程很類似,如下圖:

計算機算法,是用計算機解決問題的方法、步驟。解決不同的問題,需要不同的算法。

具體理解什麼是算法, 一個非常典型的例子, 排序就是一個很經典的算法, 雜亂無章的數字堆在一起, 我們要一從大到小給它排列出來。然後,我們會規定一個過程, 讓這串數據進去, 然後整齊從大到小的出來,這就是一個算法。

我們可以如何做呢?

有無數種方法,最簡單的讓每個數據從左到右與旁邊數據比較,每次遇到比自己大的,就右移一格,遇到不如自己的,就不動。這樣下來,然後那個小的繼續比較,這樣最小的那個就沉到最後,這樣再對剩下的數處理,往復循環,就可以從小到大的出來。

當然我們可以發明無數過程實現這個東西,比如插入法,堆排序等。但是萬變不離其綜的是,一個可以自動實現的過程,每一步按照一定規則行進,得到一個我們想要的結果。我們可以看到算法是把人的邏輯過程給自動化了。

介紹一種信息檢索中最常用的算法——TF-IDF

在信息檢索中,TF-IDF(詞頻-逆文檔頻率)是一種統計方法,用以評估一個單詞在一個文檔集合或語料庫中的重要程度。經常被用作信息檢索、文本挖掘以及用戶模型的權重因素。tf-idf的值會隨著單詞在文檔中出現的次數的增加而增大,也會隨著單詞在語料庫中出現的次數的增多而減小。TF-IDF是如今最流行的詞頻加權方案之一。

TF-IDF的各種改進版本,經常被搜尋引擎用作在給定用戶查詢時,對文檔的相關性進行評分和排序的主要工具。TF-IDF可以成功地用於各種主題欄位的停用詞過濾,包括文本摘要和分類。

典型應用場景:如何針對某個查詢,找到最相關的網頁?

(1)什麼是TF?

需要根據網頁的長度,對關鍵詞的次數進行歸一化,也就是用關鍵詞的次數除以網頁的總字數。我們把這個商稱為「關鍵詞的頻率」,或者「單文本詞頻(TF:Term Frequency)

短語「原子能的應用」可以分成三個關鍵詞:原子能,的,應用。

例如,某個網頁上一共有1000個詞,其中「原子能」、「的」和「應用」分別出現了2次、35次和5次,那麼它們的詞頻就分別是0.002、0.035 和0.005。將這三個數相加,其和0.042就是相應網頁和查詢「原子能的應用」的「單文本詞頻」。

(2)什麼是IDF?

假定一個關鍵詞w在DW個網頁中出現過,那麼DW越大,w的權重越小,反之亦然。在信息檢索中,這個權重稱為「逆文本頻率指數」(IDFInverse Document Frequency)。

這個概率解釋得更通俗一點:

一個詞預測主題的能力越強,權重越大,反之,權重越小。停止詞的權重為零。比如,假定中文網頁數是D=10億。停止詞「的」在所有網頁中都出現,即DW=10億,那麼它的IDF=log(10億/10億)=log(1)=0 ; 假如「原子能」在200萬個網頁中出現,即DW=200萬,那麼它的IDF=log(200萬/10億)=log(500)=8.96 ;假如通用詞「應用」在5億個網頁中出現,即DW=5億,那麼它的IDF=log(5億/10億)=log(2)=1 . 0.01792。

(3)什麼是TF-IDF?

上述相關性的計算公式就由詞頻的簡單求和變成了加權求和,即:TF1·IDF1 + TF2·IDF2 + …… + TFn·IDFn

從以上計算公式便可以看出,某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向於過濾掉常見的詞語,保留重要的詞語。

在上面的例子中,該網頁和「原子能的應用」的相關性為0.0161,其中「原子能」貢獻了0.0126,而「應用」只貢獻了0.0035.這個比例和我們的直覺就比較一致了。

通過大量網頁的計算,我們就可以把相關性最高的網頁作為檢索結果呈現給用戶,這就是最直接的評分和排序的應用了。

怎麼樣,是不是很簡單?是不是很神奇?

後續

如果你們都聽懂了,接下來我們可以再來講講

隱含馬爾可夫模型最大熵模型動態規劃維特比算法期望最大值算法等等本文由 @CARRIE 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關焦點

  • 轉型AI產品經理,原來不需要學那麼深的算法和數學模型
    本文作者是從網際網路產品經理轉型成了AI工程師,其文章特點是能通過簡單有趣的文字介紹AI技術概念。本文是他的第一篇文章,以饗大家。Hello,World!大概可以用以下幾個標籤簡單概括我:前網際網路產品經理、大學學渣、非計算機專業、不懂編程,可以說是除了瞎逼逼,啥也不會…
  • 【遠見】個人信息保護法將出臺 揭開數據算法的神秘「面紗」
    本期話題:揭開數據大算法的「面紗」。從「大數據殺熟」到「外賣員困在系統裡」,大數據算法愈發受到關注。從手機購物的「千人千面」,到金融放貸的「用戶畫像」,「算法」究竟是什麼?它是如何影響人的?從網絡安全法,到個人信息保護法、數據安全法,法規能否有效控制算法的「濫用」?如何讓算法更好地服務人,而不是侵犯人?
  • 機器學習必修:決策樹算法(Decision Tree)
    決策樹是AI產品經理在工作中經常會用到的一個機器算法,為了更清晰地了解決策樹算法,本文從三個方面全面介紹了決策樹的概念,流程和應用,希望對你有幫助。你是否玩過20個問題的遊戲?準備數據:樹構造算法只適用於標稱型數據,因此數值型數據必須離散化。分析數據:可以使用任何方法,構造樹完成後,我們應該檢查圖形是否符合預期。訓練算法:構造樹的數據結構。測試算法:使用經驗樹計算錯誤率。
  • 恆馳1路跑及內飾曝光 恆大汽車研發團隊揭開神秘面紗
    恆馳1路跑及內飾曝光 恆大汽車研發團隊揭開神秘面紗金羊網  作者:莫曉航  2020-12-09 隨著恆馳1路跑曝光,其背後的恆大汽車研發團隊也逐漸揭開神秘的面紗。
  • 天能電池數字工廠TOS項目揭開神秘面紗,不斷加碼數位化轉型
    [摘要]近日,由天能部品事業部主導的數字工廠TOS項目,在青創園揭開神秘面紗。 關於天能數字工廠TOS項目 近日,由天能部品事業部主導的數字工廠TOS項目,在青創園揭開神秘面紗
  • AI產品經理需要了解的數據知識:餘弦相似度
    本文概括介紹了餘弦相似度是什麼、如何應用以及案例說明,目的是希望我們產品經理在設計相關跟相似度功能或是利用相似性功能解決某一業務的場景時能利用上餘弦相似度,並希望您讀完對自己在設計相關推薦業務、搜索業務、識別業務時能有更深層次的理解。
  • 揭開「散爆新品」神秘面紗 今冬育碧或成最大贏家
    揭開「散爆新品」神秘面紗 今冬育碧或成最大贏家 來源:www.18183.com作者:曉鏑時間:2020-05-17 分享到:
  • 洋河股份夢之藍水晶版揭開神秘面紗
    原標題:洋河股份夢之藍水晶版揭開神秘面紗2009年高端白酒業界標杆洋河股份發布夢之藍系列產品。經十一年的時間夢之藍系列以時尚優雅的外形外俘獲千萬粉絲,更是以其晶亮明澈的酒液,獨到醇厚的酒香久久留於消費者的唇齒之間,深深刻畫於消費者的心間上。而今,備受關注的明星產品夢之藍水晶版神秘面紗的揭開更是引起了廣大消費者的注意與傳播,夢之藍水晶版到底有什麼獨特的魅力呢?
  • 《刺客信條》中文故事導覽 揭開聖殿騎士的神秘面紗
    《刺客信條》中文故事導覽 揭開聖殿騎士的神秘面紗 更多相關資訊請關注:刺客信條:英靈殿專區 1 2 3 下一頁友情提示:支持鍵盤左右鍵「← →」翻頁
  • 產品經理是誰?產品經理是做什麼的人?產品經理調色板
    但作為一名產品經理,我不能用比喻的方法定義產品經理這個職位,它需要一個定義。慶幸的是,我在一本書中找到了行業更權威人士對產品經理的定義:產品經理就是以解決問題為核心,整合和管理各種人力、物力等資源,高效的將解決方案變成實際產品輸出的領導者。
  • 產品經理能力模型二三話
    一、 對自己有所啟發的能力模型1. 騰訊的產品經理能力模型剛入行的時候,也參加過培訓班,當時大概是大四。培訓班的主講是騰訊的一位PM,在課上,他給我們展示了騰訊產品經理的能力模型,參見下表。表格中所列的能力模型現在已經流傳很廣了。
  • 以色列揭開希律王宮面紗 曾被猶太國王埋葬近2000年仍保存完好
    本文轉自【ICphoto】;以色列揭開希律王宮面紗 曾被猶太國王埋葬近2000年仍保存完好本文轉自【ICphoto】;以色列揭開希律王宮面紗 曾被猶太國王埋葬近2000年仍保存完好本文轉自【ICphoto】;以色列揭開希律王宮面紗 曾被猶太國王埋葬近2000年仍保存完好本文轉自【ICphoto】;以色列揭開希律王宮面紗 曾被猶太國王埋葬近2000
  • 揭開「散爆新品」神秘面紗,今冬育碧或成最大贏家?
    5月15日,《少女前線》舉辦了四周年直播暨新品發布會,在現場不僅對過去四年進行了回顧,而且透露了今後一段時間內的聯動計劃以及即將上新的周邊產品。除此之外,在新品發布環節更是爆點不斷,公布了大量未公開內容以及神秘的重磅消息。
  • 全球首發 揭開CAT®(卡特)349挖掘機神秘面紗
    揭開神秘面紗 CAT®(卡特)349挖掘機全球首發2019年5月29日,華北利星行機械北京新總部盛大開業。在產品展示車間,與會嘉賓共同見證了卡特彼勒新一代大型智能挖掘機Cat®(卡特)349的全球首發。
  • 揭開「散爆新品」神秘面紗,今秋育碧或成最大贏家?
    5月15日,《少女前線》舉辦了四周年直播暨新品發布會,在現場不僅對過去四年進行了回顧,而且透露了今後一段時間內的聯動計劃以及即將上新的周邊產品。除此之外,在新品發布環節更是爆點不斷,公布了大量未公開內容以及神秘的重磅消息。2015年10月,散爆網絡科技有限公司在上海成立,其主要作品為二次元戰旗策略手遊《少女前線》。
  • 揭開「散爆新品」神秘面紗,今冬育碧或成最大贏家
    5月15日,《少女前線》舉辦了四周年直播暨新品發布會,在現場不僅對過去四年進行了回顧,而且透露了今後一段時間內的聯動計劃以及即將上新的周邊產品。除此之外,在新品發布環節更是爆點不斷,公布了大量未公開內容以及神秘的重磅消息。2015年10月,散爆網絡科技有限公司在上海成立,其主要作品為二次元戰旗策略手遊《少女前線》。
  • 產品經理如何寫出一份「簡練」的PRD
    導語:寫好PRD文檔是產品經理的必修功課,但這門「必修課」卻沒有統一的課本和答案,本篇文章適用於初入職場的產品新人。本文作者工作於BAT大廠,工作期間寫過多份PRD,將結合作者個人經驗並結合大廠同事的寫法,總結一下如何寫出一份「簡練」的PRD。
  • 探盤| 堯化門「地王」揭開面紗
    堯化門「地王」揭開面紗隨著今年限價放鬆,堯化門「地王」棲霞魯能公館時隔經過三年多的漫長等候,終於公開了售樓處,「面紗」首被揭開。由於是現房銷售,項目外立面也早已建成,8棟樓外立面均已建成,預計6月底首開1#、4#,共計200餘套精裝房源,3梯6戶,戶型建面約89-143㎡。
  • 月塵測量儀:揭開月亮女神的神秘面紗
    原標題:月塵測量儀:揭開月亮女神的神秘面紗   12月15日下午16時15分,由中國航天科技集團公司所屬中國空間技術研究院510所研製的嫦娥三號月塵測量儀首次開機進行月面環境月塵量測量。這些顆粒一方面像麵粉一樣細小,一方面又像鋼珠一樣堅硬耐磨,它們很容易在自然或人為的因素作用下,被擾動而懸浮在月球表面,就像一層薄薄的面紗,為月球探測器順利工作設置下第一道障礙。
  • 徵服原子—揭開原子的神秘面紗
    徵服原子-揭開原子的神秘面紗偉大的科學家費曼說:「假如只允許把人類的科學史壓縮成一句話,它就會是——一切東西都是由原子構成」。人類在探索物質是由什麼構成的歷史長河中,充滿了智慧。(1)1803年,近代化學之父,英國科學家道爾頓(Dalton J)在前人研究的基礎上,提出「道爾頓原子論」:一切物質都由原子構成,原子很小、呈圓球狀、不可再分……但由於受當時實驗條件限制,道爾頓無法用事實證明自己的觀點。1811年,義大利化學家阿伏伽德羅提出:有些物質也是由分子構成,原子的基本工作形式是分子。