AI產品經理必修:揭開算法的面紗

2020-12-04 人人都是產品經理

隱馬爾可夫模型目前陸續成功地應用於機器翻譯、拼寫糾錯、手寫體識別、圖像處理、基因序列分析等領域。近20年來,它廣泛應用於股票預測和投資。本文拋棄那些眼花繚亂的數學公式,去看看隱含馬爾可夫模型到底是什麼?怎麼用?

相信只要是涉足人工智慧領域,你都會聽到這樣一個神秘的名字-隱含馬爾可夫模型。是的,看了一圈文章和資料後,除了知道馬爾可夫是個聰明絕頂的人,其他的就啥也不知道了。

正式開講之前,先大概了解一下,這個算法有哪些主要的應用場景。

一個詞概括,進行預測。

20世界80年代末李開復堅持採用隱馬爾可夫模型的框架,成功的開發了世界上第一個大詞彙量連續語音識別系統sphinx。接下來,隱馬爾可夫模型陸續成功地應用於機器翻譯、拼寫糾錯、手寫體識別、圖像處理、基因序列分析等領域。近20年來,它廣泛應用於股票預測和投資。

今天,我想拋棄那些眼花繚亂的數學公式,去看看隱含馬爾可夫模型到底是什麼?怎麼用?

一、隱含馬爾可夫模型是什麼?

我們還是分成三個階段來了解。

概念一:馬爾可夫假設

隨機過程中各個狀態st的概率分布,只與它前一個狀態st-1有關。

舉一個例子,我們可以把S1 ,S2,S3…St…看做北京每天的最高氣溫,這裡面的每個狀態St都是隨機的。理論上,任何一天的最高氣溫St取值都可能和這段時間以前的最高氣溫是相關的。

馬爾可夫這個大神為了簡化問題,做出了如上圖的簡化的假設。回到上面的例子,第二天的最高氣溫只跟昨天有關而與其他日期沒有任何關聯。

概念二:馬爾可夫鏈

符合馬爾可夫假設的隨機過程稱為馬爾可夫過程,也稱為馬爾可夫鏈。

在這個馬爾可夫鏈中,四個圈表示四個狀態,每條邊表示一個可能的狀態轉換,邊上的權值是轉移概率。

例如:某個時刻t的狀態St是m2,則下一個時刻St+1=m3的概率是0.6,用數學符號表示是P(St+1=m3|St=m2)=0.6。

把這個馬爾可夫鏈想像成一臺機器,它隨機選擇一個狀態作為初始狀態,然後按照上述規則隨機選擇後續狀態。

結果可能如下:

S1=m1S2=m2 S3=m3 S4=m4S1=m2 S2=m4 S1=m3 S2=m3 S3=m4 ……這樣經過一段時間的運轉,就會產生一個狀態序列S1,S2,S3… St。我們可以數出mi出現的次數,以及mi轉換到mj的轉移概率。基於馬爾可夫假設,每一個狀態只與前一個狀態相關,例如從m3轉移到m4,不論在此之前是怎麼進入m3,這個概率都是0.3。

概念三:隱含馬爾可夫模型

隱馬爾可夫模型是上述馬爾可夫鏈的一個擴展:任一時刻t的狀態st是不可見的。所以觀察者沒法通過觀察到一個狀態序列s1,s2,s3,…sT-1來推測轉移概率等參數。但是,隱馬爾可夫在每個時刻t會輸出一個符號ot,而且ot和st相關而且僅和st相關。這個被稱為獨立輸出假設。

隱馬爾可夫模型結構如下:

其中包含的狀態s1,s2,s3,s4是一個典型的馬爾可夫鏈。鮑姆把這種模型稱為「隱含」馬爾可夫模型。

那麼,問題來了,什麼是隱患狀態?

從馬爾可夫鏈中,我們看到的都是可見狀態啊。這個問題真的困擾了我很久,我找了大量的資料,發現還是這樣一個經典例子能夠解釋得清楚,請看:

假設我手裡有三個不同的骰子。第一個骰子是我們平常見的骰子(稱這個骰子為D6),6個面,每個面(1,2,3,4,5,6)出現的概率是1/6。第二個骰子是個四面體(稱這個骰子為D4),每個面(1,2,3,4)出現的概率是1/4。第三個骰子有八個面(稱這個骰子為D8),每個面(1,2,3,4,5,6,7,8)出現的概率是1/8。

現在,我們開始擲骰子,得到如下結果:

看出來了吧?什麼是隱含狀態?擲出來的數字是可見的,但是每次取哪個骰子,我們是不是不知道?

回到隱含馬爾可夫模型,符號ot就是我們擲出來得數字(1,2,3,4,5,6,7,8),隱患狀態st就是我們擲得骰子(D6,D4,D8)。

現在,我們以擲骰子為例,來總結一下隱患馬爾可夫模型得幾個構成要素:

可見狀態集:D6的可見狀態集(1,2,3,4,5,6),D4的可見狀態集(1,2,3,4),D8的可見狀態集(1,2,3,4,5,6,7,8)隱患狀態集:上圖中的隱含狀態集為D6,D8,D8,D6,D4……初始(隱含)狀態轉移概率:比如,第一次拿到D6,D4和D8的概率分別是0.1,0.4,0.5。(隱含)狀態轉移概率:比如,我們可以這樣定義,D6後面不能接D4,D6後面是D6的概率是9,是D8的概率是0.1。(隱含狀態至可見狀態的)輸出概率:就我們的例子來說,六面骰(D6)產生1的輸出概率是1/6。產生2,3,4,5,6的概率也都是1/6,我們同樣可以對輸出概率進行其他定義。比如:我有一個被賭場動過手腳的六面骰子,擲出來是1的概率更大,是1/2,擲出來是2,3,4,5,6的概率是1/10。

二、隱含馬爾可夫模型能解決什麼問題?

通用地講,圍繞HMM有三種類型的問題:

給定一個模型,如何計算某個特定的輸出序列的概率。(概率計算問題)給定一個模型和某個特定的輸出序列,如何找到最可能產生這個輸出的狀態序列。(解碼,預測問題)給定足夠的觀測數據,如何估計隱馬爾可夫模型的參數。(非監督學習方法)目前來說,第二種問題最常用,【中文分詞】【語音識別】【新詞發現】【詞性標註】都有它的一席之地。

隱含馬爾可夫模型的應用

講到這,隱馬爾可夫模型的理論定義和三個問題都介紹完畢,新問題又來了,這個模型到底有什麼用?

接下來請看一下典型的通信系統是什麼樣子的,想必「隱馬爾可夫模型有什麼用」這個問題便不攻自破了。

發送者(人或者機器)發送信息時,需要採用一種能在媒體中(比如空氣、電線)傳播的信號,比如語音或者電話線的調製信號,這個過程就是廣義上的編碼然後通過媒體傳播到接收方,這個過程是信道傳輸在接收方,接收者(人或者機器)根據事先約定好的方法,將這些信號還原成發送者的信息,這個過程是廣義上的解碼其中S1,S2,S3,…表示信息源發出的信號,比如手機發送的信號。O1,O2,O3,…是接收器(比如另一部手機)接收到的信號。通信中的解碼就是根據接收到的信號O1,O2,O3,…,還原出發送的信號S1,S2,S3,…。

這跟自然語言處理又有什麼關係?不妨換個角度來考慮這個問題,所謂的語音識別,就是聽者(機器)去猜測說話者要表達的意思。這就像通信系統中,接收端根據收到的信號去還原出發送端發出的信號。

在通信中,如何根據接收端的觀測信號O1,O2,O3,…來推測信號源發送的信息S1,S2,S3,…呢?只需要從所有的源信息中找到最可能產生出觀測信號的那一個信息。

同樣,很多自然語言處理的應用也可以這樣理解。在從漢語到英語的翻譯中,說話者講的是漢語,但是信道傳播編碼的方式是英語,如果利用計算機,根據接收到的英語信息,推測說話者的漢語意思,就是機器翻譯。

同樣,如果根據帶有拼寫錯誤的語句推測說話者想表達的正確意思,那就是自動糾錯。這樣,幾乎所有的自然語言處理問題都可以等價成通信的解碼問題。

本文由 @CARRIE 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關焦點

  • AI產品經理必修——揭開算法的面紗(餘弦定理)
    餘弦定理作為初中課本就學過的知識,AI產品經理將會把它運用到相似度計算當中。在數據採集及大數據處理的時候,數據排重、相似度計算是很重要的一個環節,由此引入相似度計算算法。但你知道我們在初中課本中學過的餘弦定理是如何完成相似度計算的嗎?要揭開謎底,我們先來「三步走」。一、TF-IDF單文本詞彙頻率/逆文本頻率值1.
  • AI產品經理的入門必修——概念篇
    四、算法需要懂多少?確認算法的流程通常是由產品經理和算法工程師共同完成,包含:需求確定 -> 算法設計 -> 算法討論 -> 算法確認 -> 算法驗收 -> 持續改進。算法模型的選擇和訓練是個繁瑣且複雜的過程,依賴於具體所解決問題的複雜程度。產品經理除了要明確定位要解決的核心問題,還需要了解模型訓練的整個流程。很多人會說產品經理不需要了解這麼多,不是還有算法工程師嗎?
  • AI產品經理必懂算法:k-近鄰(KNN)算法
    作為想在AI領域長期發展的PM同學來說,對算法有一個初步、通識的了解是非常有必要的。今天我們就從一個最為簡單、易懂的「k-近鄰(KNN)算法」聊起,KNN屬於監督學習算法,即可以用於分類,也可以用於回歸,後續還會逐步為大家介紹一些常用的其他算法。
  • 關於AI學習方法的思考——產品經理入門人工智慧
    這裡引用《終極算法》一書中的思想:【機器學習是工具,我們理解自己將要使用的工具會費些工夫,但遇到問題時,你會發現「了解工具」所帶來的幫助遠遠大於你為此付出的努力】。好了,目前已經介紹完機器學習是怎樣一種技術了。對於產品經理來說,應用機器學習技術,提升產品價值可能是最關注的事情了,下面我來分享一下我對機器學習提升產品價值的一些思考。
  • AI產品經理的定義和分類
    本文包含4個部分: 一、網際網路產品經理的定義和分類 二、「行業周期」對產品經理定義和分類的影響 三、AI產品經理的定義 四、AI產品經理的分類 在闡釋「AI產品經理」之前,咱們先了解下「網際網路產品經理」的定義和分類;在百度百科上,是這麼寫的—— IPM (Internet Product Manager
  • 樸素貝葉斯:幫助AI產品經理「小步快跑,快速迭代」
    貝葉斯定理相信不少人都接觸過,這個看似只屬於數學領域的定理,在AI產品經理看來有怎樣的魅力呢?我們常常遇到這樣的場景。與友人聊天時,一開始可能不知道他要說什麼,但是他說了一句話之後,你就能猜到接下來他要講什麼內容。友人給的信息越多,我們越能夠推斷出他想表達的含義,這也是貝葉斯定理所闡述的思考方式。
  • AI產品經理需要了解的語音交互評價指標
    enjoy~最近,在飯糰「AI產品經理大本營」裡,有團員提問:如何制定針對自然語言語音交互系統的評價體系?有沒有通用的標準?例如在車載環境中,站在用戶角度,從客觀,主觀角度的評價指標?看過報導,說iPhone 4s出現Siri,但直到iPhone 6s之後才允許不接電源的情況下直接喊「Hey Siri」進行語音喚醒;這是因為有6s上有一顆專門進行語音激活的低功耗晶片,當然算法和硬體要進行配合,算法也要進行優化。以上a、b、d相對更重要。
  • AI產品經理的入門必修課(4)——知識圖譜
    編輯導語:通過知識圖譜,不僅可以將網際網路的信息表達成更接近人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式;本文作者分享了關於AI產品經理的知識圖譜簡介以及利用,我們一起來了解一下。
  • 常用推薦算法介紹 | 人人都是產品經理
    在本文中,作者主要是介紹了常見推薦算法的基本原理。這裡其實是需要根據產品的具體情況進行調整。4. 基於用戶的協同過濾基於用戶的協同過濾(user-based CF),通過用戶對不同內容的行為,來評測用戶之間的相似性,基於用戶之間的相似性做出推薦。這部分推薦本質上是給相似的用戶推薦其他用戶喜歡的內容,一句話概括就是:和你類似的人還喜歡下列內容。
  • 【遠見】個人信息保護法將出臺 揭開數據算法的神秘「面紗」
    本期話題:揭開數據大算法的「面紗」。從「大數據殺熟」到「外賣員困在系統裡」,大數據算法愈發受到關注。從手機購物的「千人千面」,到金融放貸的「用戶畫像」,「算法」究竟是什麼?它是如何影響人的?從網絡安全法,到個人信息保護法、數據安全法,法規能否有效控制算法的「濫用」?如何讓算法更好地服務人,而不是侵犯人?
  • 興業證券金工首席集體亮相 揭開量化投資神秘面紗
    原標題:興業證券金工首席集體亮相 揭開量化投資神秘面紗 來源:新浪財經原標題:興·訪談 | 論賣方研究員的自我修養!興證金工首席集體亮相 揭開量化投資神秘面紗來源:興業證券訂閱號在很多投資者眼中,量化投資一直是一個神秘的存在,通過海量的處理數據和高頻次的交易,從股票市場的數據海洋中找到一條通往彼岸的方舟,這看似是一件不可能完成的任務。而在證券分析師中,有這樣一群人,他們通過在計算機上建模編程,對市場進行預測和交易,通過計算機交易來克服人性的弱點。他們就是金融工程分析師。
  • 人臉識別:AI產品經理需要了解的CV通識
    最近整理了CV方向的一些產品基礎知識,我的上一篇文章《看AI產品經理如何介紹「計算機視覺」(基於實戰經驗和案例)》算是這個系列的第一篇;本文是本系列下的第二篇,主要針對人臉識別進行梳理。後續還會有多目標跟蹤、OCR等方向的內容。
  • AI產品經理的必修課:系統化思維
    2、產品經理一定要具備的能力:將一件事精確定義到可以復現的地步知道和學會是有區別的。產品經理要養成一個習慣,精確定義身邊的所有問題,一些現象到底是什麼?哪怕友情,溝通,都可以定義。定義的標準就是可以在任何一個場景可以復現。
  • 30分鐘了解貝葉斯定理――AI產品經理了解的數學知識系列
    貝葉斯定理提供的是一種逆條件概率的方法,本文簡單總結了貝葉斯定理是什麼,貝葉斯定理應用的理解,以及貝葉斯定理在AI場景下的應用,目的是希望產品經理了解到這個定理的能力後,在設計相關推薦或是具有推理功能的應用場景,能通過貝葉斯定理來解決。
  • AI產品經理需要了解的數據知識:餘弦相似度
    本文概括介紹了餘弦相似度是什麼、如何應用以及案例說明,目的是希望我們產品經理在設計相關跟相似度功能或是利用相似性功能解決某一業務的場景時能利用上餘弦相似度,並希望您讀完對自己在設計相關推薦業務、搜索業務、識別業務時能有更深層次的理解。
  • 會是誰最後幹掉了產品經理?
    編輯導語:產品經理這個行業還會存在多久呢?誰又會代替產品經理這個崗位?本文作者對這個問題進行了思考,並且找到了一些產品經理不被替代的理由。只有這樣,產品經理才可以從容進化,無懼未來。產品經理距離「物種滅絕」還有多久?這是一個沉重的話題,比話題更沉重的,是現實。
  • AI產品經理需要了解的概率論通識:4個概念3個問題
    我認為AI產品經理應該學一些概率知識,是否理解概率,直接決定一個人對AI智能的了解程度。現階段的自然語音處理,圖像識別,等都已不是專家系統,而是以數學為基礎,以概率論為方法,以算法為模型的最優解決方案。下面就了解一下幾個概率論概念:一、概率論概念1.
  • 揭開神秘面紗,原來你是這樣的梵淨山
    揭開神秘面紗,原來你是這樣的梵淨山 2020-12-03 09:54 來源:澎湃新聞 政務
  • 【禁毒知識】揭開「毒仙人掌」的面紗
    今天,小編將帶您揭開「毒仙人掌」的面紗。在廣袤的格蘭德河谷荒漠上(墨西哥北部和美國西南部兩國交界),有一種生存能力極強,生長茂盛的無刺仙人球,這種仙人球,是仙人掌科烏羽玉屬仙人球,是一種沒有刺的多肉多漿植物。大致呈圓形,飽滿柔潤,憨憨可愛,猶如橙子一樣大小,在球形莖頂部的芽苞上,有鳥羽狀的軟毛,加之其質地滑嫩如玉,烏羽玉由此得名。
  • 其實,ai不止是一項科技,更是一種文化,一種觀念
    其實,ai不止是一項科技,更是一種文化,一種觀念。自2016年alphago在圍棋系列賽中戰勝職業棋手以來,ai已經開始在某些領域中取得進展,並且在某些問題上實現了突破。在最近的新聞中,谷歌發布的兩張miranda照片不僅僅是事實,還再次為我們揭開了ai正在開始各領域進行科學研究的新面貌。