三個常用統計模型的典型應用場景

2020-12-12 人人都是產品經理

跟大家聊三個常用統計模型的應用場景。哪三個模型呢?決策樹、K-means聚類、因子分析。

為啥是這三個模型呢?因為這三個模型分別代表了數據分析的三種思路:分類、聚類、降維。

為啥只說應用場景?因為具體模型有很多專業書籍講的更好,而且我個人認為,模型是固定的,場景是多變的,知道什麼時候該用什麼模型,比會用這個模型更重要一些。

那麼,接下來正文開始。

一、決策樹

定義:機器學習中,決策樹是一個預測模型;它代表的是對象屬性與對象值之間的一種映射關係。

個人認為決策樹最出名的應用應該是這個:

你們頭腦裡隱藏的任何念頭,

都躲不過魔帽的金睛火眼,

戴上它試一下吧,我會告訴你們,

你們應該分到哪一所學院。

你也許屬于格蘭芬多,

那裡有埋藏在心底的勇敢

他們的膽識氣魄豪爽

使格蘭芬多出類拔萃;

你也許屬於赫奇帕奇,

那裡的人正直 忠誠

赫奇帕奇的學子們堅忍誠實,

不畏懼艱辛的勞動;

如果你頭腦精明

或許會進智慧的老拉文克勞,

那些睿智博學的人,

總會在那裡遇見他們的同道;

也許你會進斯萊特林,

也許你在這裡交上真誠的朋友,

但那些狡詐 陰險之輩卻會不惜一切手段

去達到他們的目的。

分院帽應用的是個非常典型的決策樹模型(什麼鬼),在上文的《分院帽之歌(節選)》中,我標粗的每個部分都可以認為是一個特徵,帽子往學生頭上一扣,讀取學生的顯著特徵,然後分到某個類別裡。所以你看,哈利波特一開始表現出來的特徵都是格蘭芬多的特徵,但他畢竟是個魂器,分院帽讀取數據時候發現這個人有兩類顯著特徵,於是猶豫不決,最後還是波特自己提出了要求,這就證明應用模型時的人工幹預必不可少(大霧)。

言歸正傳,決策樹在實際工作中基本應用於給人群分類,最好的應用場景是要把人群分為互斥的兩類,並找到兩類人群的不同特徵。當然,分為多個互斥類別也OK。

一個非常典型的場景是流失模型,對電信業來說,通過用戶的行為來提前找到哪些人有流失風險,並通過專門優惠等手段挽留,是運營中的重要部分。之前我在轉入網際網路行業時,第一選擇本來是遊戲公司(可惜願意收的給不起合理工資……),因此研究了一下遊戲用戶流失模型的內容,發現跟電信業有相通之處。舉個例子,對於某款端遊,定義超過一周不登錄用戶為流失,那麼做過的任務、拿到的裝備、打過的副本、充值金額等等,都可以作為預測用特徵,比對流失與非流失用戶,找到兩者的區別,在關鍵流失節點上加一些運營策略來減少流失。

二、K-means聚類

定義:k-means聚類的目的是:把n個點(可以是樣本的一次觀察或一個實例)劃分到k個聚類中,使得每個點都屬於離他最近的均值(此即聚類中心)對應的聚類,以之作為聚類的標準。

K-means聚類的好處在於樣本量大的時候,可以快速分群,但需要在分群後注意每個群體的可解釋性。換句話說,給你一萬個人,分成四群,需要能夠解釋每一群人的突出特徵,如果有兩群人的特徵很相似,那就要重新分群了;或者有一群人的特徵不明顯,那就要增加分群了。

聚類與分類不同,分類的目的是得到可復用的規則,使得訓練集以外的個體可以直接分到已知的類別裡;聚類屬於後驗的研究,是對已有個體的辨別。當然聚類可以在一定條件下轉化為分類,例如K-means裡知道了每類的中心,那麼新個體可以依據和每類中心的距離,來判斷所屬類別。但通常情況下,聚類方法本身仍是用於研究的次數更多。

K-means常用的場景是在不清楚用戶有幾類時,嘗試性的將用戶進行分類,並根據每類用戶的不同特徵,決定下步動作。一個典型的應用場景是CRM管理中的資料庫營銷。舉例,對於一個超市/電商網站/綜合零售商,可以根據用戶的購買行為,將其分為「年輕白領」、「一家三口」、「家有一老」、」初得子女「等等類型,然後通過郵件、簡訊、推送通知等,向其發起不同的優惠活動。

明尼蘇達州一家塔吉特門店被客戶投訴,一位中年男子指控塔吉特將嬰兒產品優惠券寄給他的女兒——一個高中生。但沒多久他卻來電道歉,因為女兒經他逼問後坦承自己真的懷孕了。塔吉特百貨就是靠著分析用戶所有的購物數據,然後通過相關關係分析得出事情的真實狀況。

這個案例也算是與」啤酒和尿布「知名度差不多的一個案例。在這個案例中,那個高中生少女明顯是被聚到了孕婦那一類,因為她的行為模式與孕婦是很相近的。

(決策樹也可以做這件事,但需要先定義出特徵,因此在探索特徵未知的領域時,聚類可能更好用一些)

順便說一句,我原先在國企的時候幹的就是這個事,而且發送渠道是最土的那種……平信……術語叫資料庫商函……也叫直復營銷(不是直銷也不是傳銷!)。誰對此有興趣可以看看我這個答案……利用什麼可以讓產品在市場上公開透明?如何去做? – 陳丹奕的回答

三、因子分析

定義:因子分析是指研究從變量群中提取共性因子的統計技術。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質的變量歸入一個因子,可減少變量的數目,還可檢驗變量間關係的假設。

之前說到因子分析是降維的一種方式,而降維歸根結底就是一句話:變量太多的時候,需要將變量重構成帶有更多信息的新變量,新變量與原始變量之間存在相關性,這樣才能在不損失太多原始信息的情況下減少變量數量。

因子分析的一個典型應用場景是滿意度調查。通過市場調研方式獲取消費者滿意度時,通常會有兩位數的問題來了解消費者對哪些方面滿意,哪些方面不滿意,這個時候因子分析就很重要,可以將消費者的問題歸結為相對較少的幾個大問題方向,同時也可以看出哪些問題更為重要,需要優先解決。

那麼,本篇文章到此結束,感謝大家的支持。

 

作者:陳丹奕

連結:https://zhuanlan.zhihu.com/p/20461694

本文由 @陳丹奕 授權發布於人人都是產品經理,未經作者許可,禁止轉載。

相關焦點

  • 30個「5G+製造業」典型應用場景,有哪些「看點」
    12月11日,省工信廳集中發布了30個「5G+製造業」典型應用場景。這些新穎的應用場景有哪些看點?新一代信息技術與製造業深度融合的生動實踐,又將如何為打造國家重要先進位造業高地添翼助跑?30個典型應用場景的經驗可複製、可推廣11月底,在「上海寶馬展」上,山河智能推出了國內第一臺5G剪叉式高空作業車,現場展示的5G智能遙控設備,真正實現人在上海、設備在異地有效施工。5G產品讓人大開眼界,5G技術更是幫助山河智能打通了「任督二脈」。
  • 詳解數據分析六大經典模型原理及應用場景,值得收藏
    要想做好數據分析離不開數據分析模型的理解和掌握,掌握常用的數據分析模型能夠幫助我們拿到數據時很快理順分析的思路,提供一個分析的整體結構,另外也能更好幫助拆解問題,將問題細化,方便找出問題的主要原因。
  • 真正能掙錢的分析模型有哪些?這三個你絕對要學會
    比如說,用數據分析挖掘創造最大價值的用戶,給用戶分類針對性營銷等,就是一種典型的應用。那麼,怎麼用數據分析挖掘出企業最有潛力的客戶,衡量不同客戶的價值呢?今天我就來談談常用的三個衡量客戶價值的數據分析模型:帕累託分析模型、四象限模型、RFM模型,都是數據分析中堪稱經典的客戶模型。
  • 手遊產品最常用的5種玩家行為數據分析模型全解析
    數據分析的基礎模型涵蓋方差分析、因子分析、回歸分析、主成分分析、聚類分析、邏輯回歸、用戶細分等等,遊戲運營的數據分析通常依據AARRR海盜法則相對精簡,業內專注對留存、付費及活躍的幾個常用數據的分析。 這裡我們將介紹在遊戲數據分析領域常用的5種數據分析模型。
  • 數據分析基礎內容介紹 — 模型、工具、統計、挖掘與展現
    底下第一層稱為Data Sources 元數據層。數據分析工具簡介常用的數據分析工具,包括一些廠商的資料庫產品,包括IBM的DB2、甲骨文的Oracle資料庫。這些廠商的資料庫本身帶有一些統計分析的包,裡面有些標準的功能可以做數據分析工作,但用這些自帶的數據分析工具功能相對不夠專業。主要反映在缺乏標準的統計函數,比如做一個線性回歸模型,需要寫一大堆SQL語句,甚至要寫一個plsql程序才能完成。
  • 綠色計算產業峰會"伺服器分場景評測"發布,涵蓋四大典型應用場景
    在此次圓桌會議上,綠色計算產業聯盟攜手聯盟企業共同發布了《綠色計算伺服器典型應用場景性能對比測試分析報告》,涵蓋大數據應用、分布式存儲、高性能計算、Web應用四大伺服器應用場景的性能測試方法,為伺服器在各典型應用場景下的性能評測提供了重要參考依據。
  • 製造業人工智慧8大應用場景!
    01人工智慧技術的三個層次 人工智慧技術和產品經過過去幾年的實踐檢驗,目前應用較為成熟,推動著人工智慧與各行各業的加速融合。從技術層面來看,業界廣泛認為,人工智慧的核心能力可以分為三個層面,分別是計算智能、感知智能、認知智能。
  • 常用的大數據分析模型有哪些
    通過不同渠道採集來的數據,經過對數據清洗後,那接下來就是應用大數據的時候了。根據我們的需求目標定義不同的數據模型,通過數據模型對數據進行篩選,獲得我們需要的數據。那麼在我們日常工作中有哪些常用的大數據模型呢?今天我們主要分析幾個常用的模型做簡單的介紹。供大家參考。
  • 馬蜂窩數據中臺起步建設:數倉的架構、模型與應用
    公共數據層作為倉庫核心層,定位於業務視角,提煉出對數據倉庫具有共性的數據訪問、統計需求,從而構建面向支持應用、提供共享數據訪問服務的公共數據。DWD:這一層是整合後的業務過程明細數據,負責各業務場景垂直與水平數據整合、常用公共維度冗餘加工,以及明細業務標籤信息加工。
  • 四點共圓模型的常用三個性質,你了解嗎
    我們平常積累那麼多數學模型、解題思想,不防在頭腦裡過一下,很多情況下,當你想到某個模型時,它恰恰就是解決當前問題的法寶。四點共圓模型是一種解題思想,但任何題目裡都不會告訴你,親愛的同學,請用四點共圓思想來解題吧。那麼,我們頭腦裡,就要快速迭代平常積累的一些模型。
  • 基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
  • iOS應用標題中最常用的25個單詞
    與人一樣,一個好的產品想要在用戶心中留下深刻印象,除了要有個好的圖標設計,也得取個好名字。好的應用標題才能夠讓用戶在茫茫應用列表中一眼相中。近日,正如微博上無聊的劉先生一樣,外媒也做了一件稍顯無聊的事情,從65萬個iOS應用中選取部分,統計出了iOS應用標題中最常用的25個單詞。值得一提的是,儘管應用描述中的價格信息可以明顯表示該應用免費,但許多開發者仍然堅持在應用標題上註明「Free(免費)」字樣。看來,直觀的單詞比數字 $0.00 更有衝擊力。
  • 手辦模型場景:一棵樹 兩叢草 三隻獅子 小場景模型感受非洲大草原
    手辦模型場景:一棵樹 兩叢草 三隻獅子 小場景模型感受非洲大草原用時三天製作了一個非洲草原場景模型 網友調侃三隻雄獅是好基友手辦模型場景:一棵樹 兩叢草 三隻獅子 小場景模型感受非洲大草原用時三天製作了一個非洲草原場景模型 網友調侃三隻雄獅是好基友
  • 各種機器學習的應用場景分別是什麼?
    判別分析主要是統計那邊在用,所以我也不是很熟悉,臨時找統計系的閨蜜補了補課。這裡就現學現賣了。判別分析的典型例子是線性判別分析(Linear discriminant analysis),簡稱LDA。它裡面典型的算法是C5.0 Rules,一個基於決策樹的變體。因為決策樹畢竟是樹狀結構,理解上還是有一定難度。所以它把決策樹的結果提取出來,形成一個一個兩三個條件組成的小規則。使用情景:它的準確度比決策樹稍低,很少見人用。大概需要提供明確小規則來解釋決定的時候才會用吧。
  • 老焦專欄|一個典型的知識圖譜應用建設案例
    1知識圖譜的幾種典型應用方式基於知識圖譜的應用可以分為幾種典型的類型,這幾種應用使用的場景各有不同,在使用技術上也各有側重,我們希望能夠根據不同類型,總結出一些通用的場景,指導應用建設:1)知識推理類型就是通過已知的知識,推理出未知的知識,這在知識圖譜應用的建設中
  • Video++張奕:人工智慧在消費級視頻場景中的應用丨雷鋒網公開課(附...
    即在時間維度上,能夠對內容識別提供重要的幫助,是統計算法斟酌如何有效利用的重要因素。具體有以下特點:數據量大類別多樣場景複雜如圖所示,其中就包括樣本的選擇、識別和標註,模型的設計以及訓練測量。其次是計算機視覺&圖像處理。因為這裡涉及消費級視頻領域,所以必須藉助這一算法對視頻進行必要的預處理,從而為深度學習做儲備。那麼這其中就包括目標檢測、跟蹤和圖像變換。此外還包括其他一些算法,如統計模型等。
  • 宏觀多因子模型BIRR模型
    ,其中影響因素是股票或公司自身屬性的因素,如股票的市盈率或公司的財務槓桿;必要收益率模型也有以宏觀經濟和統計因素為基礎的。在宏觀經濟因素模型中,以影響公司預期未來現金流和/或確定其現值的適當折現率的經濟變量作為影響因子。在統計因子模型中,將統計方法應用於歷史收益,以確定解釋證券投資組合回報的影響因子。
  • 廣義線性模型在生命表死亡率修勻中的應用
    實證分析結果表明,負二項回歸模型的擬合效果優於泊松回歸模型;進一步將年齡和年份兩因子選為數值型變量,對數據進行光滑處理,在負二項回歸模型下應用B-樣條函數進行修勻。在我國人口死亡率修勻的應用研究中,基於GLM的動態死亡率修勻方法可發現近20年來我國分年齡、分性別死亡率變化規律,具有很強的適用性。
  • LoRa智能組網晶片-組網協議與應用場景
    致遠電子LoRa智能組網晶片,支持多種LoRa組網協議,滿足各類應用場景下的不同需求,幫助您快速搭建最適合的LoRa無線通訊系統。LoRa智能組網晶片可以支持多種協議類型,方便用戶在各類應用場景下都能夠靈活使用。其中包括致遠電子自主開發的自組網透傳協議、LoRaNET協議,以及行業通用的LoRaWAN、LinkWAN、CLAA等協議。
  • SW物候模型在北京櫻花始花期預測中的應用
    以往研究證明,在影響植物物候期的各個氣象要素中,氣溫起關鍵性和決定性的作用,國內一些學者通過分析植物物候與前期氣溫之間的關係建立統計預測模型來預測植物的物候期。但這些建立在氣溫基礎上的統計預測模型還存在一定的問題,主要表現在沒有把統計模型和植物的生長發育的機理結合起來。