數據江湖之多元劍法 | 招式三:判別分析

2021-03-02 狗熊會

大家好,時隔……(我也不知道到底時隔多久了),媛子終於從精品案例的海洋中探出頭來,又出沒在「多元劍法」系列(戳這裡看其他多元劍法招式)。

今天想跟大家分享的是又一著名招式——判別分析。「判別分析」這個不明覺厲的名字通常和「分類分析」成對出現,有一些熊孩子就問過,這兩者到底有什麼聯繫,它們又跟聚類分析有什麼不同?

媛子有個兩歲的女兒,叫小橙子。在橙子一歲的時候,我發現她可以準確地說出馬路上見到的小動物,這只是小貓,那只是小狗。但是其實爸爸媽媽只是陪她看過卡通片或者繪本上面的小動物,告訴他這裡面哪些是小貓,哪些是小狗,她並沒有見過現實中的貓貓狗狗。那麼小孩子為什麼會有這種能力,可以從看過的卡通片裡面的小動物中,學習到小貓和小狗的區別,並準確將一隻從未見過的小動物歸類到「小貓」或「小狗」的行列呢?

再比如,當一個人向銀行貸款買房買車的時候,作為銀行的借貸員,你需要根據這個人的個人信息、貸款記錄等歷史數據判斷這個人的還款能力。簡單來說,你需要通過以上信息將這個人歸為「可以按時還款,非違約」和「不能按時還款,違約」這兩組中的一組。那麼如何能儘量準確地分組呢?

又或者,醫生在診斷重大疾病的時候,通常都有一堆的指標作為參考。他們會根據這些指標對病人疾病的所屬類別進行一個判斷,然後對症治療。那麼如果從數據本身出發,怎樣從過去病人的歷史數據中總結規律,從而對新病人的病情判斷進行指導呢?

上述的這些例子背後所遵從的數據分析的原理其實都是相通的——我們分兩步解決這些問題:首先需要有一些「前人的經驗」,即歷史數據,在這些數據中清晰地知道每個個體所屬的類別。所以,這第一步就是從這些信息中,總結出各個類別彼此之間的差異,找到區別各個類別最有效的「分類規則」;第二步就是對於一個新來的個體,雖然並不事先知道它是屬於哪個類別的,但是可以根據第一步找到的「分類規則」,將這個個體分類到所有類別中的某一個。這兩個步驟中的第一步,在多元分析裡面,就稱之為「判別分析」(discriminant analysis),而第二步,就是「分類」(classification)。判別分析是描述性的,而分類分析是推斷性的。當然,這二者並不是可以嚴格割離的,因為判別分析的主要目的就是進一步進行分類,而分類分析通常都要有判別分析的結果做基礎。我們這一次就先討論第一步,判別分析。

需要注意的是,這裡我們明確地知道在歷史數據中,每個個體分別屬於哪一個類別(橙子在她看過的卡通片裡,是知道哪些是小貓,哪些是小狗的)。而對於每一個新個體而言,它也有一個明確的類別屬性,只是我們暫時並不知道,因此需要用已有的信息去推斷。這就好像有個無所不知的「上帝」在監督著的分類,所以習慣上把這種分類分析稱為「監督式學習」(Supervised learning)。之後我們還會講到沒有上帝監督的情況,叫做「無監督式學習」(Unsupervised learning),例如聚類分析。

我們剛剛提到了,判別分析是指,從歷史數據中總結各個類別的規律,建立「分類規則」。橙子看到的卡通片或者繪本裡面的小動物,就是她所收集到的「歷史數據」。當她看到很多隻小貓小狗之後,就會無形之中總結出一種規律。比如,耳朵大的通常是狗;個頭很大的通常也是狗;體毛較長的多是小狗;尾巴細長的更多的是小貓……這些信息便構成了一組多元數據,包括「耳朵大小」、「個頭大小」、「體毛長度」、「尾巴特徵」等變量。

如果按一元數據的處理思想,只將裡面的某一個變量單獨挑出來,比如「耳朵大小」,用它來區分貓和狗,這顯然不是一種明智的選擇,畢竟有很多狗的耳朵也像貓一樣小。所以,其實橙子腦海中默認的方式是,把這些變量綜合考慮,得到一個「綜合指標」來刻畫貓與狗的不同。

這種「綜合指標」的獲得在統計上有很多種方式,這裡主要介紹一種像主成分分析(戳這裡)一樣,對原始變量求「線性加權平均」的規則形式。這種方法是由費歇爾(R.A. Fisher)最早提出的,所以稱它為「Fisher線性判別法則「(Fisher’s linear discriminant analysis, LDA)。

比如在天氣預報中,根據經驗,今天和昨天的溼溫差和氣溫差是關於預測明天下雨或不下雨的兩個重要因素。那麼如何利用這兩個因素來得到晴天和雨天的費歇爾線性判別法則,並用它來進行以後天氣的預報呢?(當然,這個例子只是用來展示判別分析的方法,如果真的用它來做天氣預報肯定是圖樣圖森破了)

現在假設有如下10天的歷史數據可供使用:(數據來源見[4])

其中x1和x2分別是該樣本點獲得時前兩天的溼溫差及氣溫差,而該樣本點收集當天是否下雨決定了它屬於第1類(雨天組)還是第2類(非雨天組)。將這組多元數據畫成下面這種散點圖,並標明每個點來自的組別:

從圖中可以看出,無論單獨使用溼溫差x1(也就是只考慮上述散點的橫坐標的值)還是氣溫差x2(只考慮縱坐標),都無法將下雨組和不下雨組很好地分離開。但如果仔細觀察這些散點,就會發現其實可以用一條直線將兩組較好地分開(比如下圖中紅線所示),其中雨天(第1類)基本集中在紅線之下,而非雨天(第2類)反之:

當然,我們無法做到完美,總是有一些點(比如上圖中藍色圈內的點)無法被準確地分到它本該屬於的組別——橙子在辨認小貓小狗的時候還是有可能出錯。但我們所能夠做到的就是,找到的一個規則,使得用它分辨錯誤的概率在所有類似的分類規則中最小,或者說使得兩組數據在這個規則下分離得最開。

那麼怎樣找到這個規則呢?

由於我們的目標是用一條分割線將兩組數據儘量分得越開越好,用幾何圖形表示就是在如下這條與分割線垂直的方向(下圖紫色直線)上,兩組數據在該方向上的投影分離得越開越好:

所以,Fisher判別法則給出的結果其實並不是分割線本身(圖中紅色直線),而是跟它垂直的投影線(圖中紫色直線)。而由於這裡所使用的判別法則是線性的,所以對應的分割線和投影線均為直線,而不是曲線或其他圖形。學過幾何的朋友應該知道,在坐標系中的直線可以表示為橫縱坐標的線性函數ax1+bx2的形式。所以,這裡的任務就是尋找針對投影線的係數估計a和b。在這個例子中,根據軟體求得的a和b分別為a=-0.104, b=0.225。也就是說,可以根據溼溫差和氣溫差的線性組合建立一個新的綜合指標:-0.104*溼溫差+0.225*氣溫差,用這個指標就可以將下雨組和不下雨組很好地分離開來。確定了這個新的指標,即紫色投影線之後,紅色分割線的方向也一目了然了——就是與投影線垂直的方向。

對於橙子而言,根據費歇爾判別法則來區分貓和狗,就是應用耳朵大小、個頭大小、體毛長度等變量的線性組合來作為她的規則。當然,判別法則不只有費歇爾線性法則一種,例如還可以用曲線來作為判別函數。在這裡就不再涉及細節。

判別分析顯然不只可以用到分辨小動物和天氣預報中,在商業領域有更加廣泛的應用。例如徵信分析,在大數據時代下數據導向的網際網路徵信領域,當需要判斷某客戶的貸款審批是否予以通過時,所參考的歷史數據中將會包含歷史借款人的諸多信息——用戶自填數據(年齡、職業、收入、婚姻狀況、信用卡張數等),用戶行為數據(刷卡詳單、刷卡商戶分布、月消費等),甚至還會有跨平臺的數據(招聘網站的簡歷數據等):

同時,歷史借款人是否按時還款是有記錄的,因此可以根據歷史數據找到基於以上變量的Fisher判別法則,用一個或幾個原始變量的線性函數,將「未違約組」和「違約組」充分分離。

判別分析還可應用於其他商業領域,例如市場營銷中新用戶、流失用戶和忠實用戶的分離;消費者對不同競爭品牌的不同屬性偏好;市場細分等。當然,判別分析只是用來找尋規則的,還屬於描述性分析範疇,至於一個新來的個體到底屬於哪個類別,還需要推斷性的分類分析來告訴你。那就且聽下回分解吧。

>>>>參考文獻:

[1] Richard A. Johson and Dean W. Wichern. 「Applied Multivariate Statistical Analysis」.

[2] Alvin C. Rencher and William F. Christensen. 「Methods of Multivariate Analysis」.

[3] Brian Everitt and Torsten Hothorn. 「An Introduction to Applied Multivariate Analysis with R」.

[4] 王斌會 《多元統計分析及R語言建模》

畢業於美國賓夕法尼亞州立大學統計系的博士小海龜一隻;

就職於廈門大學經濟學院統計系、王亞南經濟研究院的小青椒一個;

學術方面關注高維數據的統計模型和方法、網絡數據和圖模型、統計基因學等;

實踐方面關注統計諮詢,想讓更多的人認識統計了解統計會用統計。

相關焦點

  • 安全數據的判別分析
    安全數據的判別分析包括四大內容,如圖所示1 距離判別法2 貝葉斯判別法3Fisher判別法Fisher判別法是一種先進行高維向低維投影,再根據距離判別的一種方法,就是通過將k組多元安全統計數據投影到某一個方向上(或某一低維空間中),使投影后的組與組之間儘可能地分開,然後代入新的安全統計樣品數據,與判別臨界值作比較來確定應將其判別為哪個總體。
  • 【數據分析】R語言實現常用的5種數據分析(主成分+因子+多維標度+判別+聚類)
    正交旋轉的流行方法是方差最大化,需要在principal中增加rotate='varimax'參數加以實現。也有觀點認為主成分分析一般不需要進行旋轉。4 計算主成分得分主成分得分是各變量的線性組合,在計算出主成分得分之後,還可以將其進行回歸等做進一步分析處理。但注意如果輸入數據不是原始數據時,則無法計算主成分得分。
  • SPSS分析技術:判別分析
    :數據的歸納分析;SPSS分析技術:分層聚類分析;SPSS分析技術:K-Mean聚類分析;下面介紹個案聚類的第三種方法:判別分析。如果將分層聚類和K-Mean聚類比作開國之君的話,判別分析則是守成之主,只需再已有基礎上添磚加瓦即可。判別分析在數據處理中,有這樣一種情況:現在已經有若干樣本被正確地分類了,但不清楚分類的依據是什麼。同時,未來還會有大量的未被分類的樣本,需要按照上述規則判定這些樣本的所屬類別。
  • 分類分析之判別分析,SPSS判別分析實操
    而且事先並不知曉分類標準】,而判別分析先根據已知類別的事物的性質,利用某種技術建立函數式,然後對未知類別的新事物進行判斷以將之歸入已知的類別中。附>定義:判別分析先根據已知類別的事物的性質(自變量),建立函數式(自變量的線性組合,即判別函數),然後對未知類別的新事物進行判斷以將之歸入已知的類別中。
  • 金庸武俠十大劍法排名,闢邪劍法排第三,獨孤九劍排第二
    劍招有時招式古樸,有時劍點密集,劍法一轉,便見雪花飛舞之姿,朔風呼號之勢,出招迅捷,宛若梅樹在風中搖曳不定,亦有塞外大漠飛沙、駝馬奔馳的意態。雪山劍法共七十二路,書中出現的有「老枝橫斜」、「風沙莽莽」、「明駝西來」、「暗香疏影」、「梅雪爭春」、「胡馬越嶺」、「明月羌笛」等招術。
  • 安全數據的聚類分析和判別分析概述
    1 聚類分析的基本原理1)聚類分析的含義聚類分析是根據「物以類聚」的原理,對樣品或指標進行分類的一種多元統計分析方法,將安全統計對象的集合分成多個類的分析過程。2 判別分析的基本原理1)判別分析的含義判別分析是在已將安全現象分成若干類、並已經取得各種類型的一批已知安全統計樣品的觀測數據的基礎上,根據某些準則來建立判別模型,然後對未知類型的安全統計樣品判別其歸屬問題的一種多變量統計分析方法。
  • 金庸筆下最精妙的刀法與劍法,刀法不及劍法遠矣!
    金庸筆下描寫的武功招式有非常的多,今天我們來說兩個江湖俠客們使用最多的兵器,那就是刀和劍。這兩個可以說是佔據了江湖人士的半壁江山了。
  • 平民級古譜武學 九陰真經魅影劍法曝光
    《九陰真經》賀歲特別版【絕世雙驕】已於上周震撼公測,結雙俠情緣、闖水陸禁地、拼文武才藝,探凌霄迷城,新版本給予俠士們不同以往的江湖體驗。武學體系,作為《九陰真經》武俠世界的核心組成部分,備受關注和喜愛。
  • 判別分析——注意事項
    通過前期的學習,我們已經知道判別分析是根據判別對象若干個指標的觀測結果判定其應屬於哪一類的數據統計方法;了解和鑑別四種常用判別方法的基本原理;掌握SPSS的Fisher判別和Bayes判別操作方法;學習判別分析效果評價的方法。判別分析的最後一期內容,檸檬精給大家準備的是判別分析的注意事項,以作補充。
  • 《藏龍》小奇劍法創始人越奇專訪:奇哥的逍遙江湖路
    今天小便要採訪的這位帥小夥還是一位資深玩家哦,現在就讓小奇來給我們說說他的《藏龍》逍遙江湖之旅吧! 【採訪對象】 姓名:越奇 暱稱:小奇 年齡:25 希望通過我的講述能讓大家更了解《藏龍》中的武學樂趣 小編:《藏龍》中的多種武學招式都有哪些是你喜歡的?印象最深的是哪一個? 小奇 :《藏龍》中的武學招式還挺多的,比如武當派的太極拳、太極劍,靈鷲宮的天山六陽掌,星宿派的吸星大法等。如果非要說印象最深刻的,那應該是易容術和抓奶龍抓手。
  • 《九陰真經》門派武學天山劍法怎麼樣 天山劍法介紹
    據稱天山劍法是他們的門派武學,那麼到底是什麼樣的呢?下面就跟小編一起了解下吧。 天山劍法 天... 九陰真經門派武學天山劍法介紹,天山派是九陰真經中比較新出的一個門派,大家對於這個門派有些什麼了解呢?據稱天山劍法是他們的門派武學,那麼到底是什麼樣的呢?下面就跟小編一起了解下吧。
  • 金庸武俠十大劍法,玄鐵重劍上榜,獨孤九劍第6,第1種僅兩人練成
    黃藥師的「玉簫劍法」就好像年輕時的艾弗森,招式虛招很多,花裡胡哨且變化極多,力求把對手晃悠得五迷三道。 《神鵰俠侶》中,楊過以「玉簫劍法」對陣李莫愁,就把李莫愁晃悠得暈頭轉向;《倚天屠龍記》中,郭襄以「玉簫劍法」對陣無色禪師,劍尖不停顫動,指向十幾個方向。黃藥師開創的這種劍法,已經開始嘗試把內力灌注在劍身上來吸附對手兵器。
  • 如何評價霹靂布袋戲中的素還真劍法?
    在霹靂布袋戲中有這麼一句話,這世間最可怕的,是梵天之智,白蓮之武。作為霹靂公認的正道武力第一人的梵天一頁書,卻時常表現出驚人的智慧與謀略,只是平日強悍的武力掩蓋了他智謀的光輝。那麼素還真的劍法達到了什麼程度?首先素還真本身並不是一個劍客,雖然他同樣使用劍作為武器,但是比起葉小釵,風之痕,劍子仙跡,劍非道等等專精於劍術的高手來說,素還真更像是一個武學多面手,其深厚的內功和變化多端的各種招式,絕不僅限於劍法,如石破天驚混元掌,怒火燒盡九重天等等氣功,掌法名招都是素還真的拿手好戲。
  • SPSS分析技術:典型判別分析;由鳶(yuan)尾花分類發展而來的分析方法
    典型判別分析原理判別分析與因子分析和聚類分析不同,判別分析需要區分因變量和自變量,其中因變量是分類型數據(定類或定序),而自變量可以是任何尺度的數據,只是分類型自變量需要以虛擬變量的形式進入判別模型。以上這些和邏輯回歸模型是一致的,不同之處在於判別分析的目的是建立原始變量的線性組合,使得根據因變量劃分的不同類別之間差異最大,而邏輯回歸模型的擬合方法是極大似然法,它們在模型擬合方法上是完全不同的。如果自變量中連續型變量較多,那麼判別分析更為準確,如果分類型變量較多,則邏輯回歸分析較為好用,大家可以根據實際分析結果來選擇。
  • 聚類分析、判別分析、主成分分析、因子分析的區別與聯繫
    目的不同: 因子分析把諸多變量看成由對每一個變量都有作用的一些公共因子和僅對某一個變量有作用的特殊因子線性組合而成,因此就是要從數據中控查出對變量起解釋作用的公共因子和特殊因子以及其組合係數;主成分分析只是從空間生成的角度尋找能解釋諸多變量變異的絕大部分的幾組彼此不相關的新變量(主成分)。2.
  • 《河洛群俠傳》各隱藏人物屬性物品招式一覽
    《河洛群俠傳》遊戲開局玩家可以回答很多問題,按照一定的順序進行回答之後會獲得開局隱藏人物,這些隱藏人物普遍屬性都比較高,而且帶有很多強力的裝備武學招式等等,那麼遊戲當中的隱藏人物開局屬性究竟是什麼樣子的呢?一起來看看具體是什麼吧。
  • 達難兼濟天下,窮亦不能獨善其身,《笑傲江湖》告訴你真實的原因
    金庸的小說也不例外,只不過,金庸小說的獨特而精妙之處在於其武非武,即寫武術招式及名稱決不止是寫一種純粹或真實的技擊之術,而是技進乎藝,進而藝進乎道。一些武術招式或名稱,在金庸的筆下,變得妙用非常、高深莫測。這部小說中金庸又創出了兩路高明而獨特的劍法,即一是「闢邪劍法」一是「獨孤劍法」。
  • R語言實現常用的5種分析方法(主成分+因子+多維標度+判別+聚類
    R語言多元分析系列之二:探索性因子分析 探索性因子分析(Exploratory Factor Analysis,EFA)是一項用來找出多元觀測變量的本質結構、並進行處理降維的技術。因而EFA能夠將具有錯綜複雜關係的變量綜合為少數幾個核心因子。
  • 生成模型學習筆記:從高斯判別分析到樸素貝葉斯
    機器之心之前曾介紹過張威所寫的吳恩達《機器學習》課程的學習筆記。1 判別模型判別模型是一種對觀測數據進行直接分類的模型,常見的模型有邏輯回歸和感知機學習算法等。2 生成模型與判別模型不同,生成模型首先了解數據本身分布情況,並進一步根據輸入 x,給出預測分類 y 的概率。該模型有著研究數據分布形態的概念,可以根據歷史數據生成新的可觀測圖像。貝葉斯分類就是一個典型的例子。
  • 他是金庸小說第一劍術高手,劍法超過獨孤求敗,來歷卻是一個謎
    所謂「劍乃百兵之君子」,讀者朋友都知道,曾經有一部作品可以稱為近代武學小說的開山之作,這部作品喚做《蜀山劍俠傳》,乃是由昔年大文人還珠樓主所寫,金庸先生其實也是還珠樓主的一位書迷,也許正是因為這個原因,所以在金庸武俠小說當中咱們可以領略到許多劍客的絕世風姿,其中有三位高手熱度最高,