核密度估計法是一種典型的非參數檢驗方法。使用核密度估計法可以推導出分布奇特的函數表達式。因此核密度可以被用於處理公共事務或經濟領域的小眾問題。本小節將要介紹的大數據預測犯罪是一個最經典的現代公共事務案例,這個案例雖然並沒有使用過於複雜的算法,但它確實成功解決了公共管理中的難題。
《少數派報告》的現實版
很久以前,作家們便創造出了為數眾多的天才偵探,大偵探福爾摩斯只消看一眼犯罪現場,就能推斷出受害者的身份和犯罪嫌疑人的大概特徵。後來,野心勃勃的劇作家不再局限於讓偵探人物在犯罪發生後再去千裡輯兇,轉而創作出了《少數派報告》這種極富想像力的作品。在《少數派報告》裡,具有預言能力的少數派可以在犯罪還未發生時就預言出犯罪者的名字,警察便可以在犯罪者實施犯罪前將其逮捕。
儘管科技的發展日新月異,但現代技術仍然沒辦法證實有什麼人真的有預言未來的能力,《少數派報告》中的場景從而無法發生在真實世界中。不過條條大路通羅馬,在大數據的幫助下,警務犯罪預測系統同樣可以幫助警察預測犯罪的發生,達到了和《少數派報告》所一致的效果。
警務犯罪預測系統是由 George Mohler 教授開發的地震預測模型改造而來的。George Mohler 教授發現地震預測模型可以在地震發生後很好的預測餘震的發生,而預測犯罪發生的模式則與此驚人的吻合,即,某地區發生犯罪案件後,該預測模型可以很好地預測接下來發生犯罪的可能性與方式。
紐約警察局把過去 80 年內的 130 萬個犯罪紀錄輸入了這個由地震預測模型改造來的警務犯罪預測系統,並使用了包括每個街道上的人口、人群的流動方式、人臉識別在內的多種繁複數據,這些數據一起用於尋找每一條街道上的犯罪趨勢和犯罪模式,實時分析城市數據源和社交網絡數據,從而提示警察每個具體區域的犯罪概率,達到預測犯罪的效果。除了能夠預測犯罪以外,警務犯罪預測系統所收集的龐大數據同樣有利於警察更快的破案。
提示:這與好友推薦、智能翻譯等商業應用所不同的是,警務犯罪預測系統所應用的數據量十分之龐大,想要處理這些數據必須藉助於計算能力強大的超級計算機,此外,這些數據同樣也可以應用於軍事和情報機構等政府機構,而強大的技術支持和多方的需求都是催生警務犯罪預測系統的必要條件。
洛杉磯警察局是最早應用犯罪預測系統的警察局之一,數據顯示,該警察局已經能夠利用大數據分析軟體成功的把轄區裡的盜竊犯罪降低了 33%, 暴力犯罪降低了 21%,財產類犯罪降低了 12%。 如今的美國,從紐約到洛杉磯,許多警察局都在嘗試使用這種方法來預測犯罪,維護治安。義大利、法國等國家也在引進這種辦法。而我國首都警局在 2014 年的 APEC 會議期間,也嘗試了使用大數據分析來維護治安。大數據分析預測犯罪已成為世界性的趨勢。
核密度估計法和聖克魯茲市的犯罪地圖
儘管警務預測系統所能達到的效果非常神奇,但其背後的統計學原理並不複雜。其中最主要的統計原理就是核密度估計法。
提示:核密度估計法是一種典型的非參數估計法。使用核密度估計法估計數據樣本的分布時,僅從數據樣本本身入手,並不需要任何先驗知識。
在警務預測系統中,城市中不同街道的犯罪發生概率和周圍環境有密切關係,將城市看做一張二維平面圖的話,其每個地區的犯罪發生概率並不服從任何已知的分布,如正態分布、泊松分布等等,因此就不能參照任何已知表達式寫出犯罪發生的概率密度,也不能為犯罪發生概率設定參數。此時就需要核密度估計法來估計犯罪發生概率的表達式。
圖 1 畫出了一個核密度估計的簡單示例,在零到一的範圍上隨機產生 50 個數據,以 0.04 為寬度畫出直方圖。由圖可知,這五十個數據大多分布在靠近 1 的位置,在 0.5 的左邊也有一些分布。僅觀察直方圖,這樣的一個數據基本分布不符合任何已知的分布。因此考慮使用核密度估計法估計該分布的分布函數。
核密度估計法常用的公式如下:
在這個公式中,N(x,z)為正態分布的概率密度函數,z 為待設定的參數。n 為數據量,在圖 1 所示的例子中,n 為 50。這個式子所表達的意思是,假設這 50 個數都服從正態分布,那麼這 50 個正態分布所疊加起來的分布就是我們所要找的分布。
圖 2 中,六個正態分布疊加得到了一個核密度估計模型。其中六個正態分布對應六個數據,同理可得五十個數據推導出來的核密度估計模型。
在除了正態分布外,還可以假設觀察到的數據服從均勻分布、伽瑪分布或三角分布等,不同的分布可以推導出不同的核函數。雖然正態分布需要設定參數 z,但通過數據的標準化可以將 z 統一設為 0。
提示:核密度估計法實際上並不需要設定任何參數,因此核密度估計法是從數據樣本本身出發,研究推導數據分布特徵的一種方法。這種方法不需要任何先驗知識,這也正是非參數檢驗和參數檢驗的不同之處。
不論使用的是哪種核函數,核密度估計法的原理都是相似的。對於某一點,如果觀察值出現的多,那麼該點的概率密度就大,其附近的點的概率密度也會偏大;如果觀察值出現的少,那麼該的概率密度就小,其附近的點的概率密度也會偏小。比如圖 1 中的零點,由於其附近並沒有聚集較多的觀察值,因此該點的概率密度十分小。
儘管每個城市每條街道的犯罪事件的概率密度並不服從任何已知的分布,但使用核密度估計的方法,將每一起歷史案件都視為服從正態分布,這些正態分布疊加後將得到一個犯罪分布概率密度。如果某地區發生了較多的案件,那麼該地區的犯罪概率密度就較高;如果某地區發生了較少的案件,那麼該地區的犯罪概率密度就較低。
圖 3 是一張聖克魯茲地區的犯罪預測地圖。圖中方框框起來的地方即為犯罪案件發生概率較高的地方。
這些方框大部分都是五百英尺見方的區域,這樣大小的一個區域恰好是一個街區左右大小的地方。聖克魯茲警察局使用犯罪預測系統就可以得知每個街區的犯罪發生概率,在這些街區的巡邏警察會打起精神來尋找犯罪案件的苗頭。
使用核密度估計的方法不僅可以詳細的標註出每個街區甚至每條街道的犯罪案件發生概率,按照案件類型為案件分類後,核密度估計法同樣可以指出每個街區發生盜竊案、搶劫案、強姦案等各個細類案件的概率;按照案件時間為案件分類後,核密度估計法同樣可以指出每個街區在白天、傍晚、深夜發生案件的概率。而將兩者結合,則可以提前告訴警察在什麼時間段應加強對哪些街區的巡邏,以及這些街區很可能發生什麼案件,從而避免犯罪案件的發生。預測系統同樣可以用於提示普通民眾在特定時段避開某些街區,以及提示處於危險街區的普通民眾警惕罪犯的存在。
使用這種方法預測的犯罪案件有三分之二都真實的發生了。有了預測系統的提前警示,警局可以更合理的布局警力,提高破案效率,並幫助所有人了解犯罪的模式。犯罪預測系統幫助美國一些城市的重案率下降了 30%。
警務犯罪預測系統除了能夠提示我們案件的發生以外,還可以從更高角度解釋為什麼會發生這些案件。這不僅是從某些街區聚集了大量遊手好閒的犯罪分子這個饞鬼角度而言,警務犯罪預測系統同樣可以發現一些隱藏起來的深層規律。比如預測系統通過對比大量的問題少年的情況,可以告訴我們青少年罪犯與他們的積極向上的同齡人相比,最大的不同是教育程度的低下,這就提示我們應當提高對青少年教育問題的重視。
通過這種對比,犯罪預測系統同樣可以發現 14 歲第一次殺人的殺人犯再次殺人的概率要比 30 歲第一次殺人的殺人犯要高,這幫助司法系統收起對青少年的同情心以及對中年犯人的偏見,轉而加強對青少年罪犯的監視。而這些發現運用到了統計學中 t 檢驗和方差分析的知識。
核密度估計法小結
核密度估計法是最流行的非參數檢驗分析之一。與貝葉斯分析相似,核密度估計法儘管原理十分簡單,但其所能夠完成的事情非常之多。核密度估計法具有不需要過多先驗知識,能完成複雜的非線性擬合,預測結果準確的特點。由於這些優點,核密度估計法被廣泛的應用於公共事務、地理信息、醫療教育等多個領域,其經典應用包括各類預測和聚類任務。
核密度估計法的局限性主要表現在兩方面:首先,核密度估計法的準確與否很大程度上依賴樣本數據的準確與否,比如本小節介紹的警務犯罪預測中,倘若使用的歷史案例過於陳舊或過於偶然,對於核密度估計的最終結果將有很大影響;其次,核密度估計法存在邊界問題,即核密度估計法映射的範圍囊括了整個數域,對警務犯罪預測的例子來說,可以理解為聖克魯茲市的某些地區是沒有人活動的,因此根本不可能發生犯罪案件,但是由於無人地區附近的有人地區有案件發生,因此由於邊界效應,預測系統會認為無人地區也有可能發生犯罪。這一問題在犯罪預測的例子中並不重要,但在一些醫學例子中影響會比較大。
提示:由於核密度估計法是一種基礎的分析方法,它最大的作用在於可以推導出未知分布特徵的數據的分布函數。因此核密度估計法通常為其他算法做準備工作,最常見的就是核密度估計法和聚類分析或貝葉斯分類法的結合。
核密度估計法可以和聚類分析相結合,這會產生一種梯度上升的聚類算法,其主要思想是在空間中隨機畫出一個圓,然後根據分布函數逐漸向密度較高的方向移動,最終達到聚類中心。這種聚類方法可以聚為不規則形狀的類,比如半月形的類。
核密度估計法同樣可以和貝葉斯分類法相結合。貝葉分類法利用已知的先驗知識做推斷,而核密度估計法可以在先驗知識不充足時做出補充。比如在遙感圖像分類的問題上,可以利用核密度估計法先計算各類土地的密度函數,再使用貝葉斯分類法進行分類,此時核密度估計法提供了更充分的先驗知識,因此貝葉斯分類的效果會增強。
上文節選自北大出版社《別怕, 統計學其實很簡單》, [遇見] 已獲授權.
讀懂日常科學思維,用統計學的思維, 做出好決策。
本書是一本優秀的統計學入門讀物,首先介紹了統計學理論知識,激發讀者對統計分析的興趣,幫助讀者完成理論準備。之後通過近30個商業案例深入地介紹了每種分析方法背後的原理、優缺點、適用範圍等,使讀者不僅知其然,更知其所以然。