統計學有大用處,利用核密度估計法來進行警務大數據預測犯罪

2020-12-22 遇見數學

核密度估計法是一種典型的非參數檢驗方法。使用核密度估計法可以推導出分布奇特的函數表達式。因此核密度可以被用於處理公共事務或經濟領域的小眾問題。本小節將要介紹的大數據預測犯罪是一個最經典的現代公共事務案例,這個案例雖然並沒有使用過於複雜的算法,但它確實成功解決了公共管理中的難題。

《少數派報告》的現實版

很久以前,作家們便創造出了為數眾多的天才偵探,大偵探福爾摩斯只消看一眼犯罪現場,就能推斷出受害者的身份和犯罪嫌疑人的大概特徵。後來,野心勃勃的劇作家不再局限於讓偵探人物在犯罪發生後再去千裡輯兇,轉而創作出了《少數派報告》這種極富想像力的作品。在《少數派報告》裡,具有預言能力的少數派可以在犯罪還未發生時就預言出犯罪者的名字,警察便可以在犯罪者實施犯罪前將其逮捕。

電影《少數派報告》劇照

儘管科技的發展日新月異,但現代技術仍然沒辦法證實有什麼人真的有預言未來的能力,《少數派報告》中的場景從而無法發生在真實世界中。不過條條大路通羅馬,在大數據的幫助下,警務犯罪預測系統同樣可以幫助警察預測犯罪的發生,達到了和《少數派報告》所一致的效果。

警務犯罪預測系統是由 George Mohler 教授開發的地震預測模型改造而來的。George Mohler 教授發現地震預測模型可以在地震發生後很好的預測餘震的發生,而預測犯罪發生的模式則與此驚人的吻合,即,某地區發生犯罪案件後,該預測模型可以很好地預測接下來發生犯罪的可能性與方式。

紐約警察局把過去 80 年內的 130 萬個犯罪紀錄輸入了這個由地震預測模型改造來的警務犯罪預測系統,並使用了包括每個街道上的人口、人群的流動方式、人臉識別在內的多種繁複數據,這些數據一起用於尋找每一條街道上的犯罪趨勢和犯罪模式,實時分析城市數據源和社交網絡數據,從而提示警察每個具體區域的犯罪概率,達到預測犯罪的效果。除了能夠預測犯罪以外,警務犯罪預測系統所收集的龐大數據同樣有利於警察更快的破案。

提示:這與好友推薦、智能翻譯等商業應用所不同的是,警務犯罪預測系統所應用的數據量十分之龐大,想要處理這些數據必須藉助於計算能力強大的超級計算機,此外,這些數據同樣也可以應用於軍事和情報機構等政府機構,而強大的技術支持和多方的需求都是催生警務犯罪預測系統的必要條件。

洛杉磯警察局是最早應用犯罪預測系統的警察局之一,數據顯示,該警察局已經能夠利用大數據分析軟體成功的把轄區裡的盜竊犯罪降低了 33%, 暴力犯罪降低了 21%,財產類犯罪降低了 12%。 如今的美國,從紐約到洛杉磯,許多警察局都在嘗試使用這種方法來預測犯罪,維護治安。義大利、法國等國家也在引進這種辦法。而我國首都警局在 2014 年的 APEC 會議期間,也嘗試了使用大數據分析來維護治安。大數據分析預測犯罪已成為世界性的趨勢。

核密度估計法和聖克魯茲市的犯罪地圖

儘管警務預測系統所能達到的效果非常神奇,但其背後的統計學原理並不複雜。其中最主要的統計原理就是核密度估計法。

提示:核密度估計法是一種典型的非參數估計法。使用核密度估計法估計數據樣本的分布時,僅從數據樣本本身入手,並不需要任何先驗知識。

在警務預測系統中,城市中不同街道的犯罪發生概率和周圍環境有密切關係,將城市看做一張二維平面圖的話,其每個地區的犯罪發生概率並不服從任何已知的分布,如正態分布、泊松分布等等,因此就不能參照任何已知表達式寫出犯罪發生的概率密度,也不能為犯罪發生概率設定參數。此時就需要核密度估計法來估計犯罪發生概率的表達式。

圖 1 畫出了一個核密度估計的簡單示例,在零到一的範圍上隨機產生 50 個數據,以 0.04 為寬度畫出直方圖。由圖可知,這五十個數據大多分布在靠近 1 的位置,在 0.5 的左邊也有一些分布。僅觀察直方圖,這樣的一個數據基本分布不符合任何已知的分布。因此考慮使用核密度估計法估計該分布的分布函數。

圖 1 核密度估計示意圖

核密度估計法常用的公式如下:

在這個公式中,N(x,z)為正態分布的概率密度函數,z 為待設定的參數。n 為數據量,在圖 1 所示的例子中,n 為 50。這個式子所表達的意思是,假設這 50 個數都服從正態分布,那麼這 50 個正態分布所疊加起來的分布就是我們所要找的分布。

圖 2 中,六個正態分布疊加得到了一個核密度估計模型。其中六個正態分布對應六個數據,同理可得五十個數據推導出來的核密度估計模型。

圖 2 正態分布疊加得到核密度估計分布

在除了正態分布外,還可以假設觀察到的數據服從均勻分布、伽瑪分布或三角分布等,不同的分布可以推導出不同的核函數。雖然正態分布需要設定參數 z,但通過數據的標準化可以將 z 統一設為 0。

提示:核密度估計法實際上並不需要設定任何參數,因此核密度估計法是從數據樣本本身出發,研究推導數據分布特徵的一種方法。這種方法不需要任何先驗知識,這也正是非參數檢驗和參數檢驗的不同之處。

不論使用的是哪種核函數,核密度估計法的原理都是相似的。對於某一點,如果觀察值出現的多,那麼該點的概率密度就大,其附近的點的概率密度也會偏大;如果觀察值出現的少,那麼該的概率密度就小,其附近的點的概率密度也會偏小。比如圖 1 中的零點,由於其附近並沒有聚集較多的觀察值,因此該點的概率密度十分小。

儘管每個城市每條街道的犯罪事件的概率密度並不服從任何已知的分布,但使用核密度估計的方法,將每一起歷史案件都視為服從正態分布,這些正態分布疊加後將得到一個犯罪分布概率密度。如果某地區發生了較多的案件,那麼該地區的犯罪概率密度就較高;如果某地區發生了較少的案件,那麼該地區的犯罪概率密度就較低。

圖 3 是一張聖克魯茲地區的犯罪預測地圖。圖中方框框起來的地方即為犯罪案件發生概率較高的地方。

圖 3 聖克魯茲地區犯罪預測地圖

這些方框大部分都是五百英尺見方的區域,這樣大小的一個區域恰好是一個街區左右大小的地方。聖克魯茲警察局使用犯罪預測系統就可以得知每個街區的犯罪發生概率,在這些街區的巡邏警察會打起精神來尋找犯罪案件的苗頭。

使用核密度估計的方法不僅可以詳細的標註出每個街區甚至每條街道的犯罪案件發生概率,按照案件類型為案件分類後,核密度估計法同樣可以指出每個街區發生盜竊案、搶劫案、強姦案等各個細類案件的概率;按照案件時間為案件分類後,核密度估計法同樣可以指出每個街區在白天、傍晚、深夜發生案件的概率。而將兩者結合,則可以提前告訴警察在什麼時間段應加強對哪些街區的巡邏,以及這些街區很可能發生什麼案件,從而避免犯罪案件的發生。預測系統同樣可以用於提示普通民眾在特定時段避開某些街區,以及提示處於危險街區的普通民眾警惕罪犯的存在。

使用這種方法預測的犯罪案件有三分之二都真實的發生了。有了預測系統的提前警示,警局可以更合理的布局警力,提高破案效率,並幫助所有人了解犯罪的模式。犯罪預測系統幫助美國一些城市的重案率下降了 30%。

警務犯罪預測系統除了能夠提示我們案件的發生以外,還可以從更高角度解釋為什麼會發生這些案件。這不僅是從某些街區聚集了大量遊手好閒的犯罪分子這個饞鬼角度而言,警務犯罪預測系統同樣可以發現一些隱藏起來的深層規律。比如預測系統通過對比大量的問題少年的情況,可以告訴我們青少年罪犯與他們的積極向上的同齡人相比,最大的不同是教育程度的低下,這就提示我們應當提高對青少年教育問題的重視。

通過這種對比,犯罪預測系統同樣可以發現 14 歲第一次殺人的殺人犯再次殺人的概率要比 30 歲第一次殺人的殺人犯要高,這幫助司法系統收起對青少年的同情心以及對中年犯人的偏見,轉而加強對青少年罪犯的監視。而這些發現運用到了統計學中 t 檢驗和方差分析的知識。

核密度估計法小結

核密度估計法是最流行的非參數檢驗分析之一。與貝葉斯分析相似,核密度估計法儘管原理十分簡單,但其所能夠完成的事情非常之多。核密度估計法具有不需要過多先驗知識,能完成複雜的非線性擬合,預測結果準確的特點。由於這些優點,核密度估計法被廣泛的應用於公共事務、地理信息、醫療教育等多個領域,其經典應用包括各類預測和聚類任務。

核密度估計法的局限性主要表現在兩方面:首先,核密度估計法的準確與否很大程度上依賴樣本數據的準確與否,比如本小節介紹的警務犯罪預測中,倘若使用的歷史案例過於陳舊或過於偶然,對於核密度估計的最終結果將有很大影響;其次,核密度估計法存在邊界問題,即核密度估計法映射的範圍囊括了整個數域,對警務犯罪預測的例子來說,可以理解為聖克魯茲市的某些地區是沒有人活動的,因此根本不可能發生犯罪案件,但是由於無人地區附近的有人地區有案件發生,因此由於邊界效應,預測系統會認為無人地區也有可能發生犯罪。這一問題在犯罪預測的例子中並不重要,但在一些醫學例子中影響會比較大。

提示:由於核密度估計法是一種基礎的分析方法,它最大的作用在於可以推導出未知分布特徵的數據的分布函數。因此核密度估計法通常為其他算法做準備工作,最常見的就是核密度估計法和聚類分析或貝葉斯分類法的結合。

核密度估計法可以和聚類分析相結合,這會產生一種梯度上升的聚類算法,其主要思想是在空間中隨機畫出一個圓,然後根據分布函數逐漸向密度較高的方向移動,最終達到聚類中心。這種聚類方法可以聚為不規則形狀的類,比如半月形的類。

核密度估計法同樣可以和貝葉斯分類法相結合。貝葉分類法利用已知的先驗知識做推斷,而核密度估計法可以在先驗知識不充足時做出補充。比如在遙感圖像分類的問題上,可以利用核密度估計法先計算各類土地的密度函數,再使用貝葉斯分類法進行分類,此時核密度估計法提供了更充分的先驗知識,因此貝葉斯分類的效果會增強。

上文節選自北大出版社《別怕, 統計學其實很簡單》, [遇見] 已獲授權.

讀懂日常科學思維,用統計學的思維, 做出好決策。

本書是一本優秀的統計學入門讀物,首先介紹了統計學理論知識,激發讀者對統計分析的興趣,幫助讀者完成理論準備。之後通過近30個商業案例深入地介紹了每種分析方法背後的原理、優缺點、適用範圍等,使讀者不僅知其然,更知其所以然。

相關焦點

  • 犯罪時間序列預測分析方法研究 — 以 CrimeStat 軟體為例
    警方可以通過有針對性地巡邏或其他 手段的幹預,再利用外推預測,做到合理有效地分配警力資源。 本文以 CrimeStat 軟體中的時間序列分析模塊 為例,研究時間序列分析方法在犯罪預測中的應用。通過簡單易操作的軟體平臺,對犯罪數據進行統計 分析,達到較清晰的預測結果。
  • 核密度估計(上)
    核密度估計(KDE) 核密度估計(Kernel Density Estimation)是在概率論中用來估計未知的密度函數的,屬於非參數檢驗方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)法。
  • 新時代新青年|李揚 利用統計學整合人類基因組大數據
    他在統計學中主要的研究方向是通過統計建模,利用大規模的基因組學數據預測人類基因的功能,從而推動生物醫學的研究。李揚:統計學可以算是應用數學的一個分支。統計學不是簡單的收集和整理數據,而是通過概率模型來對數據進行分析,從數據中提取有用的信息的系統學科。統計學的研究方法包含廣泛。人們除了使用應用數學外,還需要了解和使用計算機科學中的很多算法來分析實際的數據。統計學在生物、經濟、金融、社會學方面發揮很大的作用。生物統計學是現代統計學中最早的應用之一。
  • 統計學:大數據時代的新寵!
    隨機現象的規律用概率模型描述;因此,統計學旨在準確刻畫和運用概率模型,包括模型建立、參數推斷、假設檢驗、預測預報等。」統計學是通過搜索、整理、分析數據等手段,以達到推斷所預測對象的本質,甚至預測對象未來的一門綜合性學科。統計學專業學什麼?
  • 統計學常用的數據分析方法大總結!
    描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。例如被試的平均成績多少?是正偏分布還是負偏分布?
  • 美國國家地理創刊編輯點評犯罪預測系統(全文)
    核心提示:在美國很多城市,警方只須對一大堆數據進行計算機分析,就能 知道哪些地方將有案件發生。隨著犯罪率的下降,這種技術也因此廣為傳播。但是,對這種犯罪預測的算法和準確性還有質疑,並且在法律認定上也有頗多問題,犯罪預測真正能發揮作用,還需要更深入的研究。
  • 大數據面前,統計學的價值在哪裡
    長期從事複雜數據分析的研究工作,在統計學重要學術期刊上發表學術論文70餘篇。  統計學對大數據的意義  很高興有這樣一個機會,我能與大家在這裡做一些關於統計學與大數據的交流,與大家分享一些觀點。  在講大數據之前,我們首先來看看什麼是數據。
  • 【漫話統計】基於統計學的大數據在實際生活中的應用
    統計學是研究自然界、社會界中隨機現象數量規律的科學方法,並漸漸地滲入到生活中的方方面面。大數據是需要經過統計處理才能成為海量、高增長率和多樣化的信息資產,這種資產具有更強的決策力、洞察發現力和流程優化能力。大數據時代,我們更需要用數據挖掘等統計方法對數據進行分析應用。目前我國對大數據的應用還處於起步階段,還需要探索利用更多更高效的大數據模式。
  • POI核密度分析還能更「科學」?——識別城市中心的優化方法,以西安為例
    其中Rosenblatt和Parzen提出的非參數估計法,即核密度估計法應用最為廣泛。該方法不需要相關數據分布的先驗知識,對數據分布不附加任何假定,是一種從數據樣本出發研究數據分布特徵的方法。因此,在統計學理論和應用領域均受到高度重視,也是相關研究中最常用的空間分析方法。然而,受限於POI數據自身的屬性特徵。
  • 大數據立功了!揭秘大數據如何助力警務工作不斷躍升
    案件發生後,晉城警方依託公安大數據,僅用6小時即成功抓獲3名犯罪嫌疑人,並幫助受害人挽回了經濟損失。新聞梗概新華社報導:《這次,大數據立功了》。報導一出就持續登上各大媒體熱搜榜,百萬網民持續關注並點讚,讓群眾對公安機關運用大數據提升警務能力有了進一步的了解。
  • 乾貨|統計學常用的數據分析方法大總結
    描述統計描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。實際上,相關關係唯一不研究的數據關係,就是數據協同變化的內在根據——即因果關係。獲得相關係數有什麼用呢?簡而言之,有了相關係數,就可以根據回歸方程,進行A變量到B變量的估算,這就是所謂的回歸分析,因此,相關分析是一種完整的統計研究方法,它貫穿於提出假設,數據研究,數據分析,數據研究的始終。
  • 5種數據同分布的檢測方法!
    但很多時候我們知道這個道理,卻很難有方法來保證數據同分布,這篇文章就分享一下我所了解的同分布檢驗方法。一、KS檢驗KS是一種非參數檢驗方法,可以在不知道數據具體分布的情況下檢驗兩個數據分布是否一致。當然這樣方便的代價就是當檢驗的數據分布符合特定的分布事,KS檢驗的靈敏度沒有相應的檢驗來的高。
  • 史上最全的,統計學常用的數據分析方法大總結
    描述統計描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。△集中趨勢分析集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。例如被試的平均成績多少?
  • 數據科學家必備的10大統計技術
    條件隨機場之後我將介紹 10 項統計技術,幫助數據科學家更加高效地處理大數據集的統計技術。自助法(Bootstrapping)適用於多種情況,如驗證預測性模型的性能、集成方法、偏差估計和模型方差。它通過在原始數據中執行有放回取樣而進行數據採樣,使用"未被選中"的數據點作為測試樣例。
  • 通過Python 代碼實現時間序列數據的統計學預測模型
    來源 | DeepHub IMBA封圖 | CSDN 付費下載於視覺中國在本篇中,我們將展示使用 Python 統計學模型進行時間序列數據分析。 目標是:根據兩年以上的每日廣告支出歷史數據,提前預測兩個月的廣告支出金額。
  • 統計學與大數據具有哪些聯繫
    首先,統計學是大數據的三大基礎學科之一,所以統計學與大數據之間的關係還是非常密切的,但是這也導致一部分人產生了一定的誤解,認為大數據就是統計學,統計學就是大數據。實際上,雖然在大數據時代背景下,統計學的知識體系產生了一定程度的調整,但是統計學本身的理念與大數據還是具有一定區別的,統計學注重的是方式方法,而大數據則更關注於整個數據價值化的過程,大數據不僅需要統計學知識,還需要具備數學知識和計算機知識。從另一個角度來說,統計學為大數據進行數據價值化奠定了一定的基礎。
  • Python-plotnine 核密度空間插值可視化繪製
    由於自己摸索前進(好在已經走通全程),更新進度可能會有延遲。還會繼續推出R-Python 的基礎圖表繪製推文系列。可能會根據粉絲的需求或者感興趣圖表進行專門的推文教程,大家可以給我發私信,我們會針對需求較多的圖表繪製要求進行專門推文。
  • 新時代大數據治安防控思維的十大轉變
    作為社會治安精準化防控的重要主體,公安機關在治安大數據的收集、挖掘和運用過程中必須以預防、打擊違法犯罪、維護社會治安秩序,保障公民隱私和數據安全。為了實現大數據防控的效果,應有思維進行轉變。在大數據分析這一整套流程中,需要提供數據者、總結規律者以及人工智慧專家。大數據時代,公安民警應承擔起提供數據的責任,要依託移動警務終端,建立標準化、清單式信息採集機制,實行全警採集、全警錄入日常警務勤務中產生的各類非標準有關聯信息,同時要確保基礎數據信息的真實、準確、鮮活。
  • 專家:大數據時代 統計學依然是數據分析靈魂
    政府合理利用大數據,引導決策的將是基於實證的事實,政府會更有預見性、更加負責、更加開放。中國古代治國就已經有重數據的思想,如商鞅提出,「強國知十三數……欲強國,不知國十三數,地雖利,民雖眾,國愈弱至削」。大數據時代,循「數」治國將更加有效。小數據時代,政府做決策更多依憑經驗和局部數據,難免頭痛醫頭、腳痛醫腳。比如,交通堵塞就多修路。大數據時代,政府做決策能夠從粗放型轉向集約型。
  • 智慧警務系統開發app,智慧公安大數據可視化平臺建設
    在此背景下,警務機關亟待通過新技術和新模式尋求突破,以適應當下公安機關業務變革的需求。警務工作在人工智慧、大數據及雲計算等技術融合的驅動下,呈現出新的發展特徵。"智慧警務"的提出順應了警務智能化的潮流,是警務智能化的一種重要形態。