【統計故事】統計學歷史上的經典數據挖掘案例

2021-02-15 統計微訊

來源:《中國統計》2014年第十期

作者:聶淑媛

學界關於數據挖掘(Data Mining)的起源可謂莫衷一是,直到1995年,知識發現國際會議(Knowledge Discovery in Database)才首次進行明確定義:數據挖掘是在眾多數據中找出有用且屬於未知數據的過程。

目前對數據挖掘的定位眾說紛紜,有學者認為數據挖掘屬於計算機科學的分支,有學者指出數據挖掘是一門獨立的邊緣交叉學科,更多學者強調數據挖掘是統計學的專業分支。筆者認為,雖然現代數據挖掘的常用技術和模型工具早已突破了統計學範疇,但在統計學的歷史上,由於數據挖掘和統計分析的經典結合而創造性解決問題的案例極其豐富,數據挖掘和統計學的淵源關係由來已久。

一、格朗特與死亡公報

英國商人、自然哲學家格朗特(John Graunt,1620—1674)被譽為「統計學之父」,由國王查理二世舉薦,進入當時英國最具名望的科學組織——皇家學會,其成就在於1662年出版的《關於死亡公報的自然和政治觀察》,這是格朗特一生唯一的著作,主要分析了1604—1661年各教區每周公布的受洗禮和死亡名單公告。

雖然格朗特主要使用的算術工具是與現代分析領域相距甚遠的三分法——由三個已知數a、b、c即可根據比例關係a∶b=c∶d求解未知數d,但他成功地推算出男女出生率之比總是穩定在14∶13左右,並用數據進一步說明,男性更容易在戰爭、公海和處以死刑中喪命,所以成年男女的數量基本相等;格朗特調查分析了死亡的所有原因,並初步推算了不同年齡段兒童和成人的死亡比率:兒童死亡發生在4、5歲以下的比例約為1/3,發生在6歲以下的比例約為1/2,僅有7%的死亡屬於壽終正寢,在此基礎上,格朗特首次提出和計算了目前已知的第一個生命表,並估計出倫敦16—56歲的成年男性約佔總人口的34%,有7萬人左右可作為戰爭士兵;格朗特還證明了謀殺不是死亡的主要原因,並首次利用死亡公報中的歷史積累數據,批判了當時普遍流傳的謬論——瘟疫總是伴隨著新王朝的開始,類似結論在格朗特的著作中頗多。

格朗特坦言著魔於研究死亡公報的理由之一是,喜歡從死亡公報——即當前所稱謂的「原始數據」中提煉出新結論,其偉大見解在於對死亡公報上數據、隱含信息的挖掘和系統分析,並用數學知識揭示數字之間的關係,其思想和現代數據挖掘技術有一定程度的相通之處。

二、斯諾對霍亂的研究

較為現代的霍亂歷史被描述為世界性傳染病,前兩次世界性爆發分別發生於1817—1823年和1826—1837年,最初在印度邊界爆發,後來逐漸蔓延到阿拉伯、中國、日本乃至歐洲各地,引起全球的極度恐懼。直到1846—1863年第三次世界性爆發,對霍亂的認識和預防才取得突破性進展,其中做出重大貢獻的是英國醫生斯諾(John Snow,1813—1858)。

斯諾認真訪問了有霍亂患者的家庭,詳細登記患者的姓名、年齡、疾病發作時間、衛生條件以及是否喝過疑似汙染水源的百老匯街區的水,並和百老匯街區的懷特黑德神父(Reverend Henry Whitehead,1825—1896)對相關信息進行分門別類的整理,對數據表格進行統計分析,最終得到結論:霍亂是通過飲用水進行傳播的。

雖然斯諾的研究無法從醫學角度解釋霍亂的發病機理,但他通過對霍亂爆發時原始累積數據的挖掘和分析,探究了霍亂患者和汙染水源的相關性,為控制疫情指明了科學方向。

1866年第四次世界性霍亂爆發時,政府官員和統計學家法爾(William Farr,1807—1883)正是根據斯諾的研究成果,檢查水源並及時阻止被汙染池塘的使用,疫情得以迅速結束。

相關焦點

  • 數據分析基礎內容介紹 — 模型、工具、統計、挖掘與展現
    數據分析多層模型介紹這個金字塔圖像是數據分析的多層模型,從下往上一共有六層:底下第一層稱為Data Sources 元數據層。比如說在生產線上,在生產的資料庫裡面,各種各樣的數據,可能是銀行的業務數據,也可能是電信運營商在交換機裡面採集下來的數據等等,然後這些生產的數據通過ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程,通過這個過程,我們可以把需要的數據放到數據倉庫裡面
  • 吳信東:數據挖掘算法的經典與現代
    作者 | 蔣寶尚編輯 | 叢 末6月6日,中國計算機學會(CCF)主辦的中國計算機學會青年精英大會(CCF YEF)在線上舉行,在「經典流傳的機器學習與數據挖掘算法」技術論壇上,明略科技首席科學家、明略科學院院長吳信東;UCLA 副教授孫怡舟;微軟雷蒙德研究院高級研究科學家東昱曉;CCF高級會員、清華大學計算機系長聘副教授朱軍;CCF高級會員、
  • 統計數字會說謊:世界上有三種謊言:謊言、彌天大謊和統計數據
    >作者:[美]達萊爾·哈夫著出版時間:2018-01編輯推薦:世界上有三種謊言:謊言、彌天大謊和統計數據。書裡面大膽地揭露了至今仍然被銷售員、廣告撰稿人、記者甚至專家頻頻使用的大量的統計操縱技巧,同時還配有別具一格的風趣插圖以及眾多幽默的案例。
  • 讓統計之路灑滿法治陽光 青島城陽打造統計數據質量放心區
    近年來,青島市城陽區以「打造數據質量放心區」為目標,以防範和懲治統計造假弄虛作假、確保統計數據真實準確為著力點,加大統計執法力度,加強統計領域信用建設,優化尊法、守法、學法、用法統計生態,深入推進依法統計依法治統,為「陽光城陽」建設營造風清氣正的統計藍天。
  • #數據挖掘##高階統計#「距離計算」(基因晶片數據挖掘基本概念)
    原標題:#數據挖掘##高階統計#「距離計算」(基因晶片數據挖掘基本概念) 餘弦相似度 這裡我將奉上最後一個公式:餘弦相似度。它在文本挖掘中應用得較多,在協同過濾中也會使用到。為了演示如何使用該公式,我們換一個示例。
  • 輕鬆快樂學統計——新書推介:《漫畫統計學》&《民生統計面面觀》
    輕鬆快樂學統計——新書推介:《漫畫統計學》&《民生統計面面觀》 2015年9月,第六屆「中國統計開放日」即將舉辦,10月,第二個「世界統計日」也將在全球舉行。統計數據被廣泛關注和運用,不僅成為經濟運行的「千裡眼」、政府決策的「參謀部」、企業運營的「百寶箱」,還是百姓生活的「智慧幫手」。 也許你覺得自己應該學點統計學了,但那些專業而枯燥的理論讀本正在消耗你的熱情和自信;也許你想知道那麼多統計指標對於我們每一個普通人意味著什麼,應該如何正確使用,卻無從著手。
  • ...堅決維護統計工作權威 確保統計數據經得起實踐人民歷史的檢驗
    本報7月31日訊(記者繆友銀)今天,省委理論學習中心組召開2020年第7次集體學習會,深入學習習近平總書記關於統計工作的重要講話和重要指示批示精神,貫徹落實《關於深化統計管理體制改革提高統計數據真實性的意見》要求,對進一步做好全省統計工作進行研究部署。省委書記巴音朝魯主持會議並講話。
  • 小白快速上手數據分析模型10 | 描述性統計案例
    ○輸入:單列或者多列定量數據○輸出:對總體的各項統計指標(欄位)進行整體描述分析,包括樣本量、最大值、最小值等統計量描述性統計(又稱敘述統計)用於對調查總體所有變量的有關數據進行統計性描述。它的作用是通過描繪統計圖、統計表或者計算數據分布特徵的基本統計量,來了解樣本觀察值的分布情況,為進一步的統計推斷打下基礎[2]。
  • 統計專業學什麼?美國大學統計專業本科常見課程,你了解嗎?
    什麼是統計  統計學是應用數學的一個領域,它在很大程度上依賴於計算機。統計學專業主要學習如何收集、分析和解釋數據,培養學生使用數據來解決現實世界的問題。其中3門必修課為:  STAT 133 Concepts in Computing with Data 數據計算的概念  本課程介紹了密集計算的應用統計學,主題包括:資料庫的組織和使用,可視化和圖形,統計學習和數據挖掘,模型驗證程序,以及結果的展示。
  • 統計學誕生的黑歷史:為了給「劣等人」絕育
    1901 年,他與高爾頓和生物學家拉斐爾·威爾頓(Raphael Weldon)一起創立了《生物測量學》(Biometrika)期刊,幾十年來一直是統計學理論的首要刊物(直到今日仍受到高度重視)。皮爾遜一直擔任編輯,直至 1936 年逝世。 皮爾遜嘗試解決的第一批理論問題之一,就是困擾凱特勒和高爾頓的雙峰分布,並引出了顯著性檢驗的最初案例。
  • excel數據統計:三個公式提高統計工作效率
    在日常的辦公中,我們經常會統計excel裡各種數據。在excel裡關於統計的函數也是數不勝數,SUM、SUIMIF、SUMIFS、COUNT、COUNTIFS等等。如果統計數據中正好存在與臨界點相同的數據,則該數據會計入靠前的區間。例如成績中有90分的話,會計入第三個區間「大於等於75且小於90」:這與本例的統計需求不符,因此將第二參數-0.01,對臨界點進行修正。掌握FREQUENCY的用法需要注意兩點:1、這是一個數組函數,需要先選中統計結果所在的單元格區域,在再編輯欄輸入公式。
  • 數據挖掘技術在中醫證候學中的應用
    運用數據挖掘技術對中醫證候的構成特點及其規律進行分析研究,將對中醫證候的辯證分析起到巨大的促進作用。1 數據挖掘技術1.1 數據挖掘定義  數據挖掘是從大量數據中挖掘有趣模式和知識的過程。從廣義上說,數據挖掘是對資料庫知識發現(Knowledge Discovery in Databases,KDD)的一個過程[3]。
  • 機器學習最佳統計書籍推薦
    本文中,蟲蟲給你推薦一些關於數據統計的最佳入門書籍,讓你通過這些世界著名的教材幫你找到應用數據統計"北",從而打下一個很好的統計學基礎。雖然這些書都是非常好的教材,蟲蟲還是和之前很多編程學習文章提到原則一樣,不要貪求全而多,而是只選其中一本,認證真的閱讀搞清楚,先入門,然後在此基礎上橫向擴展。
  • R語言及數據挖掘應用培訓 8月15-17日北京開班
    R語言基礎及數據挖掘應用培訓 8月15-17日?北京 R是一套完整的數據處理、計算和製圖軟體系統,R是一種數學計算的環境,它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。
  • SPSS統計分析案例:多項logistic回歸分析
    小兵博客幾年前分享的二項logistic回歸分析案例非常受歡迎,在實際應用中,可能還會碰到因變量是多個分類的情況,並且不包含排序信息。比如視力分為輕度、中度、重度三個水平,此時如果想考察影響視力評價的指標,常用的二項logistic回歸已經無法勝任。幸好,SPSS軟體為我們提供了多項logistic回歸。
  • 大數據給統計工作帶來的挑戰
    大數據時代數據衡量度越來越向縱深定義,數據體量巨大,類型繁多,相較於傳統數據挖掘分析技術,雲計算、人工智慧等新興大數據技術的數據分析處理能力愈加強大。        數據質量的內涵        政府統計是指國家機關依照法律法規運用各種統計方法和手段對國民經濟和社會發展情況進行統計調查、分析,為政府決策層提供理論和數據支持的一種政府活動。
  • 案例|Excel九宮格矩陣評價統計,離不開這些函數
    總有學員問與矩陣查詢統計的問題,有一定的代表性。今天營長就以經典的3*3九宮格矩陣為例,向你介紹涉及到的函數。01.矩陣分數查詢案例:員工綜合評價,分為業績和能力兩個維度。這涉及到矩陣中行列交叉查詢的問題,需要用到經典的INDEX+MATCH函數。MATCH函數(雷達)MATCH函數返回對應的單元格坐標,即某個數據在指定數據區域裡面排第幾。
  • [會議論文]統計數據倉庫中可視化決策支持系統的研究
    關鍵詞  數據倉庫,決策支持,數據挖掘1. 引言      統計部門是政府一個重要職能部門,其最主要的任務就是綜合統計國民經濟的各項數據,作為政府宏觀決策的依據。將大量的業務數據應用於分析和統計原本是一個非常簡單和自然的想法,但在實際的操作中,要獲得有用的信息非常困難。
  • 解答熱力學與統計物理學三大古老問題,彌補統計物理學局限性
    在三層次統計物理模型基礎之上繼往開來,發現能量量子在自然體系表面保守力場方向上的玻爾茲曼分布,就是溝通宏觀與微觀的「橋梁」.不僅可以通過橋梁解答「統計物理學處理互作用粒子系統所遇到的困難」問題,而且橋梁本身就是描述氣、液、固(冰)自然體系的數學原理.定量解析氣、液、固(冰)多種物質多項特性參量(及相變與臨界點參量)的親力親為案例,鮮明地展示了在解決熱力學與統計物理學三大古老問題上所取得的實質性進展
  • 高中數學公式大全:統計與統計案例
    高中數學公式大全:統計與統計案例 2019-02-15 15:55 來源:新東方網編輯整理 作者: