來源:《中國統計》2014年第十期
作者:聶淑媛
學界關於數據挖掘(Data Mining)的起源可謂莫衷一是,直到1995年,知識發現國際會議(Knowledge Discovery in Database)才首次進行明確定義:數據挖掘是在眾多數據中找出有用且屬於未知數據的過程。
目前對數據挖掘的定位眾說紛紜,有學者認為數據挖掘屬於計算機科學的分支,有學者指出數據挖掘是一門獨立的邊緣交叉學科,更多學者強調數據挖掘是統計學的專業分支。筆者認為,雖然現代數據挖掘的常用技術和模型工具早已突破了統計學範疇,但在統計學的歷史上,由於數據挖掘和統計分析的經典結合而創造性解決問題的案例極其豐富,數據挖掘和統計學的淵源關係由來已久。
一、格朗特與死亡公報
英國商人、自然哲學家格朗特(John Graunt,1620—1674)被譽為「統計學之父」,由國王查理二世舉薦,進入當時英國最具名望的科學組織——皇家學會,其成就在於1662年出版的《關於死亡公報的自然和政治觀察》,這是格朗特一生唯一的著作,主要分析了1604—1661年各教區每周公布的受洗禮和死亡名單公告。
雖然格朗特主要使用的算術工具是與現代分析領域相距甚遠的三分法——由三個已知數a、b、c即可根據比例關係a∶b=c∶d求解未知數d,但他成功地推算出男女出生率之比總是穩定在14∶13左右,並用數據進一步說明,男性更容易在戰爭、公海和處以死刑中喪命,所以成年男女的數量基本相等;格朗特調查分析了死亡的所有原因,並初步推算了不同年齡段兒童和成人的死亡比率:兒童死亡發生在4、5歲以下的比例約為1/3,發生在6歲以下的比例約為1/2,僅有7%的死亡屬於壽終正寢,在此基礎上,格朗特首次提出和計算了目前已知的第一個生命表,並估計出倫敦16—56歲的成年男性約佔總人口的34%,有7萬人左右可作為戰爭士兵;格朗特還證明了謀殺不是死亡的主要原因,並首次利用死亡公報中的歷史積累數據,批判了當時普遍流傳的謬論——瘟疫總是伴隨著新王朝的開始,類似結論在格朗特的著作中頗多。
格朗特坦言著魔於研究死亡公報的理由之一是,喜歡從死亡公報——即當前所稱謂的「原始數據」中提煉出新結論,其偉大見解在於對死亡公報上數據、隱含信息的挖掘和系統分析,並用數學知識揭示數字之間的關係,其思想和現代數據挖掘技術有一定程度的相通之處。
二、斯諾對霍亂的研究
較為現代的霍亂歷史被描述為世界性傳染病,前兩次世界性爆發分別發生於1817—1823年和1826—1837年,最初在印度邊界爆發,後來逐漸蔓延到阿拉伯、中國、日本乃至歐洲各地,引起全球的極度恐懼。直到1846—1863年第三次世界性爆發,對霍亂的認識和預防才取得突破性進展,其中做出重大貢獻的是英國醫生斯諾(John Snow,1813—1858)。
斯諾認真訪問了有霍亂患者的家庭,詳細登記患者的姓名、年齡、疾病發作時間、衛生條件以及是否喝過疑似汙染水源的百老匯街區的水,並和百老匯街區的懷特黑德神父(Reverend Henry Whitehead,1825—1896)對相關信息進行分門別類的整理,對數據表格進行統計分析,最終得到結論:霍亂是通過飲用水進行傳播的。
雖然斯諾的研究無法從醫學角度解釋霍亂的發病機理,但他通過對霍亂爆發時原始累積數據的挖掘和分析,探究了霍亂患者和汙染水源的相關性,為控制疫情指明了科學方向。
1866年第四次世界性霍亂爆發時,政府官員和統計學家法爾(William Farr,1807—1883)正是根據斯諾的研究成果,檢查水源並及時阻止被汙染池塘的使用,疫情得以迅速結束。