身處大數據時代,數字,無所不在。從小至個人身分證、信用卡、消費行為、薪水,大至一個國家的人口、GDP、土地面積......任何分秒,任何位置,任何事物,都能用數字來量化。
直覺上來說,這些不論是經由人的行為、或是大自然自然發生的事件,所產生的數字,應該要是隨機的吧?就像擲骰子一樣,每個數字出現的機率都是六分之一。
但如果仔細觀察,這些數字,竟然背後都有一個神奇的模式。
這讓愛因斯坦的名言,「上帝不會擲骰子。」雖然這項定律目前就看來與量子力學八竿子打不著,但同樣說明了--世界不是那麼隨機的。
1881年,美國天文學家西蒙.紐康(Simon Newcomb)在《美國數學期刊》發表了一篇文章,文中提到他注意到和對數有關的書籍有個奇怪現象,後來科學家廣泛運用他的發現進行計算——這些書的第一頁,變髒的速度似乎比最後一頁快很多。
Simon Newcomb
書的翻頁痕跡...描繪出神奇定律: 骯髒頁面效應
當時,紐康正在圖書館讀和對數相關的書籍,他發現這些書前面的書頁比後面的破舊,也就是說,數字比較小的前幾頁比較多人查閱。他認為,由於某種原因,人們對開頭為1的數字進行的計算,會比對開頭為8或9的數字使用的還要多。
對數表
顯而易見的解釋,聽起來讓人困惑。由於某些原因,人們對1開頭的數字所進行的計算,比對8和9開頭的數字更多。紐康提出的一個小方程式,很適合用在這個模式:自然界對數字的安排似乎有一個傾向,那就是以D位數為起頭的數字比例,會等於以10為底的1 + (1/D )對數。
紐康在論文裡並沒有提出特別有說服力的理由,說明為什麼這個公式會有用,所以他的文章並未引起人們太多的興趣,而「骯髒頁面效應」(Grubby Pages Effect)則被人們遺忘了半個多世紀。
但在1938年,美國通用電氣公司的物理學家法蘭克.本福特(Frank Benford)再次發現了這種效應,並提出與紐康相同的定律。然而,班佛更進一步搜集了超過兩萬個數字,這些數字從河流排水區列出的數據,到舊雜誌裡文章出現都有。班佛表示,這些數字都遵循了相同的基本定律:大約有30%的數字以1開始,18%的數字以2開始,依此類推。
法蘭克.本福特
和紐康一樣,班佛對定律的存在,也沒有任何很好的解釋。即使如此,他因為提供了十分豐富的證據,證明了這種現象的真實性和特殊性,不過他抓取了兩萬多筆資料,發現他們竟全都遵循這個公式,因此「本福特定律」正式誕生。而使得他的名字從那時開始,一直和這個定律連在一起。
謎一般的定律這裡、那裡到處都是
好,因為這個定律實在太玄了,如果要探討它的歷史就會變得不有趣了,那來看看它可以怎麼運用?
想造假?定律立刻揪出來!
好啦,它很神奇,但有什麼用?
談到本福特定律,就不得不提,它對於造假數字有多麼敏感。照理來說,所有數據都應該符合本福特定律,但如果有人為蓄意造假,比例就會出現偏離,啊,那就抓到了。
抓到什麼?
抓到會計表中的假帳、選舉人票數做假、圖片移花接木、殭屍社群媒體帳號......數字不會騙人。
2002年,在美國Znetix/HMC上市詐騙案中,有七萬多筆支票跟匯款交易要查,人工全部看完交易是不太實際的事情。這時,鑑識會計專家Darrell Dorrell就用了本福特定律,找出疑似虛假或重複的交易(即那些首位數字比例明顯高於本福特定律的交易),加速了整個調查的過程。
除非舞弊犯學過本福特定律,還自己試算過,否則還真不容易被破解。
右邊就是Darrell Dorrell
這項定律實際運用上還有不少限制。
第一,收集資料樣本要夠多,至少要3,000筆以上;
第二,不可有「人為限制」,比如說想探討平均房租,因為已有固定價格區間而將不符合本福特定律,或是身分證、電話號碼這些人為制定數字也不符;
第三,跨越越大量度越能準確預測,像是身高、體重、年齡這些具有上下限的數據就不滿足;
第四,真正隨機的數字也不符合本福特定律,比如真的去擲骰子。
結論,過了100多年,相信本福特定律的應用,仍值得人們進一步探索。