世界不隨機!假帳殺手:本福特定律Benford's Law

2020-11-11 WorldInYourHands

身處大數據時代,數字,無所不在。從小至個人身分證、信用卡、消費行為、薪水,大至一個國家的人口、GDP、土地面積......任何分秒,任何位置,任何事物,都能用數字來量化。

直覺上來說,這些不論是經由人的行為、或是大自然自然發生的事件,所產生的數字,應該要是隨機的吧?就像擲骰子一樣,每個數字出現的機率都是六分之一。

但如果仔細觀察,這些數字,竟然背後都有一個神奇的模式。

這讓愛因斯坦的名言,「上帝不會擲骰子。」雖然這項定律目前就看來與量子力學八竿子打不著,但同樣說明了--世界不是那麼隨機的。

1881年,美國天文學家西蒙.紐康(Simon Newcomb)在《美國數學期刊》發表了一篇文章,文中提到他注意到和對數有關的書籍有個奇怪現象,後來科學家廣泛運用他的發現進行計算——這些書的第一頁,變髒的速度似乎比最後一頁快很多。

Simon Newcomb

書的翻頁痕跡...描繪出神奇定律: 骯髒頁面效應

當時,紐康正在圖書館讀和對數相關的書籍,他發現這些書前面的書頁比後面的破舊,也就是說,數字比較小的前幾頁比較多人查閱。他認為,由於某種原因,人們對開頭為1的數字進行的計算,會比對開頭為8或9的數字使用的還要多。

對數表

顯而易見的解釋,聽起來讓人困惑。由於某些原因,人們對1開頭的數字所進行的計算,比對8和9開頭的數字更多。紐康提出的一個小方程式,很適合用在這個模式:自然界對數字的安排似乎有一個傾向,那就是以D位數為起頭的數字比例,會等於以10為底的1 + (1/D )對數。

紐康在論文裡並沒有提出特別有說服力的理由,說明為什麼這個公式會有用,所以他的文章並未引起人們太多的興趣,而「骯髒頁面效應」(Grubby Pages Effect)則被人們遺忘了半個多世紀。

但在1938年,美國通用電氣公司的物理學家法蘭克.本福特(Frank Benford)再次發現了這種效應,並提出與紐康相同的定律。然而,班佛更進一步搜集了超過兩萬個數字,這些數字從河流排水區列出的數據,到舊雜誌裡文章出現都有。班佛表示,這些數字都遵循了相同的基本定律:大約有30%的數字以1開始,18%的數字以2開始,依此類推。

法蘭克.本福特

和紐康一樣,班佛對定律的存在,也沒有任何很好的解釋。即使如此,他因為提供了十分豐富的證據,證明了這種現象的真實性和特殊性,不過他抓取了兩萬多筆資料,發現他們竟全都遵循這個公式,因此「本福特定律」正式誕生。而使得他的名字從那時開始,一直和這個定律連在一起。

謎一般的定律這裡、那裡到處都是

好,因為這個定律實在太玄了,如果要探討它的歷史就會變得不有趣了,那來看看它可以怎麼運用?

  1. 美國各州各郡人口數,某由網友利用R程式分析
  2. 英式足球,攻方在被攔截前成功傳球的次數
  3. 破火山口覆蓋面積、年齡與火山噴發持續天數
  4. 「Lesser Faith」 by J. Syreus Bach音樂中的頻譜數值,同由R網站網友分析
  5. 圖片中像素的顏色值分布
  6. 甚至一名攝影師個人攝影的習慣

想造假?定律立刻揪出來!

好啦,它很神奇,但有什麼用?

談到本福特定律,就不得不提,它對於造假數字有多麼敏感。照理來說,所有數據都應該符合本福特定律,但如果有人為蓄意造假,比例就會出現偏離,啊,那就抓到了。

抓到什麼?

抓到會計表中的假帳、選舉人票數做假、圖片移花接木、殭屍社群媒體帳號......數字不會騙人。

2002年,在美國Znetix/HMC上市詐騙案中,有七萬多筆支票跟匯款交易要查,人工全部看完交易是不太實際的事情。這時,鑑識會計專家Darrell Dorrell就用了本福特定律,找出疑似虛假或重複的交易(即那些首位數字比例明顯高於本福特定律的交易),加速了整個調查的過程。

除非舞弊犯學過本福特定律,還自己試算過,否則還真不容易被破解。

右邊就是Darrell Dorrell

這項定律實際運用上還有不少限制。

第一,收集資料樣本要夠多,至少要3,000筆以上;

第二,不可有「人為限制」,比如說想探討平均房租,因為已有固定價格區間而將不符合本福特定律,或是身分證、電話號碼這些人為制定數字也不符;

第三,跨越越大量度越能準確預測,像是身高、體重、年齡這些具有上下限的數據就不滿足;

第四,真正隨機的數字也不符合本福特定律,比如真的去擲骰子。

結論,過了100多年,相信本福特定律的應用,仍值得人們進一步探索。

相關焦點

  • 本福特|數數就能查假帳?突然碗裡的飯都不香了
    本以為這事就吃瓜結束,沒想到有人很勤快地用本福特定律對美國大選結果進行了驗證,經統計各候選人在某地所有選區的得票數後發現,川普一切正常,而拜登得票不符合「本福特定律」涉嫌選票舞弊。於是,本福特定律經過口口相傳,得出了一條驚世駭俗,嚇尿審計狗的結論——「不滿足本福特定律的就意味著財務造假,這條定律能幫助偵破「財務造假」。這個結論突然就讓探雷哥覺得碗裡的飯不香了,如果這個定律這麼牛,探雷哥就真的哪裡涼快哪兒待著去了。
  • ...學者論文:本福特定律對數據進行分析驗證後,沒有發現中國數據造假
    當地時間28日,牛津大學商學院學者岡村健(Ken Okamura)與美國達拉斯聯邦儲備銀行研究員克里斯多福· 科赫(Chritoffer Koch)共同撰寫了一篇名為《本福特定律和新冠疫情數據報告》 的論文,文中通過利用本福特統計定律(Benford's Law)分析中國報告的新冠疫情數據後發現,中國不存在人為操控數據的情況。
  • 海因裡希定律[Heinrich's Law]
    海因裡希定律又稱1:29:300定律。
  • Criminal Procedure Law of the People's Republic of China
    The law applies equally to all citizens and no privilege whatsoever is permissible before law.Article 8 The People's Procuratorates shall, in accordance with law, exercise legal supervision over criminal proceedings.
  • 《Frontiers of Law in China》2019年第1期要目 | 法寶期刊
    《Frontiers of Law in China》已加入「北大法寶」法學期刊資料庫,請登錄www.pkulaw.com查看期刊全文。「北大法寶」法學期刊庫已收錄196家期刊,其中核心期刊84家,非核心期刊49家,集刊56家,英文期刊7家。
  • 思維模型16 - Law of the large numbers | 大數定律
    之前寫過一篇關於不確定性思維模型的內容,如果讀了那篇文章,應該能理解我們的世界是一個隨機的,不確定的,充滿波動的環境。但是想要在這種不確定的世界找到確定性,就要靠大數定律這個思維模型。大數定律」說明「了一些隨機事件的均值的長期穩定性,換句話來講大數定律告訴我們在偶然之中包含著必然,這也是為什麼大數定律如此重要。
  • 理解福特,就理解了《西部世界》
    往期《西部世界》劇評文章:第一集 | 第二集 | 第三集 | 第五集 | 第七集 | 第八集 | 第九集 | 泰迪專訪終於完結了。《西部世界》的高明之處在於它有幾個層次。享受它,你不需要理解它。這篇文字希望能帶更好奇的人回到這個故事裡一些不起眼的角落,用一些碎片拼出這個老人的內心世界。
  • What a Criminal Law Class Says About China's Need for Sex Ed
    I saw others discussing what it’s like to experience sexual harassment as a man.Swiping through their comments, I was reminded of my own time as a law undergrad in the mid-2000s.
  • 錦秋大學堂丨第20期物理篇:Newton's laws of motion
    請持續關注喲~ 在以往的學習過程中,我們或多或少的接觸過牛頓定律。那麼今天,我們就來系統的看一下牛頓三大運動定律分別是什麼。首先會接觸到的就是牛頓第一運動定律(Newton『s first law of motion)。
  • 人蚊大戰的新武器&熱力學第二定律與麥克斯韋妖
    這個小妖怪的創造是為了說明熱力學第二定律的一個局限性,它的統計性。利用這個小妖怪,可以讓一盒子已經溫度均一的氣體,一邊冷,一邊熱,從而可以做功,比如推動火車前進。>「real-world conditions」真實世界的條件;可能現實世界的情況比實驗中預想的更加複雜,不知道在真實的世界中,這個實驗是否還有這麼好的實驗結果。
  • 思維模型30 - Second Law of Thermodynamics|熱力學第二定律
    ——《生命是什麼》薛丁格熱力學第二定律(熵增)真是深刻的讓人不寒而慄。還可以用來解釋以鄰為壑。 —— 王興愛丁頓爵士認為熵是時間之矢,薛丁格認為熵是生命之本,而美圖創始人王興也認為熵增讓人不寒而慄。(大家不要嫌我囉嗦,其實這段話本來只在結尾的,但我覺得實在太重要了,畢竟人類的本質多說一遍不過分)概念熱力學第二定律是什麼?熱力學全稱熱動力學,是研究熱現象中物態轉變和能量轉換規律的科學。而熱力學一共包含第零定律,第一定律,第二定律,第三定律這四個定律。
  • 物理定律:哈勃定律
    這個常數的最佳數值是在2003年使用人造衛星威爾金森微波各向異性探測器(WMAP)測得的,數值為71 ± 4 km s-1 Mpc-1。在2006年的資料,對應的是77 km s-1 Mpc-1。在宇宙學研究中,哈勃定律成為宇宙膨脹理論的基礎。但哈勃定律中的速度和距離均是間接觀測得到的量。速度——距離關係和速度——視星等關係,是建立在觀測紅移——視星等關係及一些理論假設前提上的。
  • 彼得定律,找準定位
    彼得定律,找準定位「不行」,就意味著你應該更上一層樓!生活中,相信我們每個人都覺得憑藉自己的實力獲得升職,是一件非常可貴的事情,那麼對於每個人來說,到底什麼樣的位置,才是能和自己匹配的位置呢?直到自己不能勝任為止嗎?這讓我想起了管理學上一個著名的定理,叫「彼得定律」。
  • 楞次定律
    楞次定律(Lenz's law)是一條電磁學的定律,可以用來判斷由電磁感應而產生的電動勢的方向。
  • China issues plan on building rule of law
    BEIJING, Jan. 10 (Xinhua) -- China has issued a plan on building the rule of law.
  • 銀翼殺手 - 世界影史經典電影解析
    帶你從小白變身電影達人我喜歡科幻電影,今天,我們就來聊世界電影史上最偉大的科幻電影系列 - 《銀翼殺手》。科幻對於善於思考的現代觀眾而言,有著無比魔力的魅力,它的內涵對於這個世界的意義,已經變得非同尋常,而這,正是《銀翼殺手》的偉大之處。
  • 量子力學描述的「隨機」是宇宙中唯一真正的「隨機」嗎?
    我們不知道,因為隨機性,我們可能永遠不會知道。沒有理由說一系列隨機事件似乎不能完全確定,反之亦然。這使得不可能「證明」一系列確定性事件是確定性的,但這並不妨礙我們發展新的確定性理論。  離散性是量子力學的驅動原理,而不是隨機性。畢竟,這叫量子力學,不是隨機力學。普朗克可以通過假設離散的能量狀態來解決黑體輻射問題。玻爾假設氫原子中的電子軌道是一個離散模駐波,導出了裡德堡公式。
  • 知識學習:什麼是魯尼恩定律與達維多定律?
    ◎魯尼恩定律  魯尼恩定律是由奧地利經濟學家R.H.魯尼恩提出的,是指賽跑時不一定快的贏,打架時不一定弱的輸。無備,強不抵弱,出奇,弱可勝強。機會總是眷顧那些有準備的人,做好準備,成功離你已經不遠。
  • 每日一詞∣法治中國建設 build the rule of law in China
    The plan to build the rule of law in China (2020-2025), issued by the Communist Party of China (CPC) Central Committee, states that the rule of law is a hallmark of human civilization's progress, as well