距2029年5月19日北京工體(鳥巢)
個人演唱會還有
今日送出:【5臺】iPad Air、深空灰色
64GB內存、wifi版
感謝老闆支持!
知識就是力量,歡迎回到2049。本節目音頻由喜馬拉雅獨家播出。今天整一個狠的,然後我得緩一陣子了,送5臺iPad Air,深空灰色,64GB內存,wifi版,感謝老闆支持。
現在你來嘗試回答這樣一個問題,說一家銀行中有好幾萬個帳戶,每個帳戶的儲蓄金額都不一樣,我存了5萬塊錢,潘博士存了8000塊錢,思考盒子存了120162049塊錢,黃博士存了5塊錢。那麼請問,在這幾萬個不同的存款金額中,第一位有效數字它是1的概率有多大?是2的概率有多大?是9的概率又有多大?所謂的有效數字,是指在一個數中,從該數的第一個非零數字起,直到末尾數字止的所有數字,就是該數的有效數字,比如0.618的有效數字就是618,19260817的有效數字就是19260817。直觀上看,第一位有效數字是1是2還是3456789,它們出現的概率應該是一樣的,都是1/9,而且我覺得高考如果出這麼個題,正確答案也必定是1/9,這是符合數學的基本規律的。
但真實情況卻並非如此,事實上人們發現,在很多情況下,第一個數字是1的概率,可要比1/9高多了,而第一個數字是9的概率,則要比1/9低多了。這種違反直覺的現象,便被稱為本福特定律。顧名思義,提出這一定律的是一個名叫本福特的人,他的全名是法蘭克-本福特,這哥們原本是美國通用電氣公司的一位電氣工程師,後來他迷上了一系列與概率有關的問題,於是就發現了本福特定律。不過,本福特定律最早的發現者,其實並不是本福特,而是19世紀的美國天文學家西蒙-紐康,1877年,紐康成為了美國航海天文歷編制局局長,組織同行們重新計算主要的天文常數,在這些繁雜的天文計算中,常常需要用到對數表,當時那個年代也沒什麼網際網路,所以對數表只能做成一本大書,天天查夜夜查,查著查著紐康就發現了一個奇怪的現象,那就是在計算所用到的數值中,首位數是1的概率似乎更高,因為以1開頭的數的那幾頁,要比其他頁破爛的多。於是在1881年,紐康就發表了一篇文章,提到並分析了這一現象,不過在當時,紐康的發現並沒有引起人們的注意,直到57年後的1938年,本福特才重新發現了這一詭異的現實。
本福特
西蒙·紐康
而且本福特並沒有停留在對數表中,他還將這一現象推廣到了更大的領域中,他收集並研究了20000多個統計數據,最終經過大量複雜的統計分析之後,本福特總結出了首位有效數字的概率分布,還搞出來一個公式,他將首位數字為n的概率表示為:P(n)=logd(1+1/n)。其中,d代表數據所使用的進位,對於十進位數據來說,d就是10。所以首位有效數字為1的概率就是lg2=30.1%,首位有效數字是2的概率是lg3/2=17.6%,首位有效數字為3的概率是lg4/3=12.5%,然後逐次減小,首位有效數字是9的概率最小,只有4.58%。
現在我們看到的這張表中,包含了各種各樣的數據,比如流域面積、人口、物理常數、分子量、原子量等等等等,我們可以發現,雖然數據的來源大相逕庭,但首位有效數字出現的概率,卻與本福特總結出來的公式驚人的吻合。由此可見,本福特定律的適用範圍那是非常廣泛,自然界和日常生活中,我們獲得的大多數數據,其實都符合這個定律,換言之,這些數據都符合對數的分布規律,本福特定律具有著「尺度不變性」。
當然了即便如此,本福特定律還是有其限制性的,它主要受限於以下幾個因素:首先,數據的樣本量要足夠大,怎麼也得個千八百才能說得過去,你說我就整10個數,你給我找找本福特定律,我看你長得像本福特定律。其次,數據的跨度必須足夠大,很多時候大小都會相差幾個數量級,比如說咱們可以統計一下各種東西的高度,一本書高度20cm、大樹高5m、工地上的塔吊高100m、平安中心高600m、珠穆朗瑪高8844m,這些數據綜合在一起才能看出來本福特定律,與之相反的,你要就是統計成年人的身高,那是看不出來本福特定律的,因為首位有效數字,我估計99%都是1。另外,人為規則的數據也不滿足本福特定律,比如說身份證號,遼寧省全是以2開頭、廣東省全是以4開頭,這種人為的數據是不鳥本福特定律的,還比如說手機號碼也是如此,我想手機號碼應該100%都是以1開頭。
妥了現在問題就來了,為什麼會出現本福特定律呢?我們該如何理解這一神奇的現象呢?對此,人們從直觀出發,提出了很多解釋。第一種解釋認為,當我們計算數字的時候,順序總是從1開始,然後234直到9,如果說到9就停止了,那麼所有數字的起首機會都會相同,但如果繼續下去,9之後我們馬上就會迎來一大堆1。現實生活中這種情況很常見,比如說地址號碼,一般來說,每條街道的號碼都是從1算起,而街道的長度肯定是有限的,號碼排到某一個數就終止了,而另一條街還是從1開始排列號碼,如此一來,表面看起來,1開頭的號碼就要多一些。
不過毫無疑問,這種解釋其實是很牽強的,因為它太不數學了,更為關鍵的是,大部分符合本福特定律的數據,其實與街道編號完全是兩碼事,比如說物理常數,這哥們可就沒有固定的套路。於是人們又提出了另一套解釋方法。
這個解釋認為,本福特定律的根源,在於數據的指數增長。對於指數增長的序列來說,由最初的數字1增長到另一個數字2,一般都需要更多的時間,所以1出現的概率自然就更高了。比如說你在銀行裡存了100塊錢,年利率是10%,那麼在前25年中,你每年的存款金額將是:100,110,121,133,146,161,177,195,214...一直到985,在這組數據的25個數中,首位數字為1的有8個,佔比32%,為2的有4個,為3的有3個,為9的只有1個。也就是說,從1漲到2很慢,但從2漲到3那就快多了,從3漲到4那就更快了。毫無疑問,指數增長規律的數列,確實符合本福特定律。而且有意思的是,就算你不存100塊錢,改成200塊錢,情況也是一樣的,具體情況,各位老闆可以自己找來算算。
當然了這種解釋雖然更高端一些,但其實也還是不夠數學,直到1995年,美國數學家泰德-黑爾才從數學理論上,對本福特定律作出了解釋,並進行了嚴謹的數學證明。那麼他是怎麼證明的呢?對此我只能告訴你四個字:無可奉告。如果你就是想知道的話,我還可以告訴你四個字:另請高明。如果你沒有請到高明,或者請到了高明,結果人家給你解釋的你也聽不懂的話,那也沒關係,畢竟這玩意兒太數學了。
泰德·黑爾
好了說到這兒,你可能會以為,本福特定律是挺有意思,但它恐怕也只是一個神奇的數學現象,是一個數字遊戲,這玩意兒沒有什麼用。但這就有點小看本福特定律了,事實上,本福特定律在現實中有著極大的作用,因為人們從現實中發現了本福特定律,所以我們也可以從本福特定律出發,來判斷一些所謂的現實到底現不現實,而它最大的應用,便是鑑別數據造假。
美國華盛頓州曾經偵破過一起重大的投資詐騙案,金額高達1億美元,具體過程咱就不細說了,反正就是騙投資人的錢,當時詐騙犯從5000多個投資者手中籌集了大量資金,而為了讓投資人安心,這群哥們便頻繁的轉帳,給投資者造成一種錯覺,那就是這家公司的生意老好了,天天流水老大了。不過後來一位會計師發現了問題,他將7萬多個與支票和匯款有關的數據給收集起來,結果發現這些數據與本福特定律大相逕庭,最終經過3年的司法調查,這個投資騙局終於敗露,詐騙主犯被判20年監禁。還比如說在2001年,美國能源巨頭安然突然間黃了,它為什麼黃了,原因就在於公司高管通過做假帳對每股盈利數進行造假,結果被人發現了,而發現的依據也正是本福特定律。
據說,還有人曾利用本福特定律來檢查柯林頓在任期間的報稅數據,不過沒有發現什麼破綻。這或許說明兩個問題,一是柯林頓人家確實沒問題,二是這哥們也對本福特定律了如指掌。有道是智者千慮必有一失,我相信對於很多騙子來說,他能想到1萬個細節,卻未必能想到本福特定律,所以說一個不了解本福特定律的騙子,絕對不可能成為一個優秀的韭菜收割機。