數字困惑——統計與我們的生活

2020-10-18 大科技

秦朝末年，陳勝、吳廣就喊出了「王侯將相，寧有種乎」的口號，有幅名聯也說「自古英雄多磨難，紈絝子弟少偉男」，可是統計學卻給了我們不一樣的答案。上千年的科舉考試的結果統計顯示，出身農村的進士比例只佔50%強，其餘都是出身仕宦貴族，而當時中國人口90%以上都身居農村，這還包括了中小地主家庭，這樣一比較的話，真正出身農民家庭的進士的比例就更少了。就連今天在號稱民主的美國，你也能看見這種現象，總統老布希的兒子小布希也是總統，而甘迺迪家族事實上已經是個政治上的貴族家庭，雖然民主表面上可以做到人人都有平等競爭的機會，但統計數字告訴我們，實際上生於官宦家庭的人進入上流社會的機會更多。

這說明，統計能經常修正我們對社會現象的固有直覺。

拋硬幣也需要統計

就連最簡單的拋硬幣，我們都離不開統計的幫助。

拋硬幣是一種古老的、我們認為最公平的賭博方式。人們一般相信，硬幣落下後正反面朝上的概率各佔50%，因此人們在進行兩難選擇時喜歡用拋硬幣的方式來決定，如足球比賽開場時，裁判都會把雙方的隊長叫過來，從口袋中掏出一枚硬幣，讓隊長們各選一面，然後拋向空中。如果不是考場紀律不允許，一定也會有人在考場上拋硬幣來做選擇題，因為我們都相信，硬幣落下後正反面朝上的概率各佔50%，這樣至少我們有一半的機會做出正確的選擇。

既然拋硬幣的機會是50%，那我們連續拋好幾次硬幣，是不是正反兩面的次數都一樣呢？

二戰時，有位數學家被關進了集中營，德國士兵奪走了他的一切，卻意外地留給了他一枚硬幣，或許這是對他數學家身份的「優待」。作為一個數學家，在集中營裡他能做什麼呢？在士兵的機槍下，他開始拋硬幣，用橫與豎代表正面和反面，把結果刻在集中營的牆壁上。

他拋10次的結果，有7次正面朝上，正面比反面多4次，正面朝上的次數佔70%；拋20次，有13次正面朝上，比反面多6次，佔65%⋯⋯

當他拋到10000次時，反面5061次，反而比正面多了122次，佔50.61%；最後他一共拋了80640次，反面40641次，多出正面642次，佔50.39%。

他拋的8萬多次中，只是在拋第142次時，出現了正反面各71次的結果，其他時候，正反面出現的次數都不相等。

這位數學家發現，儘管正反面出現次數的差距有時拉大有時縮小，但總體來說，隨著拋的次數的增多，正面與反面出現次數的差距會逐漸增大，不過各自所佔的比例，卻大體會越來越接近50%，卻幾乎不會剛好等於50%。而我們拋有限的幾次，正反正好各半的機會是很小的。

在這裡，統計學讓我們了解到拋硬幣的規律也不能想當然。

「死」也躲不開的統計

統計就是通過大量的數據在某些看似沒有規律的事件中找出運行的規律，準確的統計數據能幫助我們對紛繁複雜的社會現象進行定量分析，從而為我們在做預測時提供參考。正因為如此，統計已經進入人類社會生活的方方面面。

我國每10年會進行一次全國人口普查，到時候會有大量的志願者敲開各家各戶的大門，讓他們填寫表格。從普查後的數據中可以找出人口變化的情況，像男女比例、各年齡段人口比率、就業率、出生和死亡率等，這可都是關係到國計民生的大事。

不僅國家需要這些人口信息，企業也需要這些信息指導自己的長期經營。保險公司知道了人口的死亡率，才可以計算出應該收多少保險費，太貴了，沒有人投保，太便宜了，賠的錢超過了收的錢，可要虧本的。

企業經營也需要進行統計。沒準什麼時候，你在家裡會突然收到一個電話，原來是電視臺打來的，他們在統計節目的收視率。收視率越高，他們的廣告就賣得越貴。

我們的生活也離不開統計。每個月家裡大概會花多少錢，媽媽也許並沒有認真計算過，但心裡一定有本帳，多花了一點就會悄悄埋怨，這個月是什麼東西又漲價了，讓生活費超支，她已經在不知不覺中統計了每個月的平均支出。

學校要統計升學率，班上要統計成績和名次，你自己也要統計自己的總分或平均成績的升降。

這樣看起來，統計似乎是個很簡單的腦力勞動，不就是把一些累積的數字弄在一起，再來個加減乘除嗎？似乎小學生也能做得了。你如果真這樣想，可就大錯特錯了，統計可不是這麼簡單的，其中蘊藏著許多複雜的數學知識，是一門很深的學問呢！

統計自己的總分，只需要把所有的科目分數加起來就行了；媽媽要摸清家裡支出的規律，就要在幾年的時間裡連續統計每個月的支出；而電視臺只有給所有的觀眾都打電話調查才能得到準確的收視率，可是他們可能會有幾十萬的觀眾呀；我國有十三億人口，國家進行人口普查就更難了，難怪要每10年才能進行一次，但是10年間，某些方面的數據可能會有很大的變化，中間這幾年如果需要數據，那麼該怎麼辦呢？

由此可見，社會現象愈複雜，我們的統計工作也就愈困難。

投機取巧的抽樣

認識到統計的難度，我們就需要掌握一些統計技巧了，抽樣調查就是一個常見的統計調查方法。我們先來看看電視臺如何進行收視率統計。

假設有一家電視臺，總共有7位用戶（好可憐的電視臺，選擇比較小的數字，是為了方便讀者能夠自己組合出正確的答案）。現在他們推出了一臺新節目，想了解收視率是多少。這7位用戶中有2戶收看這個的節目，因此節目收視率為28.57%，可是電視臺並不知道，他們需要進行電話調查。假設電話費很昂貴，一家一戶地去調查，電視臺開支太大，因此他們最多只能選擇其中的4戶進行隨機抽樣調查。

從7戶中選擇4戶，一共有35種可能的收視組合方式。電視臺可能會發現，他們所選擇的4戶中，沒有一家在收看他們的節目，調查的收視率為0%，這種情況一共有5種可能組合，佔總數的1/7；也可能會統計到只有1家在收看，調查的收視率25%，這種情形有10種組合，佔2/7；還有一種情況，佔剩下的4/7，有兩家在收看，調查的收視率50%。無論哪種情況的收視率都不會恰好等於28.57%。

可是電視臺並不需要很精確的收視率數據，只要它在合理的範圍就行了。

我們把真實收視率28.57%這個數據對稱地放大到18.57%〜38.57%，就會看到，調查收視率25%的那個結果已經被包含在其中。這個時候，如果調查結果為25%，電視臺就有2/7的可能性是正確的；如果把範圍再對稱地放大到6.57%〜50.57%，那麼還能把調查收視率50%的情形也包括進來，電視臺對調查結果的把握就增大到6/7。

但是如果調查的結果偏偏為0%，那意味著什麼？這種情況只有1/7的可能會發生，是概率最小的事情，如果最不可能的事情真的發生了，那電視臺也只有相信它是真的，節目收視率確實為0%了，這個節目該被撤換掉。

可見，在進行調查的時候，只要把允許的誤差範圍充分放大，就能有足夠的把握說，我們的調查結果是正確的。前面我們列舉的用戶和調查數字都太小了，所以要把誤差範圍放大，才會有足夠的把握。在這個例子中，只要把幾個數字稍微調大一點，誤差範圍就會大大縮小，而把握反而會提高。例如，當用戶數變為20，其中有3家收看該節目，真實收視率為15%，電視臺調查數為10家時，就會有79%的機會，收視率在10%〜20%之間。真正的電視臺用戶一般都在數十萬以上，只要調查30個以上的用戶，就可以有99%甚至更高的把握，把調查誤差控制在足夠精確的範圍內。我們完全可以相信調查的結果，而用不著給所有的用戶打電話。

這種只對一部分客戶進行的調查叫抽樣調查。抽樣調查非常的有用，要知道大片的森林裡有多少棵樹，只需選擇幾個小塊的區域進行調查，算出平均密度再乘上總面積，而不用去摸遍每一個山頭；要知道燈泡的平均使用壽命，只要拿少量燈泡進行試驗，而不用把所有的燈都用到壞；在大型養雞場裡，要知道明天有多少母雞會下蛋，也只用挑選幾十隻驗一驗就夠了，而不用去摸每隻雞的屁股。抽樣調查能給我們的生活帶來很大的方便。

保險公司也不必去統計每個人的真實壽命，它只要抽樣調查，一樣可以獲得滿意的數據。看上去，抽樣調查真是個投機取巧的好方法。

不過，別高興得太早。

導致破產的預言

抽樣調查的結果不是絕對正確的，即使有99.9%的把握，仍然有0.1%的意外會超出誤差允許的範圍，那是不可避免的，是可以允許的正常錯誤。然而，有些抽樣調查卻會產生非正常的錯誤。

1936年美國總統選舉開始了，大部分人都認為現任總統羅斯福——民主黨的候選人——將會勝利，但是有個雜誌《文學文摘》卻不以為然，因為他們郵寄出1000萬份調查問卷，收回了其中的240萬份，調查結果顯示，共和黨人蘭登將會以絕對優勢勝出。

1000萬的調查樣本，這麼大規模的問卷調查，足以讓人相信，羅斯福的總統政治生涯結束了。但結果卻出乎雜誌社的預料，羅斯福順利當選美國總統，後來成為二次大戰時領導世界人民抗擊法西斯的三巨頭之一。由於錯誤的預測，讀者對這本雜誌產生了嚴重的信任危機，大選結束僅僅幾個月，《文學文摘》就破產了。

《文學文摘》的問題出在哪裡呢？原來，他們是按電話簿上的地址寄出的調查問卷。雖然今天電話早已經進入了千家萬戶，但在20世紀30年代的美國，剛剛經歷過一場巨大的經濟危機，失業人數高達900萬（而那時美國總人口還不足1億），大部分人的工資只有危機以前1/3的水平，只有一部分相對富裕的家庭用得起電話這種「高科技產品」。電話只有富人才有，富人大多支持共和黨人蘭登，這就是《文學文摘》調查結果的來歷。而當時美國窮人大多支持羅斯福，在人數上，窮人比富人多得多，由於在選舉上每個公民都有1票，龐大的窮人數量造成了這次抽樣調查結果的巨大的偏差。

這是歷史上非常有名的抽樣統計失敗的案例，它說明抽樣調查的成敗，有時不在於調查數據量的多少，而在於是否能做到完全隨機地抽取樣本。還是那次總統選舉，另外有一個人蓋洛普，他只是在大街上隨機找了2萬人進行調查，就獲得了正確的結果——羅斯福將獲勝。

所以，即使抽樣調查，也不能抓起電話就做，還是首先要考慮一下，獲取的樣本必須是一個全面的群體。

人均收入的騙局

在統計調查中，即使樣本本身具有代表性，如果我們對統計數字進行簡單化處理，得出的結論也有可能與實際情況相差甚遠。

假設我們從大街上隨便找了11個人，得到了他們月工資的情況：前2人的工資為200元，第3到第6人的工資為300元，緊接著，後面4人的工資依次為400、500、600和700元，最後1人的工資高達5000元。

這11個人的平均工資是800元。把這個數字拿給不知情的人看，他通常會這樣認為：「啊，看來這個地區大多數人都能過上月收入800元的生活。」但實際上，這11個人中，只有1個人的薪水高於800元，而另外的10個人的薪水都低於800元。假如該地區的貧困線是700元，只從平均數上看，我們會覺得這個地區的人基本都生活在貧困線以上，但實際情況卻是，絕大多數人都掙扎在貧困線以下。

看來，對統計數字進行簡單的平均，不一定能反映真實情況，那個月收入5000元的人對平均數影響很大。我們需要從不同的角度對隨機抽樣的結果做出分析。比如，在上面的這個例子中，用眾數或中位數更能反映該地區人們的真實收入情況。

眾數是指在數項上出現次數最多的值，比如在上面的統計數字中，收入在300元的人數最多，那麼這組數據中，眾數就是300元。眾數可以讓我們了解，這個地區收入在哪個位置的人最多。中位數指順序排列（從大到小或從小到大均可）的數項中，位於中間項的值。在上面的數據中，第六個人的收入是300元，因此中位數是300元。看到中位數，我們就知道這個地區中，大約有一半的人收入在300元（含）以下，另一半的人收入在300元（含）以上。

有了眾數和中位數，我們就不會被平均數欺騙了。在財富收入不均的社會中，如果我們看到某地的平均工資比較高，就以為這地方大部分人的工資收入都不錯，這就大錯特錯了。其實這個地方大部分普通人的工資收入都很低，只是極少數人的收入高得離譜，把平均收入給拉上去了。

我們還需要統計指數

抽樣調查的目的也是為了了解整個群體，實際上統計的目的就是為了了解整體的狀況，那我們用什麼來衡量這些狀況呢？有些用平均數，如平均年齡、平均價格，有的用總數，如人口總數、總價值等，但是這些都是表示某一時刻的數值，不能反映它們隨時間變化的情況，為了反映總體狀況的變化，我們需要「指數」。

我們經常能聽到「指數」這個詞，股市裡有股票指數，像國內的上證綜合指數，美國的納斯達克指數，看指數就知道股市的漲落；國家和地方政府每年要發布物價指數，代表那年的物價的水平。

指數到底是什麼呀？是不是只有國家大事才能使用指數呢？

答案可能會讓你大跌眼鏡，因為你和我都可以使用指數，只要你關心的數字會隨時間變化，而且即使是小學畢業生也可以了解怎麼去編指數。

讓我們來看個例子吧。

假如你是個初中生，第一學期的七門課的總分剛好500分，第二學期，考了650分，分數是第一學期的130%，第三學期考600分，是第一學期的120%，以後每期都和第一期的成績對比，畫成圖表，就可以知道，相對於第一期，你的成績變化了百分之多少，這個變化了的百分比就是你的成績的總分指數。

我國上海證券交易所的上證指數正是這樣一種「總分」指數。

上海證券交易所於1990年11月26日剛剛成立那一天，所有股票的市場的總價格設為100點，如果以後某一時刻是1200點，就是說相對於成立初期時，這一刻市場的總價值已經是那時的12倍。和你的總分指數不同，上證指數關心的是市場上所有股票的總價值，因此，不斷有新的股票加進去，也不影響指數的衡量作用。而對於你的成績，如果在第三學期時由7門課程變成了8門，總分指數就不再有意義了，這個時候，最好用平均分編寫指數。

物價指數就是這麼一種平均型指數。

我們生活用品的價格每天都可能在變化，幾年前價值8000塊的電腦配置，現在可能只值3000元；昨天大白菜還是5毛錢一斤，今天就會聽到媽媽在和鄰居的大媽議論，下雪了，所有的青菜都漲到了1塊以上。不同的東西價格有升有降，但是我們的支出整體上是上升了還是下降了呢？這就需要物價指數來衡量。電腦好幾千元一臺，但是我們好幾年也不會更換它，肉呀、菜呀雖然只幾元錢一斤，但是我們哪天也少不了它們，因此，在編制物價指數時，我們要按物品對我們生活的影響，給不同的物品在物價指數中以不同比率。

真實的物價指數需要了解許許多多物品的價格變化，但是現在，讓我們先用電腦價格和肉價來編一個簡單的物價指數。

同樣的電腦去年5000元/臺，今年3000元/臺，按電腦價格對生活的影響，在物價指數中佔0.1%，而肉去年5元/斤，今年8元/斤，在物價指數中佔了剩下的99.9%，現在讓我們看看物價整體是漲了還是降了。

去年的平均物價是5000×0.1%+5×99.9%=9.99元，今年的是3000×0.1%+8×99.9%=10.99元，今年平均物價是去年的110%（10.99÷9.99×100%），如果以去年的物價為基礎，今年的物價指數就是110%。

儘管電腦價格下降了2000元，而肉價只漲了區區的3元錢，可我們總體的生活支出依然上漲了10%。

與股票指數不同，物價指數用百分比表示。

物價指數按用途不同，又有商品零售物價指數、消費品物價指數，這些與我們的日常支出息息相關，另外的像工業品價格指數、生產資料價格指數，會直接影響工業，對我們的生活只會有間接的影響。

撲朔迷離的相關係數

現在，我們更進一步，統計數字具有代表性，分析方法也很正確，那麼是否就一定能得出正確的結論呢？未必。即使你用正確的方法分析統計數字，也不一定能得出正確的結論，甚至可能會得出莫名其妙的結論，比如「當中國人口增加的時候，美國國內的犯罪率就升高」這個結論。

在20世紀50年代後期，由於戰爭結束，中國人口增加的速度上升了。而與此同時，由於文化等方面的原因，美國很多青少年感到迷茫，出現了「垮掉的一代」，導致全國犯罪率在那些年中連續上升。從統計數字中，我們可以看到，中國人口和美國國內犯罪率都在同步增長，我們能否由此得出結論：中國人口增加導致了美國國內犯罪率的上升？或者反之，美國國內犯罪率的上升導致了中國人口的增加？

顯然，兩個結論都很荒唐。確實，兩者在數字方面出現了同步上升的情形，呈現出近乎正比的關係，或者說，兩者之間的相關係數非常高。但實際上它們之間沒有任何關係，表現出高度的相關性純屬偶然。所以當我們面對統計數字的時候，我們的結論要考慮相關性的問題。在某些情況下，有很高的相關係數，並不意味著兩者間就有因果關係，它們可能什麼關係也沒有。我們再來看看下面的例子：

小兒麻痺症是一種已經消失了的傳染病。在發達國家以前的調查中，曾發現這種病的發病率和飲料的銷售量有很大關係，它們的相關係數高達0.8。難道是飲料不衛生，使小兒麻痺症是通過飲料傳染？可是在第三世界國家，市場上幾乎沒有飲料賣，發病率和發達國家卻相差無幾。這背後隱藏的因素是什麼呢？

是溫度在作怪！引起小兒麻痺症的病毒傳染力隨著氣溫的上升而增強，飲料的銷售也和溫度有著同樣的關係，難怪飲料銷售會和發病率一起增長。

原來很高的相關係數，也有可能是第三種因素在搗鬼，並不意味著兩者間就有因果關係。

有個企業對自己連續好幾年的銷售額和廣告費做了分析，發現兩者相關係數是0.86，於是得出結論，他們的產品廣告費與銷售量成正比。企業在次年大力加大了廣告的投入，可效果遠沒有估計的那麼大。是什麼導致這麼大的偏差呢？廣告費和銷售額可的確是有因果關係的呀！

請來專家分析後發現，原來前幾年該企業產品的價格也一直在下降，直到上年才穩定下來。產品價格的下降，本身就極大地刺激了銷售，銷售量的增長不僅可以彌補價格下降帶來的損失，還使銷售額有了新的增長，再加上這幾年廣告費也增加了投入，使銷售額有了更進一步的增長。分析人員分析時只注意到廣告費與銷售額同比增長，卻沒有考慮價格下降對銷售的刺激作用。而上年價格正好穩定下來，廣告費對銷售額的實際影響才顯露出來。

原來即使有因果關係的事物間，表面上看起來有很高相關係數，也可能是我們忽略了別的重要因素的結果。

在一些更複雜的變化中，統計數字得出的結論更顯得撲朔迷離，這需要我們對各種因素進行更全面的分析，例如，大氣二氧化碳含量與全球變暖的關係。

工業革命後，由於人口大量增加，石油和煤炭的燃燒，釋放出大量的二氧化碳氣體，加上植被的破壞，大氣中二氧化碳濃度由0.028%上升到0.039%，而同期世界的平均氣溫上升了0.7℃。要知道，過去的1萬年地球氣溫一共才上升了3℃。

那麼，全球平均氣溫升高是否由二氧化碳的排放引起呢？從相關係數的角度看，我們不能輕易地下結論。因為大氣是個非常複雜的系統，影響氣溫變化的因素多種多樣，如太陽活動、火山活動、氣流變化等，我們對大氣的變化規律還了解得太少，憑什麼把氣溫的上升都歸罪到二氧化碳頭上呢？會不會背後有其他的原因引起二氧化碳和氣溫同時增長呢？又或者全球變暖和二氧化碳增加其實根本就沒有關係，只是地球偶然發了一次「高燒」，不久以後溫度就會回到正常？

在塑料大棚裡，提高二氧化碳的含量可以使大棚溫度升高；金星的大氣成分主要是二氧化碳，由於溫室效應，那裡的大氣溫度可以高達400℃，這些都是間接證據，說明二氧化碳含量和全球變暖的相關性很大。雖然從統計學的角度，我們不能排除其他因素導致全球變暖的可能，不過我們還是基本可以認定，二氧化碳是全球變暖最大的「嫌疑犯」。

統計數字告訴了我們很多信息，然而如果我們對統計數字不加分析，或者錯誤地分析了統計數字，我們就會被它誤導，被它欺騙。比如前面提到的例子，樣本選擇的錯誤會讓《文學文摘》破產；對人均收入的草率分析會讓我們忽視勞苦大眾的疾苦；沒有了統計指數，我們就無法比較白菜和電腦的價格波動哪一個對我們影響更大；不分析相關性的真偽，我們就會得出荒唐的結論⋯⋯的確，統計是淘金的工具，不過並非每個握著淘金篩的人，都能淘到金子，要從統計數字中淘到真金，我們需要一雙正確分析統計數字的火眼金睛。

數字困惑——統計與我們的生活

相關焦點

路橋區「三頭並進」提升數字經濟產業統計水平

10分鐘讀完《統計數字會撒謊》

「雙11」天文數字從何而來?按需統計

美聯邦眾議員趙美心:實際仇視亞裔數字應比統計數字更多

愛滋病全球最新統計數字

統計數字會說謊:世界上有三種謊言:謊言、彌天大謊和統計數據

《細胞分裂》鐵桿粉絲統計出了魚叔的確切擊殺數字

統計數字將反映暢通國內國際雙循環進程

我們都是自我生活的主宰者

神秘的首位數定理,有點讓人困惑

【概率論與數理統計】第5期:隨機變量的數字特徵

很多公費留學的人畢業留在國外,冰冷的統計數字讓人痛心

天使數字:111的象徵

數字時代,我們用計算機來比喻自然!

統計說謊法

Excel用計數Count統計含或不含重複數字的個數與非空單元格數

數字經濟時代,銀行怎麼把數字人民幣轉換為實體人民幣價值?

老人如何安享數字時代生活? 網際網路甄別能力待提高

從統計顯著性到顯著性統計

《騰訊數字生活報告2019》:親密關係從一見鍾情到一「鍵」鍾情