很多人在學習統計時都認為統計由一系列枯燥的數字、公式和圖表組成,繁雜無味。然而隨著對這門課的深入理解,不知不覺中會逐漸體會到統計的趣味性。
《紅樓夢》作者考證
眾所周知,《紅樓夢》一書共120回,自從胡適作《紅樓夢考證》以來,一般都認為前80回為曹雪芹所寫,後40回為高鶚所續。然而長期以來這種看法一直都飽受爭議。
能否從統計上做出論證?從1985年開始,復旦大學的李賢平教授帶領他的學生作了這項很有意義的工作,他們創造性的想法是將120回看成是120個樣本,然後確定與情節無關的虛詞出現的次數作為變量,巧妙運用數理統計分析方法,看看哪些回目出自同一人的手筆。
一般認為,每個人使用某些詞的習慣是特有的。於是李教授用每個回目中47個虛詞(之,其,或,……;呀,嗎,咧,罷……;可,便,就……等)出現的次數(頻率),作為《紅樓夢》各個回目的數字標誌。之所以要拋開情節,是因為在一般情況下,同一情節大家描述的都差不多,但由於個人寫作特點和習慣的不同,所用的虛詞是不會一樣的。利用多元分析中的聚類分析法進行聚類,果然將120回分成兩類,即前80回為一類,後40回為一類,很形象地證實了不是出自同一人的手筆。
之後又進一步分析前80回是否為曹雪芹所寫?這時又找了一本曹雪芹的其它著作,做了類似計算,結果證實了用詞手法完全相同,斷定前80回為曹雪芹一人手筆,是他根據《石頭記》寫成,中間插入《風月寶鑑》,還有一些別的增加成分。而後40回是否為高鶚寫的呢?論證結果推翻了後40回是高鶚一個人所寫,而是曹雪芹親友將其草稿整理而成,寶黛故事為一人所寫,賈府衰敗情景當為另一人所寫等等。
這個論證在紅學界轟動很大,李教授他們用多元統計分析方法支持了紅學界的觀點,使紅學界大為讚嘆。
啤酒與尿布的故事
全球最大的零售商沃爾瑪通過分析顧客購物的數據後發現,很多周末購買尿布的顧客同時也購買啤酒。
經過深入觀察和研究發現,美國家庭買尿布的多是爸爸。年輕的父親們下班後要到超市買尿布,同時「順手牽羊」帶走啤酒,好在周末看棒球賽時過把酒癮。
後來沃爾瑪就把尿布和啤酒擺放得很近,從而雙雙促進了尿布和啤酒的銷量。
這個故事被公認是數據挖掘的經典範例。
在體育比賽中競技指標的應用
統計學在體育比賽中的應用主要是用統計的職業聯賽的數字反應比賽隊伍能否成為世界頂級,這是因為在體育比賽中應用統計學可以對比賽中的勝率進行分析,主要是將每個隊員在每個賽季比賽的分數和常規賽場上的分數進行統計,通過一系列的數學計算分析,制定出每個隊員得分平均值和標準差之間的正態分布圖,通過正態分布圖的穩定性來判斷隊員的技術穩定性。
以眾所周的NBA籃球比賽為例,NBA比賽中由於明星球員眾多,在運用統計學進行數據整體分析時,需要依據本質上的規律進行數據統計,而不是隨意的選擇數據進行統計.
例如,在進行籃球比賽發球這一項雙方隊員的進攻和防守的概率時,在進行指標選擇時就涉及到隨機事件的發生概率。
因此,可以運用統計學統計球員在每一場比賽上的均得分,通過這些數據指標的正態分布圖來確定球員的技術穩定性。
計程車肇事
某市發生一起計程車肇事逃逸案件,當時目擊證人僅有一位。據證人陳述,肇事車為綠色。該市計程車僅有藍、綠兩種顏色,其中0.5%的計程車為綠色。目前已排除了外市計程車肇事的可能性。
同時,為了驗證證人的辨色能力,還專門對其進行了辨色測試。測試結果表明,無論對藍色還是綠色,證人都能以95%的概率判斷正確。即若計程車為藍色(綠色),證人100次中能有95次準確地判斷出車為藍色(綠色)。
現在的問題是公安部門是否應該完全相信證人的目擊,而把調查完全放在該市的綠色計程車上?
通過統計中貝葉斯公式的計算,我們會發現證人的目擊並不能成為調查的依據,仍然需要將調查的重點放在藍色計程車上。
車間供電問題
某車間有200臺車床,由於檢修、測量、調換刀具等種種原因,即使在生產期間,各臺車床還是時常需要停工,若每臺車床有60%的時間在開動,而每臺車床開動時需要耗電1千瓦,那麼應該供給這個車間多少電力才能保證此車間正常生產?
顯然,若供給這個車間200 千瓦的電力則此車間便能正常生產。但這樣做很不划算,因為每臺車床的開工率只有60%,也就是說,平均起來這個車間中同時工作的車床只有120臺,供給200千瓦的電力太多了。那麼供給120千瓦的電力呢?這又太少了點,因為有時同時工作的車床數會超過120臺,則120千瓦的電能就不夠用,因而導致一些車床無法工作,那麼到底給多少電能才能既保證生產正常又節約電力呢?
事實上供給這個車間141千瓦的電就夠了,雖然在這時也可能碰到因電力不足導致部分車床無法運轉的情況,但是這種機會非常小,小於千分之一,也就是說在8小時的工作中只有30秒鐘會碰到這種情況,這顯然影響不大,但是節約出來的59千瓦電能卻可以用於很多別的用途。
這裡的計算涉及到統計學中的中心極限定理和正態分布.