超智星球的喬,曾經和東方林語一起,在同一個AI星球上開過荒,撒過種,埋過土,澆過水……
但新開闢一個AI星球太難了,付出了無數汗水,離收穫的季節,還有一段歷程。
所以,我們得把基礎打牢固才行。
有人說,人工智慧的基礎就是統計學。
那麼,東方林語和超智星球一起,先給大家聊聊大數據和人工智慧的基礎——統計學。
正文開始
您好,我是超智星球的001號開荒者--喬。我日常的工作,就是在超智星球上,挖坑、撒種、埋土、澆水、收穫等一系列開荒工作(學習分享,整理知識資料)
本期,我挖的坑是"統計學",它將是我們超級智能欄目-《人工智慧STEM》系列的第一門課程。我挖了坑。總會先講下為什麼挖這個坑,然後開始播種。至於要不要澆水、種植、收穫,全由您個人判斷。
本文的目的,就是希望能幫助您簡單判斷下,您會不會對統計學這個坑有興趣。核心圍繞兩個問題,「統計學跟我有沒有關係?我要不要了解下統計學?」
1、統計學,是我們認識世界的一個工具
人類通過「總結」,從日常接觸的經驗中學到「規律和道理」。但如果不懂統計學,從數據和信息中得出的「規律和道理」就可能是錯的。
生活中,我們總會聽到一些不靠譜、不可信的言論,卻不知其錯在哪裡:
(1)學習無用論:「好多學歷不高的人,比學歷高的人混得還好?有的哈佛畢業生,收入還比不上一些不知名微商」;(2)菸酒無害論:「隔壁王大爺天天抽菸,活到九十九,而張二狗不抽菸不喝酒,才二十多歲就疾病纏身了,所以啊,抽菸喝酒沒那麼大危害,淨嚇唬人的」;(3)同齡人都結婚啦論:「我當初像你這麼大時都當爸爸/媽媽啦!所以你也得抓緊啊」。
其實以上這些問題,本身就犯了缺乏統計學常識的錯誤。至少出現了以下3個誤區: (1)存在樣本偏差。比如抽菸,樣本數量非常有限,得出的結論是不靠譜的;(2)將相關關係和因果關係弄混了。比如賺錢,不僅與學歷有關,還與能力,機會等很多因素有關;(3)沒有採用正確的分析方法。比如在分析學歷和收入之間的關係時,應該保證:學歷之外的其他條件都是一致的並且不變的,這樣分析得出的結論,才是有意義的。
年輕人一般都具備統計學常識,不會上面那些犯明顯的常識錯誤。但難免會落入下面這些更深更隱晦的數字陷阱:
(1)每年年底,各大城市公布自己的社會平均工資以及家庭平均收入的時候,總是聽到下面噓聲一片,每每吐槽自己對不起大家,又拖後腿了;
(2)各種培訓機構號稱,「大數據分析師,平均年薪50萬」,然後等你找工作以後發現自己薪資不夠;
(3)整容醫生說「某項整容手術成功率有90%」,某公眾號說「該整容手術失敗率高達10%」,同一回事,但會有不同的感覺,影響你判斷。
以上的陷阱其實,仍然是一種數據魔法,一種數據解讀。
統計學是一門關於收集數據、分析數據、並根據數據進行推斷的科學和藝術。學習統計學,了解統計學思想,就能夠對於這些現象有更清晰的認識。
2、統計學,指導我們改造世界的實踐工作
對很多人的工作來說,會用Excel就可以了,很多人也會說「我會統計,我懂統計學」。為此,你需要了解一個基礎知識:統計學到底研究什麼?你明白了這個問題的答案,也就自然明白了為什麼要學統計學。
你也許會說:「噫?統計學,不就是研究統計嗎?」對這個問題的理解,關鍵在於如何定義「統計」。如果「統計」代指「統計學」這個領域,那當然是對的。「統計學」研究「統計學」嘛。但是,如果「統計」是指,普羅大眾印象中的,表哥表姐們做的各種EXCEL描述統計(例如:數數、求和、求均值、求最大最小值),那可就太狹隘了。雖然描述統計是統計學的一部分。但是,絕大多數情況下,它們只是統計學研究問題的一個手段,而不是被研究問題本身。因此,你首先要清楚:統計學不等於統計!
以會計數據分析為例。如果會計分析的目標僅僅是盤點企業現有資產、利潤、以及負債情況,這基本上是一個純粹的會計數據分析問題,跟統計學無關。為什麼?因為這裡面沒有不確定性。這也解釋了絕大多數會計從業者並不需要統計學加持,照樣能把會計工作做得很好。但是,如果會計分析的目的是輔助投資決策,故事可能就有所不同。一個可能的數據分析需求是:如何基於現有的會計數據,預測企業來年的利潤,並以此指導投資決策。你看,這是一個什麼問題?答:這仍然是一個會計問題,是一個關於投資的會計問題。但是,這個會計問題跟傳統的會計問題有啥不同?答:這個會計問題有不確定性存在。因為,這個工作要求基於現在預測未來,而未來具有很大的不確定性。這就變成了一個非常典型的統計學問題,是在會計業務實踐中產生的統計學問題。
再看一個例子。一個運營非常成功的APP,每天要匯報一下日活數目。也就是說,每天要計算一下當天活躍用戶的總數。這是一個什麼問題?答:統計問題,非常傳統的統計問題,數數問題,跟統計學無關。當然,在實際工作中,如果該APP的裝機量非常巨大,要把這個數字數清楚可能很不容易。為此,我們需要關於活躍用戶科學合理的定義,可能還需要大數據分布式計算的平臺(例如:Hadoop)。但是,這個問題本質上跟統計學無關,是一個傳統的統計問題,統計學不研究。但是,如果經營管理者關心未來(例如:下周)的日活數目,這個問題瞬間就變成了一個統計學問題。為什麼?因為站在今天預測未來,有很大的不確定性。不確定性來自於用戶規模增長的不確定性,以及流失的不確定性,還有活躍程度的不確定性。這就變成了一個典型的統計學問題。
由此可見,僅僅用"統計"或是數據分析來定義統計學是非常不嚴謹的,對於工作來說,我們除了需要學會統計,分析確定性的局面,更需要深刻的理解統計學,面對不確定性問題。
3、從根本上,統計學幫助我們化解不確定性
統計學研究的問題本身到底是什麼?答:不確定性。如果更詳細一點:統計學研究不確定性,從中尋找確定性的規律,加以利用並創造價值。
在真實的世界中,不確定性無處不在。而統計學研究的正是不確定性。
例如,個人的人生選擇具有極大的不確定。(1)婚姻選擇就有著極大的不確定性。一對相愛的男女,是否應該接受對方,成為自己的終身伴侶,這就是一個重大選擇。這是幸福的遠航,還是痛苦的開始?這有很大的不確定性。(2)職業選擇也有著極大的不確定性。在有限的待選崗位中,你應該選擇哪一個?公務員,還是老師,或者企業?如果去企業,應該去國企,民企,還是外企?應該選擇哪個行業?金融、製造,還是網際網路?每一種選擇的後果都有著不確定性。在選擇之前,你需要進行各種預先調查,而統計學就是其中的一門重要工具。
消費者行為具有很強的不確定性。千萬別指望大數據能夠絕對準確地預測人的消費行為,這顯然是不可能的。去沃爾瑪購物之前,我信誓旦旦地說:「我要買可口可樂。」但是,等結帳出來,卻發現自己提著二鍋頭。你看,連我自己都無法絕對準確地預測自己,憑什麼你可以?憑什麼所謂的大數據可以?一個人的購買決定,太複雜,充滿不確定性。精準營銷(或者廣告)中的「精準」二字,說的其實不是絕對意義上的精準。而是,相對意義上的,是比胡蒙亂猜更加精準,僅此而已。
企業經營也是充滿不確定性的旅程。首先擺在企業面前的問題是:能活多久?這是一個不確定性事件。每年在工商登記註冊的新企業百萬計!但是,他們未來的生存狀況會怎樣?有哪些企業能夠存活超過三年?該選擇怎樣的經營策略?都具有高度的不確定性。為此,統計學是所有管理科學的必修課程。
除去企業工作,統計學在醫學,經濟學,金融學,社會學等各方面的應用是驚人的。沒有哪個科學領域可以躲過不確定以及統計學帶來的革命。如果該不確定性來自經濟學,那麼統計學就在經濟學中有了用武之地(例如:計量經濟學)。如果該不確定性來自生物醫學,那麼統計學就在生物醫學中有了用武之地(例如:生物統計學)。如果該不確定性來自生產質量管理,那麼統計學就在生產質量管理中有了用武之地(例如:質量管理、6-sigma)。
簡而言之,不確定性出現在哪裡,統計學的智慧就會傳播到哪裡,統計學就會在那裡生根發芽,並結出果實纍纍。對,這才是真正的統計學!
4、總結討論
你看,這個大千世界就是一個關於不確定性的世界,而人生就是一場關於不確定性的旅程。不確定性本身是中性的,它不好也不壞。一方面,無論今天多麼美好,不確定性會讓我們遲早run into trouble。另一方面,無論今天的生活多麼悲催,不確定性會讓這一切都會過去。人生面臨一次又一次的不確定性挑戰。這些挑戰可能關乎個人、關乎家庭、關乎機構、關乎行業,甚至關乎國家。而我們能否做出科學的抉擇?這需要我們具備一種獨特的能力,一種學習不確定性的能力,一種理解不確定性的能力,一種利用不確定性創造價值的能力。這,是人生的大智慧!而統計學是這個大智慧的基礎理論框架。你說你要不要學?
參考文獻:
[1] 程開明 , 莊燕傑 . 大數據背景下的統計 [J]. 統計研究 ,2014
[2] 熊大 . 為什麼要學習統計學. 狗熊會,2019
[3] 鄭衛軍 . 統計學的實質是什麼. 醫學論文與統計分析,2019
[4] 大數據文摘 . 統計學的真實含義. 數學加油吧,2019