作者介紹
@大師兄
混跡數據江湖十餘載。
主要負責大數據商業變現和產品運營工作。
學好統計學,讓你成為高富帥,迎娶白富美,走上人生巔峰,不是不可能,但可能性只有0.00001%。從統計學的角度,這是小概率事件。但是學好統計學的現實好處多多,我就隨便舉幾個例子給大家聽聽。
學會看問題,懂得數字的意義。新聞報導上,各種各樣的數字隨處可見,如果你不想被各種數字矇騙,最好學點統計學。學過統計的人,當看到這樣的數字的時候,就會多問幾個為什麼,就能明白數字背後的真實含義了。
用數據說話,讓你的說服力爆表。現在職場上的人們,誰不要給領導匯報工作,或者團隊之間討論問題。當你匯報和討論的時候,光說,「我覺得」,「我保證」,「根據我的經驗」,這些個詞太沒有信服力了。必須說數據,擺事實。利用清晰的數據傳達具有強有力說服的信息。
體驗一種與眾不同的思維方式。很多人的思維方式,非黑即白。但世界上的很多事物並不是非黑即白。統計學的思維就是永遠不肯定這個世界到底是什麼樣子的。統計學永遠是講概率的,就是可能性。這就是一種概率思維方式。
懂因果,知報應。統計學常常研究兩個因素之間的關係,叫做因果關係。例如,你的學歷對你收入的影響。統計學家可能會說,學歷每提升一個層次,年收入將提高1.2萬元。所以不要相信讀書無用論,你要相信概率。如果你相信自己能成為比爾蓋茨,那讀書對你確實沒意義,同樣,這只是小概率事件,基本不會發生在你身上。
既然統計學這麼厲害,這麼牛逼,這麼重要。作為統計學專業的我,我就忍不住要給大家好好梳理下統計學的知識框架,並且帶著大家一點一點的學習下統計學和概率論的知識。在今後的關於統計學的文章中,我努力實現以下幾個小目標。
目標一:構建出統計學需要掌握的知識框架,讓讀者對這個知識體系一覽無餘。
目標二:儘量闡述統計學每個知識在數據分析工作中的使用場景以及邊界條件。
目標三:為讀者解答數據分析中碰到的各種統計學問題。
今天這篇文章,主要還是帶大家從宏觀的層面理解下統計學。
概率與概率分布
稍微關注過統計學的人,可能會這麼一個疑問。為什麼大學裡會有這樣兩門課,《概率論與數理統計》,《統計學》,它們有什麼區別?
我的理解,《概率論與數理統計》更專業一些,偏理工科,會有大量公式的推導,知其然,知其所以然;而統計學這本書更基礎,側重於概念現象的解釋,一般會直接給出結論,而不要求掌握結論的數理推導過程,文理科皆可用。
但不管是哪門課程,前期都是先講概率和概率分布。概率論是統計學的基礎,而隨機事件的概率是概率論研究的基本內容。
統計學不研究統計,它研究的是不確定性。我們的世界是一個充滿不確定性的環境,整個世界並非嚴格按照某個制定好的路線運行的。多數事物之間也並非有因必有果,萬物之間充滿了不可控的隨機事件,我們不會因為今天努力了明天就一定會成功。
不確定性事件唯一的規律就是概率,獨立隨機事件我們沒辦法預測或控制它在某個時刻一定會發生,但卻可以用概率來描述它發生的可能性。以概率論作為理論基礎,為我們提供了認識不確定世界的方法。
這一章節,需要大家掌握幾個核心概念:
隨機事件概率概率分布數字特徵
用圖表演示數據
今年疫情期間,待在家裡除了陪伴家人以外,每天討論最多、關注最高的事件莫過於疫情的新動態,這些動態的展現形式大家有沒有注意到,各種專業、好看、直觀的圖表和數據圖,讓數據呈現得一目了然。
是的,工作中,一名數據分析師拿到了數據後,第一步要做的是數據初步探索,這也叫數據的預處理,這個時候,更多的就是利用各種圖表探索數據。圖表的好處是它可以很直觀的看到數據的分布以及趨勢,更有效的觀察數據。
這一章節,需要大家掌握幾個核心概念:
數據類型統計表統計圖
數據的概括性度量
利用上面所講的圖表展示,我們可以對數據分布的形狀和特徵有一個大致的了解,但要全面把握數據分布就要反映數據分布特徵的代表值。通常包含分布的集中趨勢、分布的離散程度、分布的形狀。
數據分析中,最常見的場景,就是你手上拿到一組,一批或者一坨數據。不懂統計學的人,可能會不知所措,或者說,你不做些加工和處理,你不知道這些數據有啥用。這個時候,就需要通過這些概括性的度量指標,來幫我們從宏觀上把握數據中的初步信息。
這一章節,需要大家掌握幾個核心概念:
眾數/平均數方差/標準差偏度/峰度
統計量及其抽樣分布
抽樣好懂,抽樣分布不好懂。
抽樣,就是從研究的總體中抽取一部分個體作為我們真正的研究對象,可以簡單把樣本理解為總體的一個子集,通過樣本的結果來推測總體情況。比如我們想知道中國成年男性的平均身高,理論上最準確的辦法是調查中國所有成年男性的身高,然後計算平均數。很顯然,沒人這樣做。實際的做法總是抽取一部分人,然後計算這部分人的平均身高,由這個平均身高來大致估計總體的平均身高。
理解了抽樣,再來理解抽樣分布。抽樣分布說的是對誰的分布?答案是樣本統計量,比如樣本均數或者樣本比例。以樣本均數為例,一般說樣本均數的抽樣分布如何如何,這裡,樣本均數被當成了一個隨機變量來看待。我們最希望大家記住的要點:樣本均數是一個隨機變量,但對於初學者,這確實是比較反直覺的。
為何樣本均數可以被當做一個隨機變量?因為樣本均數是依賴樣本計算得出的:每抽取一組樣本都可以計算出一個樣本均數,而且這些樣本均數或多或少都會有些差異。由此,樣本均數會隨著抽樣的不同而隨機變動。只是現實生活中我們一般只抽取一組樣本,計算一個樣本均數,因此,會覺得樣本均數不變。
這一章節,需要大家掌握幾個核心概念:
統計量抽樣抽樣分布
參數估計
當初大學裡,學數理統計的時候,到了這塊就感覺越來越難了,學習的過程中可以說就是囫圇吞棗,似懂非懂。但現在,經過漫長的實踐過程,對統計學的知識有了更深一步的理解。
統計推斷,說白了,就兩件事。第一個,參數估計。第二個,各類假設檢驗。學習到這裡,假如你是做數據挖掘,機器學習的,你就會強烈意識到,數據挖掘和統計學之間是存在千絲萬縷的聯繫。
參數估計,顧名思義就是對參數進行估計,那什麼是參數呢?就是你假設分布的參數就是說你認為或者知道某個隨機過程服從什麼分布,但是不確定他的參數是什麼,那怎麼辦?你採樣、採很多樣本(實際值),通過這些樣本的值去估計分布的參數就是參數估計。
這一章節,需要大家掌握幾個核心概念:
參數點估計區間估計
假設檢驗
上面講到,統計推斷就需要明白兩件事,一件是參數估計,另外一件是假設檢驗。
假設檢驗是什麼?說白了,假設檢驗就是先對總體猜一個參數值,然後利用樣本的數據檢驗這個參數值準不準。
網際網路生產實踐中的ABTEST方法,就經常會應用到假設檢驗的思想。
舉一個簡單的例子:
學而思網校App進行了改版迭代,現在有以下兩個版本
版本1:首頁為一屏課程列表
版本2:首頁為信息流
如果我們想區分兩個版本,哪個版本用戶更喜歡,轉化率會更高。我們就需要對總體(全部用戶)進行評估,但是並不是全部存量用戶都會訪問App,並且每天還會新增很多用戶,所以我們無法對總體(全部用戶)進行評估,我們只能從總體的用戶中隨機抽取樣本(訪問App)的用戶進行分析,用樣本數據表現情況來充當總體數據表現情況,以此來評估哪個版本轉化率更高。
這一章節,需要大家掌握幾個核心概念:
假設檢驗P值
回歸分析
大學裡學習統計學的時候,最喜歡學回歸分析,也是學的最明白的一部分。因為它的易懂性,也因為它的實用性。但隨著自己數據分析經驗的積累,對回歸分析的理解也越來越深,它不是簡單的回歸模型求解那麼簡單,它更是一種日常工作中解決問題的思路和方法論。
數據挖掘中使用的各種高深的模型,任何模型都可理解成回歸模型,包含因變量Y和自變量X,求解參數。
在我看來,回歸分析由兩部分組成:業務分析和技術分析。其中,業務分析屬於「道」的層面,而技術分析屬於「術」的層面。從「道」的層面來看,回歸分析是業務分析,其分析的不是數據,而是業務,是業務中的不確定性。通過業務分析,獲得對業務不確定性的理解,進而將抽象的不確定性業務問題轉換成一個具體的數據可分析問題。
什麼是數據可分析問題?一個業務問題,只要有清晰定義的因變量Y(不管是看得見的,還是看不見的)和清晰定義的自變量X,這就是一個數據可分析問題。一旦把業務問題規範成一個具體的數據可分析問題(有清晰定義的Y和X),那麼接下來就是技術分析,屬於回歸分析「術」的層面。在這個層面,人們關心對於一個既定的Y和X,要研究其中的不確定性,應該選擇什麼樣的模型設定,線性模型還是非線性模型,一元模型還是多元模型,簡單的決策樹還是隨機森林,普通的神經網絡還是深度學習。模型設定確定下來後,還需思考應該用什麼方法估計,如何調優,等等。
以上是對回歸分析的一種廣義上的理解,狹義上理解回歸分析,需要理解以下幾個核心概念:
相關係數回歸分析最小二乘法顯著性檢驗多重共線性擬合優度
當然,統計學的知識還包含很多,比如方差分析,時間序列分析,統計指數等等,這些知識在特定的應用場合,也有著廣泛的應用,只是相比以上的知識點,應用範圍更小點。
一個數據人的自留地是一個助力數據人成長的大家庭,幫助對數據感興趣的夥伴們明確學習方向、精準提升技能。