統計學知識大梳理(終極篇)

2020-12-09 一個數據人的自留地

作者介紹

@大師兄

混跡數據江湖十餘載。

主要負責大數據商業變現和產品運營工作。

學好統計學,讓你成為高富帥,迎娶白富美,走上人生巔峰,不是不可能,但可能性只有0.00001%。從統計學的角度,這是小概率事件。但是學好統計學的現實好處多多,我就隨便舉幾個例子給大家聽聽。

學會看問題,懂得數字的意義。新聞報導上,各種各樣的數字隨處可見,如果你不想被各種數字矇騙,最好學點統計學。學過統計的人,當看到這樣的數字的時候,就會多問幾個為什麼,就能明白數字背後的真實含義了。

用數據說話,讓你的說服力爆表。現在職場上的人們,誰不要給領導匯報工作,或者團隊之間討論問題。當你匯報和討論的時候,光說,「我覺得」,「我保證」,「根據我的經驗」,這些個詞太沒有信服力了。必須說數據,擺事實。利用清晰的數據傳達具有強有力說服的信息。

體驗一種與眾不同的思維方式。很多人的思維方式,非黑即白。但世界上的很多事物並不是非黑即白。統計學的思維就是永遠不肯定這個世界到底是什麼樣子的。統計學永遠是講概率的,就是可能性。這就是一種概率思維方式。

懂因果,知報應。統計學常常研究兩個因素之間的關係,叫做因果關係。例如,你的學歷對你收入的影響。統計學家可能會說,學歷每提升一個層次,年收入將提高1.2萬元。所以不要相信讀書無用論,你要相信概率。如果你相信自己能成為比爾蓋茨,那讀書對你確實沒意義,同樣,這只是小概率事件,基本不會發生在你身上。

既然統計學這麼厲害,這麼牛逼,這麼重要。作為統計學專業的我,我就忍不住要給大家好好梳理下統計學的知識框架,並且帶著大家一點一點的學習下統計學和概率論的知識。在今後的關於統計學的文章中,我努力實現以下幾個小目標。

目標一:構建出統計學需要掌握的知識框架,讓讀者對這個知識體系一覽無餘。

目標二:儘量闡述統計學每個知識在數據分析工作中的使用場景以及邊界條件。

目標三:為讀者解答數據分析中碰到的各種統計學問題。

今天這篇文章,主要還是帶大家從宏觀的層面理解下統計學。

概率與概率分布

稍微關注過統計學的人,可能會這麼一個疑問。為什麼大學裡會有這樣兩門課,《概率論與數理統計》,《統計學》,它們有什麼區別?

我的理解,《概率論與數理統計》更專業一些,偏理工科,會有大量公式的推導,知其然,知其所以然;而統計學這本書更基礎,側重於概念現象的解釋,一般會直接給出結論,而不要求掌握結論的數理推導過程,文理科皆可用。

但不管是哪門課程,前期都是先講概率和概率分布。概率論是統計學的基礎,而隨機事件的概率是概率論研究的基本內容。

統計學不研究統計,它研究的是不確定性。我們的世界是一個充滿不確定性的環境,整個世界並非嚴格按照某個制定好的路線運行的。多數事物之間也並非有因必有果,萬物之間充滿了不可控的隨機事件,我們不會因為今天努力了明天就一定會成功。

不確定性事件唯一的規律就是概率,獨立隨機事件我們沒辦法預測或控制它在某個時刻一定會發生,但卻可以用概率來描述它發生的可能性。以概率論作為理論基礎,為我們提供了認識不確定世界的方法。

這一章節,需要大家掌握幾個核心概念:

隨機事件概率概率分布數字特徵

用圖表演示數據

今年疫情期間,待在家裡除了陪伴家人以外,每天討論最多、關注最高的事件莫過於疫情的新動態,這些動態的展現形式大家有沒有注意到,各種專業、好看、直觀的圖表和數據圖,讓數據呈現得一目了然。

是的,工作中,一名數據分析師拿到了數據後,第一步要做的是數據初步探索,這也叫數據的預處理,這個時候,更多的就是利用各種圖表探索數據。圖表的好處是它可以很直觀的看到數據的分布以及趨勢,更有效的觀察數據。

這一章節,需要大家掌握幾個核心概念:

數據類型統計表統計圖

數據的概括性度量

利用上面所講的圖表展示,我們可以對數據分布的形狀和特徵有一個大致的了解,但要全面把握數據分布就要反映數據分布特徵的代表值。通常包含分布的集中趨勢、分布的離散程度、分布的形狀。

數據分析中,最常見的場景,就是你手上拿到一組,一批或者一坨數據。不懂統計學的人,可能會不知所措,或者說,你不做些加工和處理,你不知道這些數據有啥用。這個時候,就需要通過這些概括性的度量指標,來幫我們從宏觀上把握數據中的初步信息。

這一章節,需要大家掌握幾個核心概念:

眾數/平均數方差/標準差偏度/峰度

統計量及其抽樣分布

抽樣好懂,抽樣分布不好懂。

抽樣,就是從研究的總體中抽取一部分個體作為我們真正的研究對象,可以簡單把樣本理解為總體的一個子集,通過樣本的結果來推測總體情況。比如我們想知道中國成年男性的平均身高,理論上最準確的辦法是調查中國所有成年男性的身高,然後計算平均數。很顯然,沒人這樣做。實際的做法總是抽取一部分人,然後計算這部分人的平均身高,由這個平均身高來大致估計總體的平均身高。

理解了抽樣,再來理解抽樣分布。抽樣分布說的是對誰的分布?答案是樣本統計量,比如樣本均數或者樣本比例。以樣本均數為例,一般說樣本均數的抽樣分布如何如何,這裡,樣本均數被當成了一個隨機變量來看待。我們最希望大家記住的要點:樣本均數是一個隨機變量,但對於初學者,這確實是比較反直覺的。

為何樣本均數可以被當做一個隨機變量?因為樣本均數是依賴樣本計算得出的:每抽取一組樣本都可以計算出一個樣本均數,而且這些樣本均數或多或少都會有些差異。由此,樣本均數會隨著抽樣的不同而隨機變動。只是現實生活中我們一般只抽取一組樣本,計算一個樣本均數,因此,會覺得樣本均數不變。

這一章節,需要大家掌握幾個核心概念:

統計量抽樣抽樣分布

參數估計

當初大學裡,學數理統計的時候,到了這塊就感覺越來越難了,學習的過程中可以說就是囫圇吞棗,似懂非懂。但現在,經過漫長的實踐過程,對統計學的知識有了更深一步的理解。

統計推斷,說白了,就兩件事。第一個,參數估計。第二個,各類假設檢驗。學習到這裡,假如你是做數據挖掘,機器學習的,你就會強烈意識到,數據挖掘和統計學之間是存在千絲萬縷的聯繫。

參數估計,顧名思義就是對參數進行估計,那什麼是參數呢?就是你假設分布的參數就是說你認為或者知道某個隨機過程服從什麼分布,但是不確定他的參數是什麼,那怎麼辦?你採樣、採很多樣本(實際值),通過這些樣本的值去估計分布的參數就是參數估計。

這一章節,需要大家掌握幾個核心概念:

參數點估計區間估計

假設檢驗

上面講到,統計推斷就需要明白兩件事,一件是參數估計,另外一件是假設檢驗。

假設檢驗是什麼?說白了,假設檢驗就是先對總體猜一個參數值,然後利用樣本的數據檢驗這個參數值準不準。

網際網路生產實踐中的ABTEST方法,就經常會應用到假設檢驗的思想。

舉一個簡單的例子:

學而思網校App進行了改版迭代,現在有以下兩個版本

版本1:首頁為一屏課程列表

版本2:首頁為信息流

如果我們想區分兩個版本,哪個版本用戶更喜歡,轉化率會更高。我們就需要對總體(全部用戶)進行評估,但是並不是全部存量用戶都會訪問App,並且每天還會新增很多用戶,所以我們無法對總體(全部用戶)進行評估,我們只能從總體的用戶中隨機抽取樣本(訪問App)的用戶進行分析,用樣本數據表現情況來充當總體數據表現情況,以此來評估哪個版本轉化率更高。

這一章節,需要大家掌握幾個核心概念:

假設檢驗P值

回歸分析

大學裡學習統計學的時候,最喜歡學回歸分析,也是學的最明白的一部分。因為它的易懂性,也因為它的實用性。但隨著自己數據分析經驗的積累,對回歸分析的理解也越來越深,它不是簡單的回歸模型求解那麼簡單,它更是一種日常工作中解決問題的思路和方法論。

數據挖掘中使用的各種高深的模型,任何模型都可理解成回歸模型,包含因變量Y和自變量X,求解參數。

在我看來,回歸分析由兩部分組成:業務分析和技術分析。其中,業務分析屬於「道」的層面,而技術分析屬於「術」的層面。從「道」的層面來看,回歸分析是業務分析,其分析的不是數據,而是業務,是業務中的不確定性。通過業務分析,獲得對業務不確定性的理解,進而將抽象的不確定性業務問題轉換成一個具體的數據可分析問題。

什麼是數據可分析問題?一個業務問題,只要有清晰定義的因變量Y(不管是看得見的,還是看不見的)和清晰定義的自變量X,這就是一個數據可分析問題。一旦把業務問題規範成一個具體的數據可分析問題(有清晰定義的Y和X),那麼接下來就是技術分析,屬於回歸分析「術」的層面。在這個層面,人們關心對於一個既定的Y和X,要研究其中的不確定性,應該選擇什麼樣的模型設定,線性模型還是非線性模型,一元模型還是多元模型,簡單的決策樹還是隨機森林,普通的神經網絡還是深度學習。模型設定確定下來後,還需思考應該用什麼方法估計,如何調優,等等。

以上是對回歸分析的一種廣義上的理解,狹義上理解回歸分析,需要理解以下幾個核心概念:

相關係數回歸分析最小二乘法顯著性檢驗多重共線性擬合優度

當然,統計學的知識還包含很多,比如方差分析,時間序列分析,統計指數等等,這些知識在特定的應用場合,也有著廣泛的應用,只是相比以上的知識點,應用範圍更小點。

一個數據人的自留地是一個助力數據人成長的大家庭,幫助對數據感興趣的夥伴們明確學習方向、精準提升技能。

相關焦點

  • 總結篇丨統計學類:萬物皆數
    寫在前面 在終極的分析中,一起知識都是歷史;在抽象的意義中,一切科學都是數學;在理性的基礎上,所有的判斷都是統計學。 ——C.R.RAO《統計與真理》
  • 統計學知識大梳理
  • 初中生物:會考知識點大梳理,初一至初二,大小考試提分必看!
    初中生物:會考知識點大梳理,初一至初二,大小考試提分必看!近來,很多同學反映生物不知道怎麼學,尤其是初一的孩子,接觸生物一個學期之後,還是覺得很迷茫。我們要知道,生物是一門注重實驗的課程,在日常進行實驗的時候,一定要將教材知識與實際過程相結合。平時學習的時候,不要只記憶核心事項,對於每個知識點要有深入的掌握和理解。除此之外,課本上的圖像、表格、相片所表示的意思應該理解記憶。為了幫助同學們學好初中生物,小編老師將初一至初二的生物知識進行了整理,如果是正在準備會考的孩子,可以列印一份進行複習。
  • 統計學基礎知識
    本篇歸納統計學基礎知識,包括一些基礎理論、概念、方法等,作為數據分析的前置知識。
  • 統計學知識闖關
    來源:數據分析1480本文長度為2800字,建議閱讀8分鐘闖下這十關,收穫新知識第4關:統計學意義(P值) 答:結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,P值為結果可信程度的一個遞減指標,P值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。P值是將觀察結果認為有效即具有總體代表性的犯錯概率。
  • 想學統計學需要掌握哪些知識?
    前期需要:微積分統計學知識較深,用的地方非常廣,還是希望說一下您想做什麼用。是在工程上用?還是在臨床試驗上用?還是基因組排序上用?處理金融資產實現無風險套利時用?亦或是在法律統計上用?曾經統計過我們這一級同學對這類問題的回答,大多數都回答「統計是工具,是一種思維方式,需要和其他的知識或領域結合……巴啦巴啦」(當然這也是由於我們這一級的傢伙,80多個人,有50多人選修了第二專業,為了側面烘託自己的優勢也會這麼去說).
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 就業篇丨統計學類:開啟數字人生新篇章
    寫在前面市場對於統計學人才的需求很大,尤其是網際網路公司、投資機構、諮詢公司、軟體公司、金融機構以及醫藥機構等。這一講我們開始介紹統計學的就業情況。在大數據的推動下,統計學專業受到追捧,今天我們就向大家具體介紹統計學本科畢業未來可選擇的就業方向。統計學專業要兼顧知識和實踐,二者缺一不可。
  • 第四篇 人群健康研究的統計學方法--第十六章 統計學方法基本概念...
    第四篇 人群健康研究的統計學方法   統計學是研究數據搜集、整理與分析的科學,是認識社會和自然現象數量特徵的重要工具。合理的統計分析能幫助我們正確認識事物客觀存在的規律性。基礎醫學、臨床醫學和預防醫學各個方面的科學研究以及醫療衛生實踐和居民健康狀況研究,都需要根據設計去搜集、整理資料進行合理的統計分析。
  • 統計學知識梳理
    學習知識亦是如此,一個概念衍生出兩個概念,兩個概念演化出更小的子概念,接著衍生出整個知識體系。筆者結合自己對統計學和概率論知識的理解寫了這篇文章,有以下幾個目標目標一:構建出可以讓人理解的知識架構,讓讀者對這個知識體系一覽無餘目標二:盡l量闡述每個知識在數據分析工作中的使用場景及邊界條件
  • 健偉教育:流行病學和醫學統計學基本知識
    流行病學和醫學統計學是預防醫學中的主幹學科,其基本概念、基本知識和基本技能的學習和掌握對健康管理師科學思維方式的培養、知識結構的完善和專業工作能力的提高有重要意義。落腳點是為預防和控制疾病,促進健康提供科學的決策依據流行病學思維導圖對於第一節流行病學的基本知識的學習,同學們重點掌握流行病學的基本概念;常用指標中發病率、患病率、死亡率的計算、相對危險度的意義這幾個部分。
  • 【入門】數據分析必備——統計學入門基礎知識
    ——數據說·夢想季導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 全職高手人物關係大梳理 網吧老闆娘陳果是葉修的恩人&未來的戀人
    全職高手人物關係大梳理 網吧老闆娘陳果是葉修的恩人&未來的戀人時間:2019-07-26 22:34   來源:愛福清網   責任編輯:沫朵 川北在線核心提示:原標題:全職高手人物關係大梳理 網吧老闆娘陳果是葉修的恩人未來的戀人 全職高手真人版電視劇開播之後還是很受歡迎的,尤其符合遊戲迷的口味,遊戲與真實切換極其自然流暢
  • 申請英美研究生你必須知道的知識——統計學
    統計學的分支統計學的研究大致可以分為兩類,一類偏向於理論統計學,另一類偏向於應用統計學。其中:1.1 理論統計學理論統計學從純理論的角度,對統計方法加以推導論證,核心是統計推斷問題,實質是以歸納方法研究隨機變量的一般規律。
  • 看包拯如何利用統計學知識斷案——觀《開封奇案》有感
    我個人一直認為,不要把統計學只作為一門學科看待,統計學是一種方法、技術、藝術,在所有的日常生活、管理、科研、工作等等幾乎都能用到。
  • 你想知道的情態動詞知識點大梳理這裡都有了,趕快收藏吧!
    初中英語情態動詞易錯點大梳理(2) may(might)表示許可,可能或用於請求,許可;表示說話人的猜測(可能)May初中英語情態動詞易錯點大梳理(6) shall表示命令,許諾,威脅,強制,警告,請求Every athlete shall
  • 經濟統計學屬於經濟學類還是統計學類?
    是屬於經濟學類還是統計學類呢?就業前景和形勢又是怎樣的呢?下面一起來解讀經濟統計學專業吧!  經濟統計學屬於經濟學類專業,將經濟學與統計學結合在一起。統計學是收集、描述、分析和研究經濟數據的理論和方法。經濟統計是統計學在經濟領域中的應用。
  • 統計學基本知識
    (二)統計學中的重要概念  1.變量  研究者對每個觀察單位的某項特徵進行觀察和測量,這種特徵稱為變量,變量的測得值叫變量值(也叫觀察值)。統計學中的許多結論是帶有概率性質的,通常一個事件的發生小於5%,就叫小概率事件。  6.誤差  統計上所說的誤差泛指測量值與真值之差,樣本指標與總體指標之差。主要有以下兩種:  (1)系統誤差  指數據搜集和測量過程中由於儀器不準確、標準不規範等原因,造成觀察結果呈傾向性的偏大或偏小,這種誤差稱為系統誤差。  特點:具有累加性。
  • 統計學知識系列:一篇搞懂假設檢驗
    前言:對於數據分析師來說
  • 了解加州大學河濱分校統計學,這篇全搞定
    它們是南加州唯一一個可以獲得應用統計學博士學位的課程。統計學院的教職員工全心全意致力於研究生的成功。作為我們的研究生,您將能夠與教師和其他研究生密切合作,開展創新的統計研究項目,並成為部門成功的統計諮詢合作實驗室的一部分,為校園和商業社區服務。我們的教師因其在研究,教學和服務方面的專業貢獻而獲得國家/國際認可。