隨機變量與數據分析——統計學與數學的區別(一)

2021-01-11 STEAM新數學自媒體

雖然統計學要利用數學方法來進行計算,但從《隨機變量與數據分析---數據分析》一文的數據分析中我們能體會到,統計學與數學在許多方面是不一樣的,是「合而不同」的。下面我們嘗試地分析一下二者之間的區別,這不僅有利於我們了解統計學,也有利於我們更加深層次地理解數學。

(一)立論基礎不同

從數量和數量關係這個角度考慮,數學是建立在概念和符號的基礎上的。為了研究數量,先從數量中抽象出自然數以及自然數的運算法則,根據運算的需要逐漸進行數的擴充:自然數與加法,整數與減法,有理數與除法,實數與極限;為了研究數量關係,定義了方程,函數,導數,微分,積分,微分方程。從對數學的抽象過程的討論我們知道,一個好的概念的形成和一個好的符號表達對於數學的發展是至關重要的。而統計學是建立在數學的基礎上的,雖然概念和符號對於統計學的發展也是重要的,但是統計學在本質上是通過數據進行推斷的。

(二)推理方法不同

與概念合符號相對應,數學的推理依賴的是公理和假設,雖然這些公理和假設可能是來源於人們的經驗和直觀;數學的推理過程在本質上是演繹法,這是一個以三段論為核心的推理方法,是一個從一般到特殊的方法,而統計學的推理依賴的是數據和數據產生的背景,強調根據背景尋找合適的推斷方法;統計學的推理過程在本質上是歸納法,這是一個從部分推斷全體的方法,是一個從特殊到一般的方法。

(三)判斷原則不同

我們已經說過,數學在本質上是確定性的,從同樣的條件出發就應當得到同樣的結果,如果結果不一樣則必然有一個是錯誤的。因此,數學對結果的判斷標準是「對錯」,從這個意義上說,數學是一門科學,而統計學是通過數據來推斷數據產生的背景,即便是同樣的數據,也允許人們根據自己的理解提出不同的推斷方法,給出不同的推斷結果,比如我們用過最大似然估計和貝葉斯估計,我們很難說哪種方法是對的或者哪種方法是錯的。因此,統計學對結果的判斷標準是「好壞」,從這個意義上說,統計學不僅是一門科學,也是一門藝術,因為藝術是允許「仁者見仁智者見智」的。

相關焦點

  • 統計學最常用的「數據分析方法」清單(二)
    通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換後的這組變量叫主成分。 主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。 1.
  • 技術硬、薪資高、好就業,卻一直默默無聞的統計學專業
    隨著大數據時代的到來,國內國外企業對於數據統計也越來越看重,統計學開始被人們所關注。統計學也是近年來美國非常熱門的申請專業之一,一方面因為該專業的申請難度相對較低(對比商業分析、金融等高收入專業),另一方面就職範圍較廣且薪資可觀。
  • 異質性、隨機誤差、效應修飾——談談Meta分析的固有缺陷
    當我們的情景中符合條件可交換性時,也就是例如我們在進行一個分層隨機試驗,除去分層變量的影響,在每一層中的幹預組和對照組之間的患者特徵是平衡的,也就是在每一層中進行一個完全隨機試驗,即層內效應量是沒有偏倚的。這種情況下,不同層間出現的效應量差別被稱為效應修飾現象。當這個分層變量同時可以被看作是另一個幹預時,這個現象被稱為交互效應。
  • 通過Python 代碼實現時間序列數據的統計學預測模型
    在本篇中,我們將展式使用 Python 統計學模型進行時間序列數據分析。** 問題描述 **目標:根據兩年以上的每日廣告支出歷史數據,提前預測兩個月的廣告支出金額。單變量時間序列統計學模型,如:平均方法、平滑方法、有/無季節性條件的 ARIMA 模型。
  • AI 的十種 「新數學」
    07 動力系統與隨機分析 還有隨機動力系統。隨機動力系統比較常用的一個問題是隨機梯度下降,隨機梯度下降本身是比較難研究的,也是現在深度學習理論研究裡面的一個瓶頸之一。但是我如果把它加一個人為的噪聲,比如這個η,變成帶了噪聲以後的迭代,叫「隨機梯度郎之萬動力學」,這樣可以有些比較好的理論分析,特別是它在解一些問題時可以有一些很好的結果。
  • 我用Excel發現了數據分析的本質:回歸分析
    數據分析的本質其實絕大多數的數據分析問題,都可以歸納為一個問題:相關性問題。相關性分析是數據統計學中的基礎思想,主要就是為了探究數據之間是否具有關聯性,簡單說就是X與Y或者X與Y、Z等之間的變化是否有關聯。
  • 數學專業5大方向?想學數學,總有一個方向適合你!
    本科階段各專業的課程和方向不同,其培養目標也不同:數學與應用數學,培養學生對數學基礎的學習,重點培養數學能力和創新能力;統計學,數據的歸納、收集、分析,掌握現代的統計學方法;信息與計算科學,培養計算數學方面的人才,運用計算機技術和數學算法來解決數學及應用領域的問題。數學專業細分:基礎數學、計算數學、概率論與數理統計、應用數學、運籌學與控制論。
  • 北大數據分析老鳥送給學弟們的經驗之談
    當然,它不是ABC的教程,也不是細緻的數據分析方法介紹,它只 是「總結」和「體會」。由於我所學所做均甚雜,我也不是學統計、數學出身的,故本文沒有主線,只有碎片,且文中內容僅為個人觀點,許多論斷沒有數學證明,望統計、計量大牛輕拍。
  • 科研必備:23種常用的資料分析方式匯總!
    06.引文分析引文分析法,就是利用各種數學及統計學的方法進行比較、歸納、抽象、概括等的邏輯方法,對科學期刊、論文、著者等分析對象的引用和被引用現象進行分析,以揭示其數量特徵和內在規律的一種信息計量研究方法。
  • 在數據科學領域中,你需要多少數學知識?
    然而, 堅實的數學基礎對於修改你的模型讓你的模型性能更好更加可靠來說是十分必要的。建立模型是一回事,解釋模型得出可用於數據驅動的決策的有意義的結論又是另一回事。用這些包之前,理解每個包中的數學原理是很重要的。因為這樣你才不是簡單地只是把這些包作為一個黑盒來使用。 II.
  • 吉林大學數學學院:實力強勁,我國重要的數學人才培養基地!
    2.主幹課程數學分析、高等代數、空間解析幾何、概率論與數理統計、數值分析、偏微分方程數值解法、資訊理論基礎、數據結構與算法、數學物理方程、最優化問題數值方法、可計算建模與算法設計、機器學習理論與應用、大數據技術與智能計算。
  • 2020年自考《社會統計學》真題
    自考社會統計學是自考的一門公共課,小編整理了一些模擬試題及答案,供大家參考。點擊進入:自考報名有疑問、不知道如何選擇主考院校及專業、自考當地政策不了解,點擊立即報考諮詢》》2020年自考《社會統計學》真題一、填空題(本大題共10小題,每空1分,共10分)請在每小題的空格中填上正確答案。錯填、不填均無分。1.________是統計上特有的方法。
  • 英國數學類專業不知如何選,這些方向了解下
    一、基礎數學:適合做研究或從事教學 基礎數學又叫純粹數學,即按照數學內部的需要,或未來可能的應用,對數學結構本身的內在規律進行研究,而並不要求同解決其他學科的實際問題有直接的聯繫
  • 數學模型分析:當喪屍橫行的時候,身為大活人可不是什麼好事
    可惜不是,當這一天真的到來時,人類就註定完蛋了,這只是簡單的數學問題而已。有這麼一類學科,專門研究病毒擴散和利用統計學模型來估量一種特定病毒的傳染達到流行病甚至大流行病級別所需要的時間,叫作傳染病學。這門學科在統計數據時一般需要考慮這些要素: 易感人群(接觸到傳染源時容易被傳染的人群)數量 已感染人群數量 那些可以從統計模型中剔除掉的個體(比如被感染後死亡的,或是被感染卻能自愈並且從此對其免疫的個體)但不幸的是,在喪屍這個問題上,有那麼幾個和普通傳染病不同的關鍵點
  • 單變量和多變量對基因表達式的預測能力對比
    骨骼肌RNAseq基因表達數據在這裡,我們將量化幾種特徵選擇方法的預測能力:a)單變量(逐個)特徵選擇,b)多變量(一起)特徵選擇。出於演示目的,我們將使用來自GTEX人體組織基因表達聯盟的骨骼肌RNAseq基因表達數據集(為簡單起見,隨機抽取1000個基因)。版本6的GTEX骨骼肌數據集包括157個樣本。我們裝載基因表達矩陣X,去除低表達基因。
  • 數據清洗在新能源功率預測中的研究綜述和展望
    2.2 異常值剔除方法1)統計量分析法採用統計量分析的方法,重點在於對變量做描述性統計,從而查看哪些數據是不合理的。常用的方法為利用最大值和最小值判斷新能源功率和預測變量的取值是否超出範圍。當某數據點與其他數據點的距離都大於一個閾值時,就被判定為異常數據。該方法簡單易懂,但是在訓練歷史數據構建數學模型時學習速度較慢,泛化能力較差,且需要大量的數據進行訓練,否則訓練誤差會較大。
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。
  • 在遊戲中,爆出神裝是真隨機還是假隨機?
    本文公眾號來源:漫話編程 作者:漫話編程你覺得你在遊戲的抽獎是真隨機還是假隨機?周末,陪女朋友去電影院看了《復仇者聯盟4:終局之戰》,作為一個漫威粉三個小時看的是意猶未盡。出來之後,準備和女朋友聊一聊漫威這十年。