統計數據:一個成功數據科學項目的最佳起點

2020-12-13 讀芯術

全文共2534字,預計學習時長7分鐘

圖源:unsplash

統計數據是運用實驗數據擴展人類知識面的科學與實踐,以應用數學的一個分支——統計理論為基礎。統計理論中,隨機事件和不確定性通過概率論建模。

要想開啟一個兼具意義和效果的數據科學項目,需要深入理解原始數據和相關領域知識。初步的統計工具和可視化圖表,能幫助人們更深入、直觀地理解數據及其行為。

統計學包含許多基本概念,如描述性統計和推斷性統計。描述性統計使用均值、標準差等指標總結樣本數據,推斷性統計從隨機變化的數據中得出結論。描述性統計可用於分析人口數據,數值描述符包括均值和標準差,多用於連續數據類型(如收入),而頻率和百分比則在描述分類數據(如教育)方面更為有效。

對人口數據進行具有意義的總結時,需要推斷性統計。推斷性統計通過樣本數據模式,推斷數據所代表的人群,同時考慮隨機性。計算統計學,或統計計算,是連接統計學和計算機科學的橋梁,是具體到數理統計科學的計算科學(或科學計算)。

統計實踐包括對不確定研究對象進行整理、總結和解釋。鑑於統計數據是為了從現存數據中提取最佳信息,有的作者將統計數據視為決策理論的分支。

隨機試驗中,實驗方案中指定的隨機方式用於指導統計分析,而統計分析在實驗方案中往往也是特定的。例如,測量系統分析(MSA)是一種實驗數學方法,用於確定在測量過程中的變化對整個過程可變性的貢獻率。

本文將介紹最適用易用的統計概念,以便啟動一個成功的數據科學項目。

均值或平均值

均值或平均值是一組數字的總和除以該組數字的計數。這組數字往往是某一實驗或觀察性研究的一系列結果,或是某一調查的一系列結果。在某些情況下,「數學平均值」的說法更受青睞,因為它能很好區別於幾何平均值、調和平均值等其他平均值。

方差

方差是隨機變量偏離其平均值的平方的期望值。通俗來說,它衡量的是一組數字與其平均值的差距。方差在統計學中處於核心地位,使用場景涵蓋描述性統計、統計推斷、假設檢驗、擬合優度和蒙特卡羅抽樣。

方差分析

方差分析(ANOVA)是統計假設檢驗的一種形式,廣泛用於實驗數據分析。假設零假設是真實的,如果測試結果(依據零假設和樣本計算得出)被認為不可能是偶然發生的,那麼它就具有統計顯著性。當概率(p值)小於預先設定的臨界值(顯著性水平),統計顯著性結果便可證明拒絕零假設的合理性,但前提是零假設的先驗概率不高。

圖源:unsplash

標準差

標準差衡量的是一組值的變化量或離差。低標準差表示數值大小接近集合的平均值(也稱期望值),高標準差則表示數值範圍跨度較大。

錯誤

從一個零假設出發,可識別錯誤的兩種基本形式:

· 第一類錯誤,錯誤拒絕零假設,呈現「假陽性」。

· 第二類錯誤,即原假設未能被拒絕,且總體之間的實際差異被忽略,呈現「假陰性」。

卡方檢驗(Chi-squared test)

卡方檢驗,也稱χ2檢驗,是一種統計假設檢驗,當檢驗統計量在零假設下呈卡方分布,尤其是皮爾遜卡方檢驗及其變體中,卡方檢驗有效。皮爾遜卡方檢驗用於確定在一個或多個列聯表類別中,預期頻率和實際頻率之間是否存在統計顯著性差異。

t檢驗(Student’s t-test)

如果測試統計中比例項已知,當測試統計遵循正態分布時,t檢驗最為常用。當比例項未知且被基於數據的估算替代時,測試統計遵循t分布。例如,t檢驗可用於確定兩組數據的平均值是否存在顯著差異。

皮爾遜(Pearson)相關係數

皮爾遜相關係數是兩個變量的協方差除以其標準差的乘積。該定義涉及「乘積矩」,即均值調整隨機變量的乘積的均值(關於原點的第一個矩),因此名稱中出現了修飾語積矩。

圖源:unsplash

相關性和依賴性

相關性或依賴性代指兩個隨機變量或雙變量數據之間的所有統計關係,無論是否是因果關係。廣義上的相關性涵蓋所有統計關聯,雖然它通常指的是一對變量線性相關的程度。

依賴現象的常見例子包括父母及其子女身體狀況之間的聯繫,商品價格和消費者願意購買數量之間的聯繫,正如需求曲線所描述的那樣。

回歸分析

回歸分析是一系列統計過程,用於測算因變量和一個或多個自變量之間的關係。最常見的回歸分析是線性回歸,即研究人員根據特定的數學標準找到最符合數據的直線。

斯皮爾曼等級(Spearman’s rank)相關係數

兩個變量之間的斯皮爾曼相關等於這兩個變量的等級值之間的皮爾遜相關;皮爾遜相關評估線性關係,而斯皮爾曼相關評估單調關係(無論線性與否)。如果沒有重複的數據值,每個變量都是另一個變量的完美單調函數時,就會出現+1或1的完美斯皮爾曼相關。

概率論

概率論是從計算的角度對可能事件進行研究。換言之,概率論是用於分析隨機事件的數學分支。

隨機試驗中,在進行試驗之前,所有可能結果都已知,但並不確定會出現哪種結果,並且試驗可以在相同的條件下以期望的頻率進行。概率論的核心是隨機變量、隨機過程和事件。除解釋隨機現象之外,概率論還檢驗非隨機事件,這些事件通過多次重複測試,結果會遵循特定的模式。檢驗這些模式的結果是大數定律和中心極限定理。

圖源:unsplash

時間序列分析

時間序列分析包括分析時間序列數據,以提取有意義的統計數據和數據的其他特徵。時間序列預測基於先前觀察值,使用模型來預測未來值。雖然回歸分析常用於檢驗一個或多個獨立時間序列的當前值對另一個時間序列當前值的影響,但這種類型的時間序列分析並不是人們所說的「時間序列分析」。

時間序列分析側重於比較單個時間序列或多個相關時間序列在不同時間點的值,中斷時間序列分析是幹預單個時間序列的分析。

想要完成一個成功的數據科學項目,以上的統計知識必不可少。

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 數據科學和機器學習的最佳Python庫
    用於數據科學和機器學習的Python庫用於統計的Python庫用於可視化的Python庫用於機器學習的Python庫深度學習的Python庫用於自然語言處理的Python庫數據科學與機器學習導論當我開始研究數據科學和機器學習時,總是有這個問題困擾我最大。是什麼導致圍繞這兩個話題的熱門話題?嗡嗡聲與我們生成的數據量有很大關係。
  • 耶魯大學新增統計和數據科學碩士項目,預期薪資五十萬
    根據官網的說法,原來8門課的Termial MA / MS項目(終端項目),在2020年拆分為兩個。保留原有的MA統計碩士,而MS統計碩士新增4門數據課程(包含至少2門數據科學方法的課程,和至少2門有效計算和大數據的課程),更名為「統計和數據科學碩士」。
  • 如何制定一個成功的數據科學培訓計劃
    一些企業開始自己動手,設立數據科學培訓計劃來提高員工技能或對員工進行交叉培訓,使其成為數據科學家。對許多公司而言,數據科學仍是一個新領域,設立和維持這一計劃可能會遇到一些挑戰。以下是關於如何重新培訓員工以成功走上數據科學崗位的一些建議。
  • 項目解析|英國統計&數據科學研究報告(上)
    數據科學(Data Science)從學科角度出發,是在統計的數學基礎上,結合了模式識別、機器學習、數據可視化、資料庫、編程等高性能計算的交叉學科。統計/數據科學專業人才有著巨大的市場需求和人才缺口,關注相關專業的同學也很多,申請非常熱門。
  • 喬治城大學數據科學與分析碩士項目介紹
    News美國最佳大學排名第24名。數據科學與分析碩士(Master of Science in Data Science and Analytics) 屬於專業碩士項目,課程包括大數據和雲計算,機器學習和深度學習,交互式和複雜可視化方法,高級資料庫,自然語言處理,高等數學和統計建模等。使用的語言包括R,Python和SQL。
  • 項目解析|英國統計&數據科學研究報告(下)
    數據科學(Data Science)從學科角度出發,是在統計的數學基礎上,結合了模式識別、機器學習、數據可視化、資料庫、編程等高性能計算的交叉學科。統計/數據科學專業人才有著巨大的市場需求和人才缺口,關注相關專業的同學也很多,申請非常熱門。
  • 數據科學家應知道的關於數據科學項目的四個關鍵方面
    概述數據科學家應知道的數據科學驅動產品的關鍵方面機器學習算法是項目整體的一部分,我們需要考慮諸如可解釋性,計算成本和準確性之間的權衡等問題本文由一位在該領域具有十多年經驗的數據科學負責人撰寫介紹實用數據科學是一個多維領域。機器學習算法本質上是整個端對端數據科學驅動項目的一部分。
  • 研究生項目解析 | 數據科學 & 商業分析
    Data Science作為一個寬口徑的新興職業方向,充滿了工作機會,同時,無論你是學什麼專業出身的,都有新專業、新領域的知識要學。比如工作期間,學統計的去研究一下優化、計量經濟,學計算機的深入加強統計知識,都可能有機會。美國目前共有45所大學開設的數據分析相關專業碩士研究生課程項目。
  • 歡迎報考渭南師範學院數學與統計學院數據科學與大數據技術專業
    渭南師範學院數據科學與大數據技術本科專業是2020年2月經陝西省教育廳批准並報教育部備案和審批的本科專業,該專業隸屬於數學與統計學院統計系,2020年9月首次面向全國招生。一、專業基本情況:專業代碼:080910T,非師範類專業。
  • 倫敦大學學院數據科學碩士項目介紹
    數據科學碩士(MSc Data Science) 目前,在製藥、金融和管理等多個領域內,市場對於數據科學人才的需求日益增長。在此背景下,倫敦大學學院開展數據科學碩士項目,以培養數據科學人才。數據科學碩士是由統計科學系提供的授課型碩士項目。
  • 香港新加坡留學統計和數據科學專業介紹,高薪專業!
    就業情況:該項目就業前景很好,工作待遇很高,可留在香港,也可回內地發展,工作領域主要為政府統計部門、經濟管理部門,銀行、證券公司、保險公司等金融機構,主要從事統計調查、統計信息管理、數據分析、數據開發、應用和管理工作,或者在教育、科研機構從事教學和研究工作。
  • 2021全球十大最佳AI和數據科學本科課程,十大頂尖院校課程你中意...
    十大最佳AI和數據科學本科課程 一起來看一看全球十大最佳AI和數據科學本科課程。 1.哈佛大學——數據科學項目
  • 什麼是數據科學?
    作者 | CDA數據分析師數據科學是一個研究領域,涉及通過使用各種科學方法,算法和過程從大量數據中提取見解。它可以幫助您從原始數據中發現隱藏的模式。由於數理統計,數據分析和大數據的發展,數據科學這個術語已經出現。
  • 美國熱門數據科學碩士研究生項目
    今天為大家介紹哥倫比亞大學、康奈爾大學等學校的數據科學項目。1.哥倫比亞大學哥倫比亞大學的MS in Data Science 項目處於美國數據科學碩士申請難度的第一梯隊。該項目為期1年,學生共需修讀30個學分,無需撰寫畢業論文。該項目開設獲得專業成就認證必需的四門基礎課程,學生可以在此課程基礎上將數據科學技術運用於各自的興趣領域。
  • Python數據科學實踐 | 統計建模1
    大家好,基於Python的數據科學實踐課程又到來了,大家盡情學習吧。本期內容主要由程茜與政委聯合推出。在實際數據科學項目中,繼數據清洗與整理、描述分析之後,要進行深入的分析,建模是必不可少的非常重要的環節。Python 中統計建模分析的核心模塊是Statsmodels。
  • 為什麼你需要一個數據科學平臺
    數據科學家要想獲得開原始碼好處且無需應對以上麻煩和挑戰的最佳方法是選擇一個可以訪問託管開原始碼工具和庫的數據科學平臺。數據科學平臺的核心是具有數據科學家所需要的工具,以支持開源庫的語言和框架。正確的協作平臺還應提供豐富的集成產品和組件組合,以支持數據科學項目生命周期的各個階段。
  • 數據科學,預測未來的水晶球 | 數據科學50人·張尚軒
    張尚軒是上海人,從1997開始接觸數據科學,到2004年進行較大的商業項目,再到2013在全球第一大都市美國紐約創辦了專業培訓數據科學家的紐約數據科學學院(NewYork Data Science Academy),她已在數據科學領域前行了12年,培養兩千多名數據科學家,並成為了數據科學時代的高知女性代表。
  • (多學科可投)南開統計與數據科學學院夏令營通知
    ♣學院以培養國際一流人才為目標,參照英國牛津大學,美國耶魯大學、威斯康星大學統計與數據科學相關專業課程設置,制定了我院本、碩、博貫通式、國際化培養方案。♣學院具有完備的境外訪學計劃,全額資助全體博士生和優秀碩士生在學期間赴境外交流學習。
  • 數據科學不僅僅是數據:培養業務知識和關係
    ,沒有諸如數據科學的學士學位或碩士學位之類的東西,沒有數據科學訓練營,現在我們還不知道「數據科學」,就像許多其他早期數據科學家一樣,庫珀基本上也遭到了抨擊:她的僱主指派她與內部的原始數據科學小組合作,當我在金融服務部門工作時,我被招募到一個戰略決策支持小組,那時我才能夠學習SAS,該小組的經理具有運營研究背景,該小組中的其他人都是傳統統計數據和啟發式方法,以及呼叫中心統計信息。
  • 帝國理工學院統計學碩士數據科學方向項目介紹
    統計學碩士數據科學方向 (MSc Statistics (Data Science)),是帝國理工學院數學學院所設立的碩士研究生項目,這項為期一年的全日制授課型碩士項目提供理論和應用統計方面的出色培訓,重點突出數據科學。