統計學最常用的「數據分析方法」清單(二)

2020-12-21 騰訊網

本文是,沒有看過(一)的小夥伴請去 常見的數據分析面試題總結(一) 複習內容哦!

九、判別分析

根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體。

1. 與聚類分析區別

聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本;

聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類;

聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類。

2. 進行分類

Fisher判別分析法

以距離為判別準則來分類,即樣本與哪個類的距離最短就分到哪一類,適用於兩類判別;以概率為判別準則來分類,即樣本屬於哪一類的概率最大就分到哪一類,適用於多類判別。

BAYES判別分析法

BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分布狀態,所以一般較多使用。

十、主成分分析

是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換後的這組變量叫主成分。

主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。

1. 原理

在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的複雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關係的,當兩個變量之間有一定相關關係時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變量,將重複的變量(關係緊密的變量)刪去多餘,建立儘可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面儘可能保持原有的信息。

設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。

2. 缺點

在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維後的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。

主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那麼清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小於原始變量個數p(除非p本身較小),否則維數降低的「利」可能抵不過主成分含義不如原始變量清楚的「弊」。

十一、因子分析

一種旨在尋找隱藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、並估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法。

1. 與主成分分析比較

相同:都能夠起到治理多個原始變量內在結構關係的作用。

不同:主成分分析重在綜合原始變適的信息,而因子分析重在解釋原始變量間的關係,是比主成分分析更深入的一種多元統計方法。

2. 用途

減少分析變量個數;

通過對變量間相關關係探測,將原始變量進行分類。

十二、時間序列分析動態數據處理的統計方法

研究隨機數據序列所遵從的統計規律,以用於解決實際問題。時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。

1. 主要方法

移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型。時間序列是指同一變量按事件發生的先後順序排列起來的一組觀察值或記錄值。

2. 構成時間序列的要素

時間

與時間相對應的變量水平

實際數據的時間序列能夠展示研究對象在一定時期內的發展變化趨勢與規律,因而可以從時間序列中找出變量變化的特徵、趨勢以及發展規律,從而對變量的未來變化進行有效地預測。

時間序列的變動形態一般分為四種:長期趨勢變動,季節變動,循環變動,不規則變動。

3. 時間序列預測法的應用

系統描述:根據對系統進行觀測得到的時間序列數據,用曲線擬合方法對系統進行客觀的描述;

系統分析:當觀測值取自兩個以上變量時,可用一個時間序列中的變化去說明另一個時間序列中的變化,從而深入了解給定時間序列產生的機理;

預測未來:一般用ARMA模型擬合時間序列,預測該時間序列未來值;

決策和控制:根據時間序列模型可調整輸入變量使系統發展過程保持在目標值上,即預測到過程要偏離目標時便可進行必要的控制;

4. 特點

假定事物的過去趨勢會延伸到未來

預測所依據的數據具有不規則性

撇開了市場發展之間的因果關係

5. 擴展內容

(1)時間序列分析預測法是根據市場過去的變化趨勢預測未來的發展,它的前提是假定事物的過去會同樣延續到未來。事物的現實是歷史發展的結果,而事物的未來又是現實的延伸,事物的過去和未來是有聯繫的。

市場預測的時間序列分析法,正是根據客觀事物發展的這種連續規律性,運用過去的歷史數據,通過統計分析,進一步推測市場未來的發展趨勢。市場預測中,事物的過去會同樣延續到未來,其意思是說,市場未來不會發生突然跳躍式變化,而是漸進變化的。

時間序列分析預測法的哲學依據,是唯物辯證法中的基本觀點,即認為一切事物都是發展變化的,事物的發展變化在時間上具有連續性,市場現象也是這樣。

市場現象過去和現在的發展變化規律和發展水平,會影響到市場現象未來的發展變化規律和規模水平;市場現象未來的變化規律和水平,是市場現象過去和現在變化規律和發展水平的結果。需要指出,由於事物的發展不僅有連續性的特點,而且又是複雜多樣的。

因此,在應用時間序列分析法進行市場預測時應注意市場現象未來發展變化規律和發展水平,不一定與其歷史和現在的發展變化規律完全一致。隨著市場現象的發展,它還會出現一些新的特點。因此,在時間序列分析預測中,決不能機械地按市場現象過去和現在的規律向外延伸。必須要研究分析市場現象變化的新特點,新表現,並且將這些新特點和新表現充分考慮在預測值內。這樣才能對市場現象做出既延續其歷史變化規律,又符合其現實表現的可靠的預測結果。

(2)時間序列分析預測法突出了時間因素在預測中的作用,暫不考慮外界具體因素的影響。時間序列在時間序列分析預測法處於核心位置,沒有時間序列,就沒有這一方法的存在。雖然,預測對象的發展變化是受很多因素影響的。但是,運用時間序列分析進行量的預測,實際上將所有的影響因素歸結到時間這一因素上,只承認所有影響因素的綜合作用,並在未來對預測對象仍然起作用,並未去分析探討預測對象和影響因素之間的因果關係。

因此,為了求得能反映市場未來發展變化的精確預測值,在運用時間序列分析法進行預測時,必須將量的分析方法和質的分析方法結合起來,從質的方面充分研究各種因素與市場的關係,在充分分析研究影響市場變化的各種因素的基礎上確定預測值。

需要指出的是,時間序列預測法因突出時間序列暫不考慮外界因素影響,因而存在著預測誤差的缺陷,當遇到外界發生較大變化,往往會有較大偏差,時間序列預測法對於中短期預測的效果要比長期預測的效果好。因為客觀事物,尤其是經濟現象,在一個較長時間內發生外界因素變化的可能性加大,它們對市場經濟現象必定要產生重大影響。如果出現這種情況,進行預測時,只考慮時間因素不考慮外界因素對預測對象的影響,其預測結果就會與實際狀況嚴重不符。

十三、生存分析

用來研究生存時間的分布規律以及生存時間和相關因索之間關係的一種統計分析方法

1. 包含內容

描述生存過程,即研究生存時間的分布規律;

比較生存過程,即研究兩組或多組生存時間的分布規律,並進行比較;

分析危險因素,即研究危險因素對生存過程的影響;

建立數學模型,即將生存時間與相關危險因素的依存關係用一個數學式子表示出來。

2. 方法

統計描述:包括求生存時間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時間的圖示法,不對所分析的數據作出任何統計推斷結論;

非參數檢驗:檢驗分組變量各水平所對應的生存曲線是否一致,對生存時間的分布沒有要求,並且檢驗危險因素對生存時間的影響。A 乘積極限法(PL法)B 壽命表法(LT法);

半參數橫型回歸分析:在特定的假設之下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是Cox比例風險回歸分析法;

參數模型回歸分析:已知生存時間服從特定的參數橫型時,擬合相應的參數模型,更準確地分析確定變量之間的變化規律。

十四、典型相關分析

相關分析一般分析兩個變量之間的關係,而典型相關分析是分析兩組變量(如3個學術能力指標與5個在校成績表現指標)之間相關性的一種統計分析方法。

典型相關分析的基本思想和主成分分析的基本思想相似,它將一組變量與另一組變量之間單變量的多重線性相關性研究轉化為對少數幾對綜合變量之間的簡單線性相關性的研究,並且這少數幾對變量所包含的線性相關性的信息幾乎覆蓋了原變量組所包含的全部相應信息。

十五、R0C分析

R0C曲線是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪製的曲線。

用途:

R0C曲線能很容易地査出任意界限值時的對疾病的識別能力用途;

選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的準確性就越高;

兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統的準確性。

十六、其他分析方法

多重響應分析、距離分析、項目分析、對應分析、決策樹分析、神經網絡、系統方程、蒙特卡洛模擬等。

1. 決策樹分析與隨機森林

儘管有剪枝等等方法,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機森林,解決決策樹泛化能力弱的缺點。(可以理解成三個臭皮匠頂過諸葛亮)決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取淨現值的期望值大於等於零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關係。

2. Entropy

即系統的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基於信息學理論中熵的概念。

3. 分類樹(決策樹)

這是一種十分常用的分類方法。他是一種監管學習,所謂監管學習就是給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那麼通過學習得到一個分類器,這個分類器能夠對新出現的對象給出正確的分類。這樣的機器學習就被稱之為監督學習。

優點

決策樹易於理解和實現,人們在在學習過程中不需要使用者了解很多的背景知識,這同時是它的能夠直接體現數據的特點,只要通過解釋後都有能力去理解決策樹所表達的意義。

對於決策樹,數據的準備往往是簡單或者是不必要的,而且能夠同時處理數據型和常規型屬性,在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。易於通過靜態測試來對模型進行評測,可以測定模型可信度;如果給定一個觀察的模型,那麼根據所產生的決策樹很容易推出相應的邏輯表達式。

缺點

對連續性的欄位比較難預測;對有時間順序的數據,需要很多預處理的工作;當類別太多時,錯誤可能就會增加的比較快;一般的算法分類的時候,只是根據一個欄位來分類。

各平臺同名「職坐標在線」

相關焦點

  • 數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 數據分析:淺談統計學在生活中的應用,看完長見識了!
    淺談統計學在生活中的應用統計學並不是一門獨立存在的學科,它是以數學知識和數理統計作為基礎,將數理統計方法和其他學科專業知識交叉融合形成的具有極強推斷性的一種分析方法。現階段,隨著科學技術的快速發展,為了加強對自然社會各個領域現象的判斷和整理能力,將統計學應用在生活各個方面已經成為現階段的數理統計的一種便捷方法。   一、統計學的概念   統計學指的是調研人員通過一些列的手段對整理出來的數據信息進行整理分析,從而推斷出調研對象本質,甚至可以對未來的類似事情進行預判的一門綜合性學科。
  • 社工統計學雜記3:單變量、雙變量、多變量分析
    雙變量的分析關注兩個變量(主要是因變量和解釋變量)之間的關係。最常用的有檢驗兩個連續變量相互關係的協方差和相關係數,以及檢驗兩個離散變量相互關係的列聯表和卡方分析。雙變量的分析可以對研究的假設做最初的、在沒有控制其它因素情況下的檢驗。
  • 統計學課堂:有效分析數據——勞19級同學的幸運數字
    統計學 2020年9月30日上午,為了加深同學們對統計學的認識,張老師要求每位同學結合上節課的幸運數字,繪製表格。同學們積極參與,大顯身手。
  • 數據到手了,第一件事先幹啥? 說人話的統計學
    我們除了在數據收集過程中要採取預防措施、儘量減少錯誤以外,還需要通過探索性數據分析進行最後的把關。二、掌握數據的基本情況,獲得進一步分析的靈感。通過探索性數據分析,我們可以初步了解數據的面貌,比如取值範圍、中值、分散程度等。
  • 數據分析中常犯的18個統計學錯誤,請務必跳過這些坑
    在數據分析的過程中我們經常會用到很多的統計學知識,但有很多統計學知識經常有人用錯,從而導致分析結果不盡如人意,今天就給大家列舉了18個容易錯的統計學知識點,建議大家收藏留著以後慢慢看:1. 變量之間關係可以分為兩類:函數關係:反映了事物之間某種確定性關係。
  • 統計學知識大梳理(終極篇)
    目標二:儘量闡述統計學每個知識在數據分析工作中的使用場景以及邊界條件。目標三:為讀者解答數據分析中碰到的各種統計學問題。今天這篇文章,主要還是帶大家從宏觀的層面理解下統計學。以概率論作為理論基礎,為我們提供了認識不確定世界的方法。
  • 8個常用數據分析方法,輕鬆搞定各種業務分析
    在數據分析訓練營給大家講解數據分析案例的時候,發現一些新手小白在做數據分析時,拿到數據不知道怎麼分析、從什麼維度分析,腦海裡沒有清晰的分析思路。對於數據分析思路的培養是一個不斷練習積累的過程,剛入行的小白可以先套用一些常用的數據分析方法或模型,掌握基礎的分析思路。
  • 數據分析的理念、流程、方法、工具
    雷達圖:個體數據的屬性和可視化,常用於用戶畫像、CRM樹形圖:適合數據量大、類別多的情況,比如各類電商的SKU桑基圖:解釋數據複雜變化的趨勢,一對多或者多對一熱力圖:屬性和維度的規律組合,有點像折線圖關係圖:不同種類的關係,常用於社交媒體箱線圖:統計學圖表,用於研究和觀察數據分布
  • 數據分析比你想像的更高端
    比如你的老闆需要你選擇一個公司最匹配的明星代言人,這位代言人需要具備的特質是身高180+,粉絲量2000萬以上,一年至少登過20次熱搜,粉絲中女粉絲數量居多,你就可以通過對一些平臺的明星商業數據進行分析,找到最合適的idol成為品牌大使。
  • StatQuest生物統計學專題 - p值
    這裡必須指出一個良好的統計學實踐規範:在開始一項實驗之前,應該確定好使用的檢驗方法及檢驗水平。否則就是在進行p值篡改,在增加毫無意義的假陽性結果。為什麼會這樣?p值0.051…場景二:假如明天就是組會,而老闆像催命一樣向你要一個數據:你做實驗奮戰到深夜;終於得到一批實驗數據;然後趕緊去做了一個統計學分析;結果p值是….0.051… Oh NO!你還有時間追加一個重複,你會怎麼做?
  • 我用Excel發現了數據分析的本質:回歸分析
    事物都是萬變不離其宗的,一切外在的方法都是為了事物本質而服務的,數據分析自然也不例外,今天我們就來探討一下數據分析的本質。數據分析的本質其實絕大多數的數據分析問題,都可以歸納為一個問題:相關性問題。相關性分析是數據統計學中的基礎思想,主要就是為了探究數據之間是否具有關聯性,簡單說就是X與Y或者X與Y、Z等之間的變化是否有關聯。
  • 統計學 5 個基本概念,你知道多少?
    、降維、過採樣/欠採樣、貝葉斯統計方法。 從高的角度來看,統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統計學我們可以以更富有信息驅動力和針對性的方式對數據進行操作。所涉及的數學理論幫助我們形成數據的具體結論,而不僅僅是猜測。
  • 提高數據分析能力,你不得不看的33本書|推薦收藏
    《深入淺出數據分析》推薦理由:數據分析入門第一本。通俗簡單,卻能夠讓讀者對數據分析的相關概念有大致的了解,詮釋了數據分析的基本步驟,實驗方法,最優化方法/假設檢驗法/貝葉斯統計法/等等方法論,還有數據整理技巧,這個太重要了,為讀者搭建了走向深入研究的橋梁。
  • 數據分析必讀乾貨:簡單而實用的3大分析方法
    如果有人建議你去學習R語言、tableau、PowerBI,那麼我建議你不如先從最基礎也是最核心的數據分析方法學起。 在一家年銷售不到10億的電商公司(行業中大部分電商企業年銷售可能都不到1個億),你只要掌握一些基礎的數據分析方法,再配合Excel表格,就足夠你完成各種數據化運營工作了。
  • 數據分析的黃金十二宮,從入門到精通,十二類好書,想要拿走
    數據分析,是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論的過程。單純地談數據分析意義並不大,在談數據分析的作用之前,我們首先要考慮的是受眾對象的實際需要,而對於企業而言,數據分析的作用則主要體現在三大領域:一是對業務的改進優化;二是發現新的市場機會;三是創造更大的商業價值。
  • 齊齊哈爾工程學院 畢莖娜:《衛生統計學》線上教學
    在實習過程中,會經常做數據處理工作,填寫各種報表,而只有懂得了原始登記與統計結果的密切關係,並掌握收集、整理與分析資料的基本知識與技能,才能自覺、認真地把實習工作做好,為單位積累有科學價值的資料。首先確定課程期望效果,即學生能夠將衛生統計研究設計方法、數據收集、數據統計分析有機結合起來。其次確定達到效果所需要的證據,即期末獨立完成一份有關居民健康狀況研究的設計方案,而後通過真實的「大創」項目的完成過程,以學生學習為中心設計學習內容,再設計教學方法。(三)線上資源的選擇。
  • 【乾貨】1000位產品經理推薦的數據分析書籍,從小白進階大神
    請大家對號入座,收好最適合自己的修煉秘籍吧~長按下方二維碼回覆: 分析 書籍簡介:《深入淺出數據分析》以類似「章回小說」的活潑形式,生動地向讀者展現優秀的數據分析人員應知應會的技術:數據分析基本步驟、實驗方法、最優化方法、假設檢驗方法、貝葉斯統計方法
  • 辦公必備的大數據分析利器,數據分析工具推薦
    說到數據分析,很多小夥伴可能第一時間聯想到複雜的算法,龐大的數據,甚至是讓人眼花繚亂的代碼。但實際上,運營做數據分析並不需要懂這些,關鍵是你對業務流程的理解,以及用數據解決問題的思維。本文將介紹在一些領域被高頻率使用,且不可缺少的大數據分析利器,使用尚可的數據分析工具。
  • 問答| 一致性評價所採取的統計學方法可靠嗎?
    問答 | 一致性評價所採取的統計學方法可靠嗎?問1.一致性評價所採取的統計學方法可靠嗎?「一致性評價」在藥品非臨床研究領域應用廣泛,包括產品的合規性檢驗、方法確認、仿製藥一致性評價、生物類似藥的相似性評價和工藝穩定性評價等。所用統計推斷方法以等效性檢驗和過程能力分析更為科學和準確,如合規性檢驗和方法確認使用單組等效性檢驗;在仿製藥一致性評價、生物類似藥的相似性評價中,使用兩組間的等效性檢驗;在對方法參數的長期穩定性、工藝穩定性評價中,使用過程能力分析。