多重插補法處理缺失數據(缺失值)

2021-01-10 言爸說育兒

圖文撰寫 | tbwhere老師

科研論文中,統計分析至關重要,本公眾號的主旨是為大家講解科研過程中的統計分析步驟,以及相關的問題!同時,我們還將以最新發表、或各學科Top期刊文章中的統計方法為例,給大家逐一講解如何做統計(分析數據)!

介 紹

做科學研究的時候,我們經常會碰到缺失值的問題,除了直接刪除、簡單插補,多重插補也是常用到的處理缺失數據的方法。

使用軟體

使用軟體:SPSS 25.0,建議使用高版本。

圖文介紹

1、把數據從Excel中複製粘貼到SPSS中

2、點擊Analyze,選擇Multiple Imputation,接著選擇Impute Missing Data Values

3、單擊Scan Data

4、在Impute Missing Data Values對話框中,把變量全部選入Variables in Model,Imputation默認為5,即產生5個新數據集,Dataset name輸入新數據集的名稱。

5、Output頁面給出了一個表格,顯示了各個變量缺失值插補的具體方法,age和bmi都用了Linear Regression,fatigue和sex用的是Logistic Regression.

6、產生了一個新的SPSS數據文件,名稱為新數據集,裡面包括了6個數據集,即原始數據集和新產生的5個數據集,並新產生了一個變量Imputation,取值為0、1、2、3、4、5,分別標識出了原始數據集和5個新數據集。在頁面的右上方,有個下拉框,選擇不同的數字,可快速定位到相應的數據集。

下圖中,我們選擇了1號插補數據集,數據集中的黃色單元格,即為插補後的數據。

學會了吧?很簡單吧!

本文僅限統計分析過程解析,不涉及軟體問題。軟體的下載,不屬於本公眾號,也不屬於本文所涉內容!

堅持看到這裡的小夥伴~

覺得此文對您有所幫助的話

一定要關注公眾號哦~

如果再點擊「在看」~

推送就更美好啦~

相信

你距離Paper發表也就不遠了~

原創不易,謝謝大家點下「在看」,如果在看數>50,會專門錄製一期本推文相關的視頻,有更多精彩內容。敬請期待!

相關焦點

  • 數據的預處理基礎:如何處理缺失值
    圖片來源: thermofisher數據集缺少值? 讓我們學習如何處理:數據清理/探索性數據分析階段的主要問題之一是處理缺失值。 缺失值表示未在觀察值中作為變量存儲的數據值。 這個問題在幾乎所有研究中都是常見的,並且可能對可從數據得出的結論產生重大影響。
  • Python數據清洗(二):缺失值識別與處理
    不管是變量角度的缺失值判斷,還是數據行角度的缺失值判斷,一旦發現缺失值,都需要對其作相應的處理,否則一定程度上都會影響數據分析或挖掘的準確性。缺失值的處理辦法通常對於缺失值的處理,最常用的方法無外乎刪除法、替換法和插補法。
  • SPSS 經典教材:基於回歸法填充缺失值
    如何能夠合理得當地處理缺失值是至關重要的。缺失值的處理方法很多,包括直接去除,對於大樣本研究來說,直接去除可能對結果造成的影響尚可接受,但是對於樣本量不多的研究來講,可能就是很大的影響。對於缺失值插補的方法也很多,最常見的包括臨近值,均值,中位數,眾數,回歸,多重插補等。前三類的填補,因為缺少隨機誤差,填補顯得比較蒼白,後兩者,尤其是多重插補,因為考慮到存在隨機誤差,在填補效率方面顯得更加優秀。
  • 在python中使用KNN算法處理缺失的數據
    處理缺失的數據並不是一件容易的事。 方法的範圍從簡單的均值插補和觀察值的完全刪除到像MICE這樣的更高級的技術。 解決問題的挑戰性是選擇使用哪種方法。 今天,我們將探索一種簡單但高效的填補缺失數據的方法-KNN算法。KNN代表「 K最近鄰居」,這是一種簡單算法,可根據定義的最接近鄰居數進行預測。 它計算從您要分類的實例到訓練集中其他所有實例的距離。
  • 第五十三講 R-缺失值的注意事項及處理
    在數據分析過程中,我們經常會遇到缺失值的情況。比如要研究血壓、血糖、胰島素水平、懷孕次數與糖尿病的關係。我們需要使用多元邏輯回歸。但是可能數據有10%的血壓確實,10%的胰島素水平缺失,10%的血糖缺失。
  • Top30數據分析師常見面試題(附答案)!
    12、解釋KNN插補方法是什麼?在KNN插補中,通過使用與其值缺失的屬性最相似的屬性值來推斷缺少的屬性值。通過使用距離函數,確定兩個屬性的相似度。13、數據分析師使用的數據驗證方法是什麼?通常,數據分析師用於數據驗證的方法是數據篩選和數據驗證。14、解釋應該如何處理可疑或缺失數據?
  • R語言常用數據處理代碼整理
    在收集好臨床數據,經過初步處理後,就可以導入到R軟體中去。R在進行統計分析前,常常需要對數據進行處理,使數據結構符合我們的統計需要,比如說變量因子化、創建新變量、變量類型轉化等等,因此數據處理是R進行統計分析前很重要的步驟。現基於各類R語言入門書整理R中常見的數據處理代碼。目 錄1. 預覽數據集2.
  • XGBoost缺失值引發的問題及其深度分析|CSDN博文精選
    果然,輸入數組中有好幾個0出現,會不會是因為缺失值處理的問題?快速找到兩個引擎的源碼,發現兩者對缺失值的處理真的不一致!XGBoost4j中缺失值的處理XGBoost4j缺失值的處理過程發生在構造DMatrix過程中,默認將0.0f設置為缺失值:/*** create DMatrix from dense matrix** @param data data values* @param nrow number of rows* @param ncol number of columns
  • CJCP | 臨床試驗中缺失數據處理方法研究
    臨床試驗缺失數據的統計學考量[J]. 中國臨床藥理學雜誌,2016,32(5) : 469-472.[3]蔣志偉,李嬋娟,王陵,等. 臨床試驗中缺失數據的預防與處理[J]. 藥學學報,2015,50(11) : 1402-1407.
  • 使用Python預測缺失值
    對於數據科學家來說,處理丟失的數據是數據清理和模型開發過程中的一個重要部分。通常情況下,真實數據包含多個稀疏欄位或包含錯誤值的欄位。在這篇文章中,我們將討論如何建立可以用來填補數據中缺失或錯誤值的模型。
  • 數據清洗在新能源功率預測中的研究綜述和展望
    統計量分析方法可以簡單有效地完成對新能源數據的檢查,適合處理不在有效數據範圍內的堆積型數據,但是不適用於處理大量的分散型異常數據。2)3sigma法3sigma法又稱為拉依達準則。如果數據服從正態分布,分布在(-3, +3)中的數據的概率為99.73%,而分布在距離平均值3之外的數據的概率不到0.3%,屬於極小概率事件,其中為標準差,為平均值。
  • 網絡流量數據缺失?新算法可減少誤差,提升數據恢復的精確度
    為解決網絡流量數據的缺失問題,本文提出了一種基於交替最小二乘法的時空張量填充算法以恢復流量數據張量中的缺失值。本文提出的算法不僅利用了張量分解及其低維表示,還充分考慮了網絡流量數據的時空相關性,進一步提高了數據恢復的準確性。本文使用Abilene數據集對算法進行測試,並與現有的填充方法進行對比。實驗結果表明,本文提出的方法能夠有效地減少流量數據恢復的誤差,提升了數據恢復的精確度。
  • 如何使用Pandas-Profiling進行探索性數據分析
    當開始一個新的機器學習項目時,獲得機器學習數據集之後的第一步就是要了解它。我們可以通過執行探索性數據分析(EDA)來實現這一點。這包括找出每個變量的數據類型、目標變量的分布、每個預測變量的不同值的數量、數據集中是否有重複值或缺失值等。進行EDA探索機器學習數據集的過程往往是非常耗時的。什麼是Pandas-Profiling?
  • Pandas自動進行探索性數據分析,節省可視化和理解數據的時間
    根據Wikipedia的說法,探索性數據分析(EDA)是一種分析數據集以總結其主要特徵的方法,通常使用視覺方法。因此,EDA是理解基礎數據,變量分布及其相關性的過程。這使得EDA成為構建任何統計模型之前任何數據科學過程中的第一步。
  • 數據挖掘非常重要的一步:數據預處理
    為什麼數據處理很重要對數據挖掘熟悉的小夥伴,數據處理相關佔據了整個項目的工作時間60%以上的。數據的質量,直接決定了模型的預測和泛化能力的好壞。它涉及很多因素,包括:準確性、完整性、一致性、可信性和解釋性。
  • 用Python 做數據處理必看:12 個使效率倍增的 Pandas 技巧
    Python學習路線圖本文旨在提供Python數據處理的12種方法。文中也分享了一些會讓你的工作更加便捷的小技巧。開始工作首先我要導入要用的模塊,並把數據集載入Python環境。Apply把函數應用於數據框的特定行/列之後返回一些值。這裡的函數既可以是系統自帶的也可以是用戶定義的。例如,此處可以用它來尋找每行每列的缺失值個數:輸出結果:由此我們得到了想要的結果。注意:第二個輸出使用了head()函數,因為數據包含太多行。
  • ccr5基因缺失或導致多重癌變
    CCR5基因包含32個鹼基對(bp)缺失(CCR5Δ32)。這種缺失可能導致一個畸形和無功能的受體,據報導,該受體與不同癌症的發生和傳播有關。CCR5Δ32以兩種等位基因形式存在,即缺失型(D)和野生型(WT)。本研究旨在探討CCR5Δ32在乳腺癌發生發展中的作用。血樣採集自乳腺癌患者(330例)和同性別對照組(306例)。
  • 面板數據裡處理多重高維固定效應的神器, 還可用工具變量處理內生性
    今天,我們「面板數據研究小組」將為計量經濟圈的圈友引薦一個處理多重高維固定效應的方法(multiple high dimensional fixed effects)。我們經常聽說面板數據相對於截面數據有更大的空間去控制異質性,尤其是那些看不見的卻不隨著時間變動的異質性。