如何進行實驗數據標準化處理?

2021-02-18 實驗室經理人


產品檢測、技術培訓、儀器校準諮詢電話:4008180021

醫療器械質量與檢測(medtesting)

嘉峪檢測網(anytesting2014)

藥研檢測(drugtest)

實驗室經理人(labmanager)

推薦閱讀:

以下為正文:

能力驗證上報數據(n個數據)通過什麼方法處理後進行的判定?這些問題都涉及數據標準化。

在數據分析之前,通常需要先將數據標準化(normalization),利用標準化後的數據進行數據分析。數據標準化也就是統計數據的指數化。

 

為什麼要進行數據的標準化處理?


由於不同變量常常具有不同的單位和不同的變異程度。不同的單位常使係數的實踐解釋發生困難。例如:第1個變量的單位是kg,第2個變量的單位是cm,那麼在計算絕對距離時將出現將兩個事例中第1個變量觀察值之差的絕對值(單位是kg)與第2個變量觀察值之差的絕對值(單位是cm)相加的情況。使用者會說5kg的差異怎麼可以與3cm的差異相加?不同變量自身具有相差較大的變異時,會使在計算出的關係係數中,不同變量所佔的比重大不相同。例如如果第1個變量(兩水稻品種米粒中的脂肪含量)的數值在2%到4%之間,而第2個變量(兩水稻品種的畝產量)的數值範圍都在1000與5000之間。為了消除量綱影響和變量自身變異大小和數值大小的影響,故將數據標準化。

數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。數據標準化的方法有很多種,常用的有「最小—最大標準化」、「Z-score標準化」和「按小數定標標準化」等。經過上述標準化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處於同一個數量級別上,可以進行綜合測評分析。

 

一、Min-max 標準化

min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x',其公式為:

新數據=(原數據-極小值)/(極大值-極小值)

 

二、z-score 標準化

這種方法基於原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值x使用z-score標準化到x'。

z-score標準化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值範圍的離群數據的情況。

新數據=(原數據-均值)/標準差

spss默認的標準化方法就是z-score標準化。

用Excel進行z-score標準化的方法:在Excel中沒有現成的函數,需要自己分步計算,其實標準化的公式很簡單。


步驟如下:
1.求出各變量(指標)的算術平均值(數學期望)xi和標準差si ;
2.進行標準化處理:
     zij=(xij-xi)/si
     其中:zij為標準化後的變量值;xij為實際變量值。
3.將逆指標前的正負號對調。
   標準化後的變量值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。

 

三、Decimal scaling小數定標標準化

這種方法通過移動數據的小數點位置來進行標準化。小數點移動多少位取決於屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標準化到x'的計算方法是:

x'=x/(10*j)

其中,j是滿足條件的最小整數。

例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標準化,我們用1000(即,j=3)除以每個值,這樣,-986被規範化為-0.986。

注意,標準化會對原始數據做出改變,因此需要保存所使用的標準化方法的參數,以便對後續的數據進行統一的標準化。

產品檢測、技術培訓、儀器校準委託諮詢電話:4008180021

好消息!嘉峪檢測網已開通行業專欄,都是你想要的!

材料專欄http://mat.anytesting.com

汽車專欄http://auto.anytesting.com

電子電氣專欄http://ee.anytesting.com

醫療器械專欄http://med.anytesting.com

醫藥專欄http://drug.anytesting.com

來源:實驗室ISO17025

【點這裡】更多實驗技術乾貨

相關焦點

  • 如何用Origin進行實驗數據處理
    數據點的橫坐標不是等間距時的曲線繪製 用實驗數據作圖時,會遇到數據點的橫坐標不是等間距的情況,比如:X:1,3,4,8,9,12,...Y:10.2,10.5,11.4,11.8,10.9,10.2,...
  • 數據處理中的標準化、歸一化究竟是什麼?
    數據的無量綱化可以是線性的,也可以是非線性的。非線性的無量綱不太常用,例如百分位數轉換、應用特徵功率轉換等,基本很少用到;而常用的線性無量綱化主要包括 中心化處理和縮放處理,在特徵工程中比較常見。數據標準化 數據標準化的英文翻譯:Standardization,又稱 Z-score normalization。數據標準化是指當數據 x 按均值 μ 中心化後,再按標準差 σ 縮放,數據就會服從均值為 0,方差為 1 的標準正態分布,這個過程就叫做數據標準化。
  • 數據標準化_z-score
    在數據分析中,對於不同數據集的數據(均值和標準差都不同),我們經常需要對數據進行標準化處理。今天和大家分享一下z-score標準化。
  • 數據變換-歸一化與標準化
    因為,一般情況下,原始數據的各個特徵的值並不在一個統一的範圍內,這樣數據之間就沒有可比性。數據變換的目的是將不同渠道,不同量級的數據轉化到統一的範圍之內,方便後續的分析處理。= 69,Min(特徵1) = 5Max(特徵2) = 796,Min(特徵2) = 378Max(特徵3) = 135,Min(特徵3) = 69這裡我們用第一條數據來舉例,看看是如何變換的。
  • 數據要素寫進中央文件,採集標準化如何保障?
    《意見》具體指出,發揮行業協會商會作用,推動人工智慧、可穿戴設備、車聯網、物聯網等領域數據採集標準化。「數據採集的標準化是數據存儲、交易、加工及數據服務等一系列數據治理的前提,而且這件事只能由政府來主導。」
  • 《數據標準化——Z-Score》
    在數據分析之前,我們通常需要先將數據標準化(normalization),利用標準化後的數據進行數據分析。數據標準化也就是統計數據的指數化。
  • 數據轉換 :標準化vs 歸一化(附代碼&連結)
    翻譯:林鶴衝  校對:王紫嶽本文將解釋數據轉換中常見的特徵縮放方法:「標準化」和「歸一化」的不同之處,並舉例說明何時使用,以及如何使用它們。數本文將解釋數據轉換中常見的特徵縮放方法:「標準化」和「歸一化」的不同之處,並舉例說明何時使用,以及如何使用它們。數據轉換是數據處理中十分基本的步驟之一。當我初學特徵縮放的時候,經常用到「縮放」 「標準化」「歸一化」等術語。但是卻很難找到應該在什麼時候,使用哪一種方法的信息。
  • [案例乾貨]光電效應實驗的實驗數據處理:MATLAB方法
    現今科研工作對於實驗數據處理的要求越來越高,測定的數據點也越來越多,採用計算機編程對於實驗數據擬合處理能為實驗後期工作錦上添花。在這裡我們採用MATLAB對光電效應的普朗克常數測定(線性問題)所得的實驗數據進行擬合。
  • SCI論文前期實驗設計、數據收集與處理、論文寫作及編審回應研討班
    如何規劃、撰寫一篇高質量SCI論文SCI論文前期實驗設計、數據收集與處理、論文寫作及編審回應研討班本課程將著重從SCI論文前期實驗設計和數據收集與處理兩方面介紹寫作前準備工作,包括:如何確立論文擬說明的關鍵問題,並確定如何去講這個故事;如何根據文章創新點,正確設置對照組,進行合理科學的科研設計,並確立詳盡的技術路線;如何確定擬收集的實驗數據;如何在實驗著手前,草擬投稿文章的圖片排布,擬投稿文章有幾幅圖
  • sklearn數據標準化
    數據的標準化是特徵工程裡面的重要環節,今天我們就來學習一下用sklearn做數據的標準化。        sklearn.preprocessing提供了許多方便的用於做數據預處理工具,在數據標準化方面,sklearn.preprocessing提供了幾種scaler進行不同種類的數據標準化操作,今天的主要內容就是幾種scaler的使用方法。
  • 如何有效處理特徵範圍差異大且類型不一的數據?
    面對這樣混合的特徵類型,而且特徵取值範圍差異極大的情況,如何進行有效而 reasonable 的特徵選擇?回答:這個問題是典型的特徵工程(Feature Engineering)的範疇,這個領域的奇淫巧技實在太多,只能粗略的說一下對這種數據類型的基本處理流程。
  • 使用Pandas進行數據處理
    引言我們將深入講解pandas庫在數據處理階段的功能數據處理又可以細分為三個階段,我們將通過例子詳細講解各個階段都會涉及哪些操作,以及如何充分利用pandas庫提供的函數來完成這些操作。數據處理的三個階段為:數據準備、數據轉換和數據聚合。數據準備開始處理數據工作之前,需要先行準備好數據,把數據組裝成便於用pandas庫的各種工具處理的數據結構。
  • Python數據預處理:徹底理解標準化和歸一化
    數據預處理數據中不同特徵的量綱可能不一致,數值間的差別可能很大,不進行處理可能會影響到數據分析的結果,因此,需要對數據按照一定比例進行縮放,使之落在一個特定的區域,便於進行綜合分析。常用的方法有兩種:最大 - 最小規範化:對原始數據進行線性變換,將數據映射到[0,1]區間Z-Score標準化:將原始數據映射到均值為0、標準差為1的分布上
  • Python的處理數據,如何進行數據轉換,學會三種方式
    平時我們在處理數據的時候,有些數據類型不是我們想要的,怎麼辦?如:數據轉換如何完成數據轉換?一、數據類型轉換方法格式:要轉換的類型(數據)要把num01轉換為整數:int(num01)要把num01轉換為浮點數:float(num01)要把num01轉換為字符串:str(num01)要把nun01轉換為布爾類型:bool(num01)例如:print(int("12345") + 1)print(float("12.345") + 1.187
  • 家裝新零售如何破局 標準化、確定性是關鍵
    家裝新零售風口正到來,就如何解決家裝行來線上線下融合的痛點,3月18日,靚家居天貓家年華活動上,天貓美家裝修、廚衛行業總監凱嗣接受界面新聞採訪表示,家裝的標準化及確定性成為家裝新零售破局的關鍵。家裝行業線上線下融合最大的痛點便是如何解決標準化和確定性。凱嗣表示,消費升級大背景下,天貓平臺上已經聚集了大量的活躍型消費者,他們對家裝有高品質、個性化的需求。
  • excel數據處理:如何快速進行工作表拆分
    第1種:極速拆分——VBA(文中提供有代碼)VBA是EXCEL處理大量重複工作最好用的工具。不過很多人對VBA一竅不通,所以今天給大家分享一段代碼,並且詳細解釋了如何根據實際表格修改代碼值,方便大家在工作中使用。(1)按住Alt+F11打開VBA編輯器,點擊「插入」菜單下的「模塊」。
  • 【工業標準化】①標準化的概要
    * 規範(specification)→ 關於產品·材料·工具·設備等要求的特定形狀·結構·指數·成分·能力·精密度·性能·製造方法及實驗方法的規定。另外,公司內標準化有關的重要用語的定義如下。新產品發明出來後將會進行實用化、商用化的企劃,經過開始階段將進入大量生產體制,之後的技術發展需要經過某種過程。在什麼節點、實際形成標準化,是L. Bethel在他的著作『Industrial Organization & Management』中開始新的構想,並對此進行研究、開發、實用化,發展成完整的產品,區分了技術的進步和時間的關係。
  • 用特別設計的損失處理非均衡數據
    本文的實現方法(PyTorch)的 github 地址為:https://github.com/vandit15/Class-balanced-loss-pytorch有效樣本數在處理長尾數據集(一個數據集的大多數樣本屬於少數類,而其它許多類的數據很少)時,決定如何權衡不同類的損失是很棘手的。
  • 利用智慧型手機處理高中物理實驗的探討
    摘 要:高中物理課堂實驗處理數據往往耗時較多,效率不高. 如何構建高效課堂實驗,在移動網際網路時代,智慧型手機普及率很高,用WPS軟體、QQ群、視頻軟體、錄屏軟體搭建中學物理數位化平臺.依託平臺,讓實驗數字信息有序流動,把實驗學習分為實驗前、實驗中、實驗後三個階段.大大激發了學生的實驗興趣,提高了學生的實驗能力.
  • 被稱電子設計的核心,EDA標準化現狀如何?
    EDA設計工具產生的數據格式的一致性對設計結果的交換和共享極為重要,數據格式的一致性通過標準保證,對EDA的底層技術、EDA軟體之間的接口以及數據格式等標準的發展情況進行了綜述和分析。  目前,EDA工具眾多,在給予設計者眾多選擇的同時,也會導致設計平臺失去一致性,阻礙了設計結果的數據交換和共享,這也成為集成電路和EDA工具發展的障礙。晶片複雜程度越高,對EDA的依賴也越高,如果缺乏EDA的底層技術及其接口的標準化,就不能很好地對涉及結果進行交換、共享及重用。