檢測數據處理基礎知識

2020-12-03 中國教育裝備採購網

檢測數據處理基礎知識

 誤差是測量值與真實結果之間的差異,要想知道誤差的大小,必須知道真實的結果,這個真實的值,我們稱之「真值」。  
 

1. 真實值
從理論上說,樣品中某一組分的含量必然有一個客觀存在的真實數值,稱之為「真實值」或「真值」。用「μ」表示。但實際上,對於客觀存在的真值,人們不可能精確的知道,只能隨著測量技術的不斷進步而逐漸接近真值。實際工作中,往往用「標準值」代替「真值」。
2. 標準值
採用多種可靠的分析方法、由具有豐富經驗的分析人員經過反覆多次測定得出的結果平均值,是一個比較準確的結果。
實際工作中一般用標準值代替真值。例如原子量、物理化學常數:阿佛伽得羅常數為6.02×10 等。
與我們實驗相關的是將純物質中元素的理論含量作為真實值。
1. 準確度
準確度是測定值與真實值接近的程度。
為了獲得可靠的結果,在實際工作中人們總是在相同條件下,多測定幾次,然後求平均值,作為測定值。一般把這幾次在相同條件下的測定叫平行測定。如果這幾個數據相互比較接近,就說明分析的精密度高。
2. 精密度
精密度是幾次平行測定結果相互接近的程度。
3. 精密度和準確度的關係
(1)精密度是保證準確度的先決條件。
(2)高精密度不一定保證高準確度。

1. 誤差
(1) 定義:個別測定結果X 、X …X 與真實值μ之差稱為個別測定的誤差,簡稱誤差。
(2) 表示:各次測定結果誤差分別表示為X -μ、X -μ……X -μ。
(3)計算方法:
絕對誤差
相對誤差
對於絕對誤差——測定值大於真值,誤差為正值;測定值小於真值,誤差為負值。
對於相對誤差——反映誤差在測定結果中所佔百分率,更具實際意義。
2. 偏差
偏差是衡量精密度的大小。
誤差的分類 → 系統誤差
1. 定義
由某種固定的原因造成的誤差,若能找出原因,設法加以測定,就可以消除,所以也叫可測誤差。
2. 特點
具有單向性、可測性、重複性。即:正負、大小都有一定的規律性,重複測定時會重複出現。
3. 產生原因
(1)方法誤差:分析方法本身所造成的誤差。方法誤差是由於某一分析方法本身不夠完善造成的。如分析過程中,幹擾離子的影響沒有消除。
(2)操作誤差:由於操作人員的主觀原因造成的。如滴定分析時,每個人對滴定終點顏色變化的敏感程度不同,不同的人對終點的判斷不同。
(3)儀器和試劑誤差:儀器誤差來源於儀器本身不夠精確。例如天平兩臂不等長,砝碼長期使用後質量改變。試劑誤差來源於試劑不純。
注意:系統誤差是重複地以固定形式出現的,增加平行測定次數不能消除。

誤差的分類 → 隨機誤差
隨機誤差由某些難以控制、無法避免的偶然因素造成。也稱偶然誤差。
1. 特點
大小、正負都不固定,不能通過校正來減小或消除,可以通過增加測定次數予以減小。
2. 產生原因
操作中溫度變化、溼度變化、甚至灰塵等都會引起測定結果波動。
系統誤差和隨機誤差劃分不是絕對的,對滴定終點判斷的不同有個人的主觀原因,也有偶然性。隨機誤差比系統誤差更具偶然性。分析工作中的「過失」不同於這兩種誤差。它是由於分析人員操作時粗心大意或違反操作規程所產生的錯誤。

隨機誤差的正態分布
 
1. 分布曲線
y:概率密度,表示測量值在此處出現的概率。y越大,出現的可能性越大。x:測量值。
μ總體平均值:無限次數據的平均值,相應於曲線最高點的橫坐標值,表示無限個數據集中趨勢。在沒有系統誤差時,它就是真值。
σ總體標準偏差:總體平均值到曲線兩轉折點之一的距離,表徵數據分散程度。σ小,數據集中,曲線又高又瘦,σ大,數據分散,曲線比較矮比較胖。
x-σ:隨機誤差。若以x-σ為橫坐標,則曲線最高點對應橫坐標為0。
對於一條曲線來說, μ和σ是這條曲線的兩個參數,所以用N(μ,σ)表示這條曲線。這條曲線可以用一個函數式表示。
2. 概率密度函數

3. 隨機誤差規律性
(1)小誤差出現的概率比大誤差多,特別大的誤差出現的概率極少。
(2)正誤差和負誤差出現的概率是相等的。
4. 標準正態分布:
橫坐標用u表示,其定義式為:
即:以σ為單位來表示隨機誤差。
函數表達式為:

因此曲線的形狀與σ大小無關, 不同的曲線都合併為一條。
記作N(0,1)
 


隨機誤差的區間概率
 
1. 定義
隨機誤差在某一區間出現的概率以某段正態分布曲線下所包含的面積表示。
一條完整的正態分布曲線所包含的面積,表示所有測量值出現的概率的總和,即是100%,等於1。用算式表示為:

一般以 為單位,計算不同 值曲線所包含的面積,製成概率積分表供直接查閱。
2. 計算公式
概率=面積=

有限數據的統計處理
 
隨機誤差分布的規律給數據處理提供了理論基礎,但它是對無限多次測量而言。實際工作中我們只做有限次測量,並把它看作是從無限總體中隨機抽出的一部分,稱之為樣本。樣本中包含的個數叫樣本容量,用n表示。

 數據的趨勢 → 數據集中趨勢的表示
1. 算術平均值
n次測定數據的平均值。

是總體平均值的最佳估計。對於有限次測定,測量值總朝算術平均值 集中,即數值出現在算術平均值周圍;對於無限次測定,即n → ∞時, →μ。
2. 中位數M
將數據按大小順序排列,位於正中間的數據稱為中位數M。
n為奇數時,居中者即是;n為偶數時,正中間兩個數據的平均值即是。

數據的趨勢 → 數據分散程度的表示
1. 極差R(或稱全距):指一組平行測定數據中最大者(Xmax)和最小者(Xmin)之差。
R = Xmax - Xmin
2. 平均偏差:各次測量值與平均值的偏差的絕對值的平均。
絕對偏差 di = Xi - (i =1,2,…,n )
平均偏差
相對平均偏差
3. 標準偏差S:計算方法
標準偏差S =
相對標準偏差,也叫變異係數,用CV表示,一般計算百分率。
相對標準偏差RSD = ×100 %
自由度f:f = n-1
平均值的置信度區間 → 定 義
1. 置信度
置信度表示對所做判斷有把握的程度。 表示符號:P 。
有時我們對某一件事會說「我對這個事有八成的把握」。這裡的「八成把握」就是置信度,實際是指某事件出現的概率。
常用置信度:P=0.90,P=0.95;或P=90%,P=95%。
2. 置信度區間
按照t分布計算,在某一置信度下以個別測量值為中心的包含有真值的範圍,叫個別測量值的置信度區間。

1. t的定義
,與 對比。
2. t分布曲線
(1) t分布曲線:t分布曲線的縱坐標是概率密度,橫坐標是t,這時隨機誤差不按正態分布,而是按t分布。
(2) 與正態分布關係:t分布曲線隨自由度f變化,當n→∞時,t分布曲線即是正態分布。   

t分布曲線
【t分布值表】
由表可知,當f→∞ 時,S→σ,t即是u。
實際上,當f=20時,t與u已十分接近。
3. 平均值的置信度區間:
(1) 表示方法:
(2) 含義:在一定置信度下,以平均值為中心,包括總體平均值的置信度區間。
(3) 計算方法:
① 求出測量值的 ,S,n。
② 根據要求的置信度與f值,從t分布值表中查出t值。
③ 代入公式計算。
 
顯著性檢驗 → 平均值與標準值比較
 
常用的方法有兩種:t檢驗法和F檢驗法。
分析工作中常遇到兩種情況:樣品測定平均值和樣品標準值不一致;兩組測定數據的平均值不一致。需要分別進行平均值與標準值比較和兩組平均值的比較。

1. 比較方法
用標準試樣做幾次測定,然後用t檢驗法檢驗測定結果的平均值與標準試樣的標準值之間是否存在差異。
2. 計算方法
① 求t 。
t =
② 根據置信度(通常取置信度95%)和自由度f,查t分布表中t 值。
③ 比較t 和t ,若t ﹥t ,說明測定的平均值出現在以真值為中心的95%概率區間之外,平均值與真實值有顯著差異,我們認為有系統誤差存在。
t =
例:某化驗室測定標樣中CaO含量得如下結果:CaO含量=30.51%,S=0.05,n=6, 標樣中CaO含量標準值是30.43%,此操作是否有系統誤差?(置信度為95%)
解:t = = 3.92
查表:置信度95%,f=5時,t =2.57。比較可知t >t 。
說明:此操作存在系統誤差。

顯著性檢驗 → 兩組平均值的比較
 
常用的方法有兩種:t檢驗法和F檢驗法。
分析工作中常遇到兩種情況:樣品測定平均值和樣品標準值不一致;兩組測定數據的平均值不一致。需要分別進行平均值與標準值比較和兩組平均值的比較。

 

 1. 比較方法
用兩種方法進行測定,結果分別為 ,S ,n ; ,S ,n 。然後分別用F檢驗法及t檢驗法計算後,比較兩組數據是否存在顯著差異。
2. 計算方法
(1)精密度的比較——F檢驗法:
①求F計算: F = >1
②由F表根據兩種測定方法的自由度,查相應F值進行比較。
【表2-2 95%置信水平(a=0.05)時單側檢驗F值(部分)】
③若F >F ,說明 S 和S 差異不顯著,進而用t檢驗平均值間有無顯著差異。若F >F ,S 和S 差異顯著。
(2)平均值的比較:
①求t :t =
若S 與S 無顯著差異,取S 作為S。
②查t值表,自由度f=n +n -2。
③若t >t ,說明兩組平均值有顯著差異。
例:Na CO 試樣用兩種方法測定結果如下:
方法1: =42.34,S =0.10,n =5。
方法2: =42.44,S =0.12,n =4。
比較兩結果有無顯著差異。

版權與免責聲明:

① 凡本網註明"來源:中國教育裝備採購網"的所有作品,版權均屬於中國教育裝備採購網,未經本網授權不得轉載、摘編或利用其它方式使用。已獲本網授權的作品,應在授權範圍內使用,並註明"來源:中國教育裝備採購網"。違者本網將追究相關法律責任。

② 本網凡註明"來源:XXX(非本網)"的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責,且不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、網站或個人從本網下載使用,必須保留本網註明的"稿件來源",並自負版權等法律責任。

③ 如涉及作品內容、版權等問題,請在作品發表之日起兩周內與本網聯繫,否則視為放棄相關權利。

相關焦點

  • 數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 廢水水質檢測化驗誤差分析與數據處理
    廢水水質檢測化驗誤差分析與數據處理北極星環境監測網訊:摘要:廢水經過處理後,相關部門要對廢水水質進行檢測化驗,使其符合我國水質使用標準,從而提高水資源的循環使用效果。廢水水質檢測包括色度、渾濁度、嗅和味、懸浮物、化學需氧量、氨氮、五日生化需氧量等數據。
  • IDS入侵檢測基礎知識
    常用檢測方法   入侵檢測系統常用的檢測方法有特徵檢測、統計檢測與專家系統。據公安部計算機信息系統安全產品質量監督檢驗中心的報告,國內送檢的入侵檢測產品中95%是屬於使用入侵模板進行模式匹配的特徵檢測產品,其他5%是採用概率統計的統計檢測產品與基於日誌的專家知識庫系產品。
  • 廢水水質檢測化驗誤差及數據處理方式分析
    但在水質檢測過程中,容易受到檢測環境、設備、方法以及人員檢測能力等主、客觀因素的影響和制約,水質檢測化驗數據容易出現誤差,影響了水質檢測數據的真實性。因此,通過分析廢水水質檢測化驗誤差和數據分析,評定檢測數據的精確,找出誤差來源及影響,進一步排除無效數據,改進檢測方案具有積極的現實意義。
  • 數據挖掘的知識類型
    神經網絡用於分類的時候,是一組類似於神經元的處理單元,單元之間加權連接。另外,最近有興起了一種新的方法—粗糙集(rough set)其知識表示是生產式規則。分類通常用來預測對象的類標號。無論如何,經典的統計學方法是挖掘預測知識的基礎。六、時間序列具有一個或多個時間屬性的預測應用稱為時間序列問題。時間序列是數據存在的特殊形式,序列的過去值會影響到將來值,這種影響的大小以及影響的方式可由時間序列中的趨勢周期及非平穩等行為來刻畫。
  • 數據分析的知識基礎
    4、定比變量定比變量(Ratio variable)也稱為「比率數據」,是被測數據包含0的等距變量。與定距變量類似,但是定比變量有絕對零點。比如溫度計存在-2℃。二、假設及其驗證假設(Hypothesis)是關於總體的陳述,是指可被檢驗的針對被觀察的現象所做的預測,這樣的預測以理論的建構及被假定存在的建構間的關係為基礎。
  • 了解地震信號檢測網絡的基礎知識
    輸出數據格式全球地震儀器主要使用兩種數據格式:SEG-Y和SEED。SEG-Y格式是由勘探地球物理學家協會(SEG)開發的一種開放標準,用於處理三維地震信號之類的地球物理數據23。每個記錄都包括時間戳、採樣間隔和實際測量的坐標位置。格式規範和修訂的詳細信息可以在該組織的網站上查看。
  • EBSD晶體學織構基礎及數據處理
    晶體學及織構基礎1.1 取向(差)的定義及表徵晶體的[100]-[010]-[001]坐標系CCS相對於樣品坐標系SCS:RD(rolling direction, 軋向)-TD(transverse direction, 橫向)-ND (normaldirection,法向)(或
  • 大數據基礎知識:Hadoop分布式系統介紹
    隨著智能化、萬物互聯時代的快速發展,數據量開始暴增,一方面我們需要開始思考如何高效可靠地存儲海量的數據,另一方面我們還需要對這些數據進行分析處理,以獲得更多有價值的信息。這時期我們就需要用到Hadoop了。
  • 色譜基礎知識
    第一部分 色譜基礎知識1、色譜起源2、色譜定義
  • 計算機基礎知識
    計算機基礎知識信息與數據信息是屬性,是抽象的邏輯意義。可將信息理解為形容詞故信息不可以獨立存在,需要載體;信息的功能是消除事物的不確定性,把不確定性變成確定性。數據是符號,這裡所說的符號不僅指文字,字母,數字,還包括了圖形,圖像,音頻和視頻等多媒體數據。所以可以將數據分為數值型數據和非數值型數據。可將數據理解為人或物故數據就是信息的載體,信息的符號化就是數據。使用計算機處理信息時必須將要處理的有關信息轉化成計算機可識別的數據。
  • 流式數據處理介紹
    什麼是流處理?流處理是一種大數據處理技術,用於處理連續數據流,並能在收到數據短時間內快速檢測出異常條件,檢測時間從幾毫秒到幾分鐘不等。例如,通過流處理查詢來自溫度傳感器的數據流,您可以在溫度達到凝固點時收到報警。流處理還有許多其他叫法:實時分析、流分析、複雜事件處理、實時流分析和事件處理。
  • 智能傳感器基礎知識詳解
    高信噪比與高分辨力 由於智能傳感器具有數據存儲、記憶與信息處理功能,通過數字濾波等相關分析處理,可去除輸入數據中的噪聲,自動提取有用數據;通過數據融合、神經網絡技術,可消除多參數狀態下交叉靈敏度的影響。
  • 語音處理檢測技術端點檢測、降噪和壓縮詳解
    作為一種人機互動的手段,語音的端點檢測在解放人類雙手方面意義重大。同時,工作環境存在著各種各樣的背景噪聲,這些噪聲會嚴重降低語音的質量從而影響語音應用的效果,比如會降低識別率。未經壓縮的語音數據,網絡交互應用中的網絡流量偏大,從而降低語音應用的成功率。因此,音頻的端點檢測、降噪和音頻壓縮始終是終端語音處理關注的重點,目前仍是活躍的研究主題。
  • 水質檢測數據誤差的研究
    水質檢測數據誤差的研究北極星環境監測網訊:摘要:水質檢測中數據誤差的存在將會影響水質檢測工作的質量,所以對水質檢測數據誤差的研究具有必要性。文章介紹了水質檢測誤差分析中常用的概念,論述了誤差數據的處理方法,以不斷降低誤差提高水質檢測的質量。
  • 創新的接地故障大數據分析平臺,有效提高數據處理效率
    同濟大學電氣工程系、國網湖南省電力公司電力科學研究院的研究人員牟之豫、牟龍華等,在2019年第6期《電氣技術》雜誌上撰文指出(論文標題為「小電流接地系統接地故障大數據分析平臺資料庫設計」),單相接地故障是電力系統中最常見的故障類型,故障檢測問題也一直困擾著相關電力部門,傳統的故障檢測方法對實測數據的處理準確性不高。
  • 汙水處理中水質檢測發展探討
    汙水處理為國家獲得再生水的重要途徑,而水質檢測則是評價水質的重要方法依據。這些年我國經濟水平發展迅速,同時生活汙水也給我國水資源帶來影響,所以我國應該完善水質檢測技術。引言科學技術的快速發展使我國汙水處理技術發展迅速。化驗室作為汙水處理廠的重要機構,它所提供的分析數據對汙水處理廠的運行調控有著重要的指導意義。
  • 汽車維修電工基礎知識,教你學習汽車知識
    歡迎來到百家號大胖子扛鋤頭,作為汽車的愛好者,今天給大家講一些關於汽車維修電工基礎知識。根據昨天給大家介紹的是汽車維修電工基礎知識,今天給大家介紹汽車電工維修常用工具與測量儀表!在發動機電控系統故障的檢測與診斷中,除經常需要檢測電壓、電阻、電容、電感、半導體元件和電流等參數外,還需要檢測發動機轉速、 閉合角、頻寬比 (佔空比)、頻率、壓力、時間、溫度等參數。但是這些參數用一般數字式萬用表無法檢測,需要用汽車專用萬用表進行檢測。汽車專用萬用表及配用的霍爾式電流傳感夾外形如圖1-17所示。
  • numpy庫學習總結(基礎知識)
    最近在學習Python中OpenCV庫,學習花了很多時間,發現基礎知識很重要,尤其是numpy這個庫,在進行程序開發時,處理大量類似數組這種數據結構時,它的重要性等同於Python中的列表,像前篇我們寫的《使用Python中OpenCV庫創建一幅圖片的RGB通道圖片》中,對於圖片的處理,大部分時間我們是在跟類似數組這種數據結構在打交道