學數據處理和分析的你,這些概念必須知道

2020-12-11 Python之王

@Author :Runsen

最近考了實驗設計與數據處理,雖說這是一本化學實驗數據處理的書,但我更覺得是一本分析化學的書,還不如說是一本數據相關的書,也有概率論的味道,做數據的應該學習下最基本的數據處理基礎

誤差

誤差是測量測得的量值減去參考量值。測得的量值簡稱測得值,代表測量結果的量值。所謂參考量值,一般由量的真值或約定量值來表示。 對於測量而言,人們往往把一個量在被觀測時,其本身所具有的真實大小認為是被測量的真值。

系統誤差

系統誤差,是指一種非隨機性誤差。如違反隨機原則的偏向性誤差,在抽樣中由登記記錄造成的誤差等。它使總體特徵值在樣本中變得過高或過低。是可以避免的。產生原因主要有:

所抽取的樣本不符合研究任務。

不了解總體分布的性質選擇了可能曲解總體分布的抽樣程序。

有意識地選擇最方便的和解決問題最有利的總體元素,但這些元素並不代表總體。

隨機誤差

隨機誤差也稱為偶然誤差和不定誤差,是由於在測定過程中一系列有關因素微小的隨機波動而形成的具有相互抵償性的誤差。其產生的原因是分析過程中種種不穩定隨機因素的影響,如室溫、相對溼度和氣壓等環境條件的不穩定,分析人員操作的微小差異以及儀器的不穩定等。

精密度、準確度和精確度

精密度:測量中所測得數值重現性的程度,稱為精密度。它反映偶然誤差的影響程度,精密度高就表示偶然誤差小。

準確度是指你得到的測定結果與真實值之間的接近程度。

精確度(精度) 它反映測量中所有系統誤差和偶然誤差綜合的影響程度

雖然精確度高可說明準確度高,但精確的結果也可能是不準確的。例如,使用

1mg/L

的標準溶液進行測定時得到的結果是1mg/L,則該結果是相當準確的。如果測得的三個結果分別為

1.73mg/L

,

1.74mg/L

1.75mg/L

,雖然它們的精確度高,但卻是不準確的。

精密度高的準確度不一定高,準確度高的精密度也不一定高,但精確度高,則精密度和準確度都高。

為了說明精密度與準確度的區別,可用下述打靶子例子來說明。

(a)中表示精密度和準確度都很好,則精確度高;

(b)表示精密度很好,但準確度卻不高;

(c)表示精密度與準確度都不好。

在實際測量中沒有像靶心那樣明確的真值,而是設法去測定這個未知的真值。

關於平均值術語

真值是待測物理量客觀存在的確定值,也稱理論值或定義值。通常真值是無法測得的。若在實驗中,測量的次數無限多時,根據誤差的分布定律,正負誤差的出現機率相等。再經過細緻地消除系統誤差,將測量值加以平均,可以獲得非常接近於真值的數值。但是實際上實驗測量的次數總是有限的。用有限測量值求得的平均值只能是近似真值,常用的平均值有下列幾種:

(1) 算術平均值 算術平均值是最常見的一種平均值。

(2) 幾何平均值 幾何平均值是將一組n個測量值連乘並開n次方求得的平均值。即

(3)均方根平均值

它的計算方法是先平方、再平均、然後開方。

(4)對數平均值

在化學反應、熱量和質量傳遞中,其分布曲線多具有對數的特性,在這種情況下表徵平均值常用對數平均值。

設兩個量 ,、 ,其對數平均值

變量的對數平均值總小於算術平均值

以上介紹各平均值的目的是要從一組測定值中找出最接近真值的那個值。在化工實驗和科學研究中,數據的分布較多屬於正態分布,所以通常採用算術平均值。

有關偏差的術語

偏差:分為絕對偏差、相對偏差、平均偏差、標準偏差和相對標準偏差。

極 差:是指某一次測定結果中極大值與極小值之間的差值。絕對偏差:是指某一次測量值與平均值的差異。相對平均偏差:是指某一次測量的絕對偏差佔平均值的比值。平均偏差:是指單項測定值與平均值的偏差(取絕對值)之和,除以測定次數。標準偏差(σ):是指統計結果在某一個時段內誤差上下波動的幅度。相對標準偏差(RSD):是指標準偏差與測量結果算術平均值的比值。測定某批次5袋藥品重量,得到如下數據:37.45、37.20、37.50、37.30、37.25(g),計算測定結果的平均值、極差、絕對偏差、平均偏差、相對平均偏差、標準偏差、相對標準偏差:

平 均 值:極 差:絕對偏差:各次測定的絕對偏差分別為0.11、-0.14、0.16、-0.04、-0.09平均偏差:相對平均偏差: 標準偏差:相對標準偏差: 下面是作業(當然不是我的)

有效數字及其運算規則

在科學與工程中,該用幾位有效數字來表示測量或計算結果,總是以一定位數的數字來表示。不是說一個數值中小數點後面位數越多越準確。

有效數字

一個數據,其中除了起定位作用的「0」外,其他數都是有效數字。如0.0037隻有兩位有效數字,而370.0則有四位有效數字。

有效數字運算規則

記錄測量數值時,只保留一位可疑數字。

當有效數字位數確定後,其餘數字一律捨棄。捨棄辦法是四捨六入不是四捨五入,即末位有效數字後邊第一位小於5,則捨棄不計;大於5則在前一位數上增1;等於5時,前一位為奇數,則進1為偶數,前一位為偶數,則捨棄不計。這種捨入原則可簡述為:「小則舍,大則入,正好等於奇變偶」。

如:保留4位有效數字

3.71729→3.717;5.14285→5.1437.62356→7.6249.37656→9.376在加減計算中,各數所保留的位數,應與各數中小數點後位數最少的相同。

例如將三個數字相加時,應寫為 。在乘除運算中,各數所保留的位數,以各數中有效數字位數最少的那個數為準;其結果的有效數字位數亦應與原來各數中有效數字最少的那個數相同。

例如:應寫成。

上例說明,雖然這三個數的乘積為0.3281823,但只應取其積為0.328。

(5)在對數計算中,所取對數位數應與真數有效數字位數相同。

相關焦點

  • 想華麗轉行數據分析師?這些你必須知道
    ,你是否會有這些疑問:「非本專業想轉型做數據分析,有救嗎?」「數學不好,英語不好,想學數據分析,有救嗎?」「不懂數據分析師到底是幹嘛的,還要堅持嗎?」別急,等看完了下面的內容,你就會有自己的答案。大型網際網路公司則對崗位劃分比較明確,大部分時間都是在做產品和運營的分析工作,而數據處理等基礎準備則是數據專員來做。
  • 學習數據分析,這些超好用的數據分析工具你必須知道!
    目前市場上有數千種工具能夠幫你節約時間和成本,帶你從全新的角度洞察你所在的行業。 以下介紹幾款超好用的數據分析工具,幫助你在數據分析的學習以及工作中能夠脫穎而出。
  • 想學數據分析卻不知道看什麼書,為你推薦精選書單
    儘管閱讀容易,但所講的知識在數據分析中都是常見且必須掌握的,比如基本的統計量,基本上每個分析項目中都會用到;比如基本的概率分布,總體與樣本的概念、置信區間、假設檢驗、回歸分析,都是關於數據分析的統計學知識。4.
  • 2021年數據科學家求職必須掌握的五大新概念
    作為未來的數據科學家,你需要掌握多種技能,才能在數據科學和分析領域有所成就。雖然在完成大學課程時你已經掌握了許多數據科學技能,但還有些技能只有在實際工作中才能學到。這些是最近興起的一些現代數據科學概念,只有踏入工作領域的數據科學家才知道的高級技能。
  • 學習數據分析,這個數據分析神器你得知道!
    比如:1、一個工作表數據記錄最多只能存儲1048576條2、處理超過幾萬行數據時要做好隨時死機的準備3、當數據分散在不同報表時不便於管理數據而Power BI恰好解決了上述局限性,人性化易操作的界面、不需要高級的IT語言知識、易於創建交互式動態圖表、輕鬆處理海量數據...這些特點Power BI通通滿足。
  • 定性指標能夠給你帶來什麼?做數據分析必須知道的一點
    數據分析就是你每天SQL的資料庫嗎,還是每天搗鼓的Excel函數?在我的前一篇文章裡寫到,選擇指標時,要定量指標要跟定性指標相結合,才發揮它的作用;作為數據分析師以能在千萬雜亂數據信息中,找到有價值的信息而驕傲。數據量越大,你找到的信息越有價值,你的分析就越具有價值。
  • 面試必備:數據科學家必須掌握的3個統計學概念
    從某些角度上來講,如今的數據科學家基本上等於現代統計學家。在數據科學面試中,我們也少不了要面對統計學相關的知識。以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。
  • 大數據的概念和影響
    到了2000年附近,大數據時代到來以後,我們開始進入以數據為驅動的一個全新的科學研究時代。我們可能一開始都不知道問題是什麼,也不知道問題在哪裡,就已經開始研究了,完全是以數據驅動的。通過對大數據的分析,告訴你出了什麼問題,而不像以前,知道遇到什麼問題去找答案。
  • 大數據分析為什麼要學概率統計
    今年我們將通過開設新的概率基礎課程來簡化數據科學的學習概率和統計,這將成為學習數據科學工作所需數學的更切入點。 大數據分析為什麼要學概率統計已作為統計課程系列中的第三部分添加到Python數據分析師和Python路徑數據科學家課程中,但是您無需完成以前的課程就可以開始學習概率知識。
  • 大數據的概念及特點大數據的作用有哪些
    隨著網際網路的飛速發展,特別是近年來隨著社交網絡、物聯網、雲計算以及多種傳感器的廣泛應用,以數量龐大,種類眾多,時效性強為特徵的非結構化數據不斷湧現,數據的重要性愈發凸顯,傳統的數據存儲、分析技術難以實時處理大量的非結構化信息,大數據的概念應運而生。如何獲取、聚集、分析大數據成為廣泛關注的熱點問題。
  • 發展工業網際網路,這些概念必須明白
    這個過程中需要應用的新科技、新理論數不勝數,同時將會產生的新概念、新理念也不勝枚舉。不論是製造企業、製造行業,還是地方政府、國家部委,想要推進工業網際網路發展,必須對這些新概念、新理念、新科技、新理論爛熟於心、信口拈來。為此,中發智造精心梳理與工業網際網路有關的常見概念,常用名詞,謹供參考學習。
  • 考考你,這些數據分析常用術語你都分清楚了嗎?
    要想更技術性的話,就會涉及到節點,集群管理層,負載平衡和並行處理等概念。聚類分析(Clustering analysis):它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在於分析數據間的差異和相似性。
  • 想學數據分析,強推這些美國院校!申請容易、薪資超高!
    雖然在當今「大數據」時代,「數據分析」這個概念出現的越來越頻繁,但對於大學裡這一專業具體學什麼、申請時有什麼背景要求、畢業後有什麼發展前景,很多同學並不是非常了解或有所低估
  • 大數據的概念及分析
    2.數據的類型數據主要分為結構化數據、非結構化數據、半結構化數據和元數據。在對數據進行分析時,我們應當首先思考我們的數據分類標準是什麼?數據是來自於哪個領域的數據?我們的目標是什麼?比如說我們按照領域分類,數據來自於數據科學領域,而該領域主要針對的是結構化和非結構化數據,而非結構化數據的處理目標是轉化為結構化數據以及小數據。
  • 學習Python數據分析的正確姿勢
    很多數據分析師在開始學習 Python 數據分析之前就被引導學習 LeetCode 上那些為程式設計師準備的編程謎題。這對於只需要提取、清洗數據、繪製可視化圖、構建模型的數據分析師來說實在是誤人子弟,數據分析師要學的不是開發應用軟體,而是應該把時間和精力花在學習處理數據的模塊與支持庫上。請根據以下步驟一步步學習的Python 數據科學。
  • 怎麼做數據分析?數據分析的這些環節你不得不知
    很多剛開始做數據分析的朋友,不知道數據分析該如何下手,更不知道一個完整的數據分析流程有哪些環節。數據分析的流程比較簡單,主要包括以下六個環節:明確分析目的、數據獲取、數據處理、數據分析、數據可視化、結論與建議。一、明確數據分析的目的做事都是有目的的,數據分析也是。
  • 如何通過網絡數據的獲取,做出這些數據分析項目?
    作者 | AlfredWu 來源 | Alfred數據室 最近有很多人在問,我是如何收集網絡的數據,如何進行數據處理、數據分析以及可視化呈現的。也有人問的更具體,關於Python數據分析的一些問題。到底應該怎麼學?
  • Python數據實戰分析之定量和定性數據分析
    也就是說,部署過程基本上就是把數據分析得到的結果應用到實踐中去。數據分析或挖掘的結果有多種部署方式。通常,數據分析師會在這個階段為管理層或是客戶撰寫報告,從概念上描述數據分析結果。報告應上呈經理,以便他們讀後好作出相應的決策,真正用分析結構指導實踐。
  • 數據戰爭——直面海量處理+實時分析的雙重挑戰
    對於時刻關注市場走向的企業來講,他們需要關注的數據顯然已經不僅限於企業內部資料庫中的業務數據,還要包括網際網路(以及未來的物聯網)上各類網絡活動所產生的相關數據記錄。顯然,大數據是一種創新,它在任何時候都知道你在哪裡。我們可以以有效方式利用這些數據,而且已經看到了市場需求。
  • 關於React,你所必須知道的概念!
    表單及事件處理之前說過受控組件與非受控組件的概念。受控與非受控組件就是專門適用於 React 當中的表單元素的。在 HTML 中,表單元素與其他元素最大的不同是它自帶值或數據,而且在我們的應用中,只要是有表單出現的地方,就會有用戶輸入,就會有表單事件觸發,就會涉及的數據處理。