學數據處理和分析的你,這些概念必須知道

2020-12-03 Python之王

@Author :Runsen

最近考了實驗設計與數據處理,雖說這是一本化學實驗數據處理的書,但我更覺得是一本分析化學的書,還不如說是一本數據相關的書,也有概率論的味道,做數據的應該學習下最基本的數據處理基礎

誤差

誤差是測量測得的量值減去參考量值。測得的量值簡稱測得值,代表測量結果的量值。所謂參考量值,一般由量的真值或約定量值來表示。 對於測量而言,人們往往把一個量在被觀測時,其本身所具有的真實大小認為是被測量的真值。

系統誤差

系統誤差,是指一種非隨機性誤差。如違反隨機原則的偏向性誤差,在抽樣中由登記記錄造成的誤差等。它使總體特徵值在樣本中變得過高或過低。是可以避免的。產生原因主要有:

所抽取的樣本不符合研究任務。

不了解總體分布的性質選擇了可能曲解總體分布的抽樣程序。

有意識地選擇最方便的和解決問題最有利的總體元素,但這些元素並不代表總體。

隨機誤差

隨機誤差也稱為偶然誤差和不定誤差,是由於在測定過程中一系列有關因素微小的隨機波動而形成的具有相互抵償性的誤差。其產生的原因是分析過程中種種不穩定隨機因素的影響,如室溫、相對溼度和氣壓等環境條件的不穩定,分析人員操作的微小差異以及儀器的不穩定等。

精密度、準確度和精確度

精密度:測量中所測得數值重現性的程度,稱為精密度。它反映偶然誤差的影響程度,精密度高就表示偶然誤差小。

準確度是指你得到的測定結果與真實值之間的接近程度。

精確度(精度) 它反映測量中所有系統誤差和偶然誤差綜合的影響程度

雖然精確度高可說明準確度高,但精確的結果也可能是不準確的。例如,使用

1mg/L

的標準溶液進行測定時得到的結果是1mg/L,則該結果是相當準確的。如果測得的三個結果分別為

1.73mg/L

,

1.74mg/L

1.75mg/L

,雖然它們的精確度高,但卻是不準確的。

精密度高的準確度不一定高,準確度高的精密度也不一定高,但精確度高,則精密度和準確度都高。

為了說明精密度與準確度的區別,可用下述打靶子例子來說明。

(a)中表示精密度和準確度都很好,則精確度高;

(b)表示精密度很好,但準確度卻不高;

(c)表示精密度與準確度都不好。

在實際測量中沒有像靶心那樣明確的真值,而是設法去測定這個未知的真值。

關於平均值術語

真值是待測物理量客觀存在的確定值,也稱理論值或定義值。通常真值是無法測得的。若在實驗中,測量的次數無限多時,根據誤差的分布定律,正負誤差的出現機率相等。再經過細緻地消除系統誤差,將測量值加以平均,可以獲得非常接近於真值的數值。但是實際上實驗測量的次數總是有限的。用有限測量值求得的平均值只能是近似真值,常用的平均值有下列幾種:

(1) 算術平均值 算術平均值是最常見的一種平均值。

(2) 幾何平均值 幾何平均值是將一組n個測量值連乘並開n次方求得的平均值。即

(3)均方根平均值

它的計算方法是先平方、再平均、然後開方。

(4)對數平均值

在化學反應、熱量和質量傳遞中,其分布曲線多具有對數的特性,在這種情況下表徵平均值常用對數平均值。

設兩個量 ,、 ,其對數平均值

變量的對數平均值總小於算術平均值

以上介紹各平均值的目的是要從一組測定值中找出最接近真值的那個值。在化工實驗和科學研究中,數據的分布較多屬於正態分布,所以通常採用算術平均值。

有關偏差的術語

偏差:分為絕對偏差、相對偏差、平均偏差、標準偏差和相對標準偏差。

極 差:是指某一次測定結果中極大值與極小值之間的差值。絕對偏差:是指某一次測量值與平均值的差異。相對平均偏差:是指某一次測量的絕對偏差佔平均值的比值。平均偏差:是指單項測定值與平均值的偏差(取絕對值)之和,除以測定次數。標準偏差(σ):是指統計結果在某一個時段內誤差上下波動的幅度。相對標準偏差(RSD):是指標準偏差與測量結果算術平均值的比值。測定某批次5袋藥品重量,得到如下數據:37.45、37.20、37.50、37.30、37.25(g),計算測定結果的平均值、極差、絕對偏差、平均偏差、相對平均偏差、標準偏差、相對標準偏差:

平 均 值:極 差:絕對偏差:各次測定的絕對偏差分別為0.11、-0.14、0.16、-0.04、-0.09平均偏差:相對平均偏差: 標準偏差:相對標準偏差: 下面是作業(當然不是我的)

有效數字及其運算規則

在科學與工程中,該用幾位有效數字來表示測量或計算結果,總是以一定位數的數字來表示。不是說一個數值中小數點後面位數越多越準確。

有效數字

一個數據,其中除了起定位作用的「0」外,其他數都是有效數字。如0.0037隻有兩位有效數字,而370.0則有四位有效數字。

有效數字運算規則

記錄測量數值時,只保留一位可疑數字。

當有效數字位數確定後,其餘數字一律捨棄。捨棄辦法是四捨六入不是四捨五入,即末位有效數字後邊第一位小於5,則捨棄不計;大於5則在前一位數上增1;等於5時,前一位為奇數,則進1為偶數,前一位為偶數,則捨棄不計。這種捨入原則可簡述為:「小則舍,大則入,正好等於奇變偶」。

如:保留4位有效數字

3.71729→3.717;5.14285→5.1437.62356→7.6249.37656→9.376在加減計算中,各數所保留的位數,應與各數中小數點後位數最少的相同。

例如將三個數字相加時,應寫為 。在乘除運算中,各數所保留的位數,以各數中有效數字位數最少的那個數為準;其結果的有效數字位數亦應與原來各數中有效數字最少的那個數相同。

例如:應寫成。

上例說明,雖然這三個數的乘積為0.3281823,但只應取其積為0.328。

(5)在對數計算中,所取對數位數應與真數有效數字位數相同。

相關焦點

  • 面試必備:數據科學家必須掌握的3個統計學概念
    從某些角度上來講,如今的數據科學家基本上等於現代統計學家。在數據科學面試中,我們也少不了要面對統計學相關的知識。以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。
  • 基因測序(視頻+課件),輕鬆學會數據的處理和分析
    生物信息學與以往的傳統生物學不同,它本身是一個混合體,而且在今天看來它應當還要包含現在的NGS和基因組學。它重在數據,因此在這個領域中比較重要的是數學和計算機——計算機指的是:編程能力和算法設計能力。但生物信息畢竟還是和生物有關,毫無生物知識其實也說不過去。
  • 如何通過網絡數據的獲取,做出這些數據分析項目?
    作者 | AlfredWu 來源 | Alfred數據室 最近有很多人在問,我是如何收集網絡的數據,如何進行數據處理、數據分析以及可視化呈現的。也有人問的更具體,關於Python數據分析的一些問題。到底應該怎麼學?如何快速入門,以及技術和業務之間的瓶頸如何突破?
  • 想學數據分析,強推這些美國院校!申請容易、薪資超高!
    雖然在當今「大數據」時代,「數據分析」這個概念出現的越來越頻繁,但對於大學裡這一專業具體學什麼、申請時有什麼背景要求、畢業後有什麼發展前景,很多同學並不是非常了解或有所低估
  • 考考你,這些數據分析常用術語你都分清楚了嗎?
    要想更技術性的話,就會涉及到節點,集群管理層,負載平衡和並行處理等概念。聚類分析(Clustering analysis):它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在於分析數據間的差異和相似性。冷數據存儲(Cold data storage):在低功耗伺服器上存儲那些幾乎不被使用的舊數據。
  • 關於深度學習你必須知道的幾個信息理論概念
    資訊理論可以看作是微積分、概率論和統計學這些深度學習基本組成部分的複雜融合。數學家和工程師克勞德·香農提出了「熵」的概念,它永遠改變了我們的世界,這標誌著數字資訊時代的開始。克勞德·香農在1948年引入了「bit」這個詞克勞德·香農提出「數據的語義方面是無關緊要的」,數據的性質和含義在信息內容方面並不重要。
  • 零基礎入門數據分析師——你可以做到!
    對於數學基礎薄弱的同學,學習有以下難點:1.長時間沒有接觸和使用數學,尤其大學學過的知識時間太長遺忘太多,導致計算能力偏弱。 2.數學思維仍保持在初等數學範疇,導致無法理解課程中的一些概念與公式。第三:使用Excel進行數據分析 對於沒有經驗的你,Excel是一款必須熟練的工具。它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。
  • 算法工程師和數據科學家處理大規模的交易數據
    你可以閱讀原文本文將科學技術和實際現實的各種交叉融合,通過自動駕駛服務平臺搭建一個可以持續運行、人性化和智能化的服務,包括uber無人駕駛汽車。從構思到實施一個優質、易用、可拓展的服務平臺,需要足夠的資料庫。要實現低成本、高可靠性、更快速度和更好用的訓練集,還需要強大的算力系統。計算機視覺,機器學習和深度學習是計算機科學中最重要的研究領域之一。
  • 徐振江:菌群研究和數據分析怎麼做?21分鐘帶你入門
    首先,我們提出一個科學假說或者說一個科學問題;然後,我們再來設計一個合適的研究方案,來解答這個問題,驗證或者推翻科學假說;在實施研究方案的過程當中,我們要避免一些幹擾因子對我們的生物學分析的影響;最後拿到數據之後,我們進行一個數據分析:將生物信息學的方法應用其中,得到可靠的生物學結論。
  • Python數據實戰分析之定量和定性數據分析
    也就是說,部署過程基本上就是把數據分析得到的結果應用到實踐中去。數據分析或挖掘的結果有多種部署方式。通常,數據分析師會在這個階段為管理層或是客戶撰寫報告,從概念上描述數據分析結果。報告應上呈經理,以便他們讀後好作出相應的決策,真正用分析結構指導實踐。
  • 關於房子,這些風水真相你必須得知道!
    但是你知道,這是能量磁場繼續產生的地方,它對我們的影響最大! 這個家庭的風水對我們有什麼影響? 有什麼不好的效果,有什麼樣的表現? 我們應該如何利用家裡的風水來獲得幸運和繁榮?
  • 9102年了,你還不知道怎麼做數據科學家嗎?
    我從某些地方了解到許多數據科學家都至少有碩士學歷,我是否應該去讀個數據科學專業的碩士呢?天哪,為什麼你要那樣做?·您必須警惕「數據科學」項目,這些項目很大程度上就是變相的的「業務分析」學位。此外,日常學術界往往落後於工業界,也就是說,你在學校學到的技術可能是過時的。為了保持與時俱進,利用 Coursera 或 Khan Academy 自學可能是更好的選擇。
  • 這個概念你必須知道!
    1960年,美國航天醫學空軍學校兩位學者曼弗雷德.克林斯和內森.克蘭在《賽博與空間》一文中提出為了解決人類在未來星際旅行中面臨的呼吸、新陳代謝、失重以及輻射效應等問題,需要向人類身體移植輔助的神經控制裝置以增強人類適應外部空間的生存能力,由此首次提出賽博格這一概念。賽博格後來被定義為人的身體性能經由機器拓展進而超越人體的限制的新身體,也有人將其簡稱為電子人。
  • 提高數據分析能力,你不得不看的33本書|推薦收藏
    儘管閱讀容易,但所講的知識在數據分析中都是常見且必須掌握的,比如基本的統計量,基本上每個分析項目中都會用到;比如基本的概率分布,總體與樣本的概念、置信區間、假設檢驗、回歸分析,都是關於數據分析的統計學知識。2.《統計學習方法》推薦理由:統計學習方法即機器學習方法,是計算機及其應用領域的一門重要學科。本書分為監督學 習和無監督學習兩篇,全面系統地介紹了統計學習的主要方法。
  • 陳潤生院士:精準醫學本質是組學大數據與醫學的結合
    實際上很簡單,大家知道,近代生物醫學革命性的變化就是得到了以遺傳密碼為基礎的大數據。這是人類生物科學上的劃時代的,以前沒有,以後就變成常規的事了。因此,這個數據剛開始價格很高,現在變得普通、便宜了,任何人可以得到自己的遺傳密碼,而這些遺傳密碼通過分析,即對正常人和腫瘤患者的分析,遺傳密碼哪些是不同的,就可以得到信息。比如跟肺癌相關的,你的遺傳密碼的不足在什麼地方?
  • 拿到數據後,你需要掌握哪些數據分析方法
    但是依然有很多人想知道如何下手對手裡的數據進行處理,從什麼維度進行分析。今天DataHunter數獵哥就來給大家分享一下,拿到數據以後,我們該用哪些方法來分析數據,獲得進一步工作指導。一、數據分析方法在說數據分析方法之前,我們先來明確兩個概念:數據分析方法與數據分析方法論。分析方法論是一次數據分析工作遵循的宏觀框架;分析方法,是針對不同目標、不同數據源選用的細節工具,一次分析工作中會藉助很多種不同的分析工具。
  • 中科院田捷教授:基於 AI 和醫療大數據的影像組學研究及其臨床應用...
    作為計算機視覺與醫學影像分析環節的重量級嘉賓,本次大會,田捷教授向與會觀眾分享了題為「基於人工智慧和醫療大數據的影像組學研究及其臨床應用」的精彩專題報告。田捷教授現任中國科學院自動化所研究員、分子影像重點實驗室主任。
  • ...AI 和醫療大數據的影像組學研究及其臨床應用 丨CCF-GAIR 2018
    作為計算機視覺與醫學影像分析環節的重量級嘉賓,本次大會,田捷教授向與會觀眾分享了題為「基於人工智慧和醫療大數據的影像組學研究及其臨床應用」的精彩專題報告。田捷教授現任中國科學院自動化所研究員、分子影像重點實驗室主任。
  • 從數據可視化到交互式數據分析
    人類對現實有一個心理模型,並使用數據/模型來研究它,以便可以更好地理解它。(這個概念值得整篇博文,我希望在不久的將來可以寫一篇。)交互式數據分析如何工作?我個人認為,對這一點我們必須以更包容的態度來看,並認識到,儘管有很大一部分人可能會從數據分析工具中受益匪淺,但他們沒有時間、資源或動力去學習如何使用規範化語言。因此,儘管我是R and Jupyter和panda組合等數據科學編程工具的超級粉絲,但我仍然不確定我們是否應該期望每個人都達到這種熟練程度,以便對數據進行有用的處理。
  • 數據科學入門前需要知道的10件事
    數據科學的技術內容包括了數據收集,數據預處理,數據深度分析,數據可視化,統計分析,機器學習,編程和軟體工程。除了這些技術要求,數據科學家還需要具有各種軟技能。下面信息圖所示概括了數據科學家必備的一些技能。 1.