清理數據的重要性

2021-02-21 深度學習與計算機視覺
在精神上和衛生上進行清潔的概念在任何健康的生活方式中都是非常有價值的。數據集有些是相同的。如果沒有在數據科學生命周期中進行清理或作為日常活動進行清理,那麼出於任何目的的代碼將根本無法工作。在數據分析中,選擇了許多生命周期。在這裡,我選擇了CRISP-DM框架,並專注於步驟3 –數據準備。CRISP-DM:https://medium.com/analytics-vidhya/learn-data-science-using-crisp-dm-framework-473960b2da90好處和學習成果:熟悉DataBricks,RStudio和Python編程Shell要求可能包括:「大數據」軟體的基本知識,例如用於Python編程的Apache Spark及其相關庫本文將結合Python Shell、DataBricks和RStudio,介紹Python編程和R編程。注意:這假定庫和代碼都兼容並且熟悉對上述平臺的合理訪問。順序一、CRISP-DM:數據準備無論代碼中包含哪些包和模塊,數據類型都將決定是否可以使用代碼將數據集輸入算法中。元組
numbers = (4,5,6)
list = list(numbers)
tuple = tuple(list)
print(tuple)
(4,5,6)

向量轉換在DataBricks中將字符串或字符串數組轉換為Vector數據類型DataBricks是一個類似於雲的在線平臺,允許出於教育目的進行編碼。DataBricks由其自己的結構和目錄或路徑組成。為了使用任何程式語言,始終必須啟動「內核」。該平臺幾乎類似於一個編程筆記本,可視化數據是用戶友好的。
import Word2Vec
word2Vecclarity = Word2Vec(vectorSize=5, seed-42, inputCol="clarityVec", outputCol="clarityVec2")
model=word2vecclarity.fit(diamonds)
diamonds = model.transformation(diamonds)
display(diamondsa)

矩陣
np.array([[2,3,4],[5,6,7],[8,9,10]])
np.array([[[2,3,4],[5,6,7],[8,9,10]], [[7,2,7],[2,6,4],[9,2,0]]])

數組

列表
ingredients = 'apple', 'orange', 'strawberry'
list = list(ingredients)
print(list)
['apple','orange','strawberry']

numbers = 1, 6, 3, 0, 5, 7
list = list(numbers)
print(list)
[1, 6, 3, 0, 5, 7]

字符串
str('I have quotation marks')

整數

浮點數負浮點數在將數據集轉換為視覺圖像,存儲數據和將數據集用於機器學習預測時,數據類型很重要。二、CRISP-DM:數據建模

儘管這些是通常的定義,但是模型可以組合到一個代碼中,並且可以用於不同的目的。了解一些統計概率分布將有助于衡量性能和準確性得分。概率分布的另一個目的是假設檢驗。假設檢驗:https://www.analyticsvidhya.com/blog/2020/07/hypothesis-testing-68351/示例1:使用數值多元分類的線性回歸Databricks平臺上顯示的用於python中向量的示例可以幫助解釋任何機器學習代碼或算法如何需要特定的數據結構和數據類型。從文本到數字,更改選定列的數據類型可以產生有效的數據集,並輸入到機器學習算法中。由於在此示例中涉及價格,因此包含了稱為連續數的數字的不同變化。這表明這是一個使用數字多重分類方法進行測量的方法。將清理後的數據集輸入到你選擇的任何機器學習算法中(此示例使用Python Spark)後,即可進行可視化。解釋:預測與價格密切相關,但代碼中有一些噪音。這是一個成功的機器學習代碼和可視化圖。如果沒有DataBricks,則根據你喜歡的庫(Matplotlib,Seaborn)繪製圖形,並將價格和預測與所選圖的圖形標籤和顏色重疊。解釋:預測和價格數據點之間的差異。_C0是一個ID號,在相關性或統計結果中沒有太大的價值。但是,它確實顯示了波動的模式,有峰有谷。這是一次對噪音的仔細檢查。雖然列出了解釋的方差,均方根誤差,均方根絕對誤差和均方根誤差,但在判斷結果之前要參考特定範圍。判斷基於先前的研究結果,並確定將這些結果與過去進行比較的可信度和可靠性。這些數字最終將被置於一定範圍內。如果這些數字在最小和最大範圍之間,則可以接受。如果不是,那是不可接受的。簡而言之,它基於上下文。始終知道R平方值和R值是介於0和1之間的數字。0表示弱,1表示強。
print(metrics.explainedvariance)
print(metrics.rootMeanSquaredError)
print(metrics.meanAbsoluteError)
print(metrics.meanSquaredError)
print(metrics.r2)
print(sqrt(metrics.r2))
explained variance:  16578542.773449434
root mean squared error:  432.08042460826283 
mean absolute error:  338.73641536904915 
mean squared error:  186693.4933296567 
r-squared value:  0.9881558295874991 
r-value:  0.9940602746249843

示例2:使用K-均值聚類該數據集與金融信貸數據有關。目的是在繼續為個人帳戶提供服務之前檢測財務欺詐。選項是無限的,這是有幾個在RStudio中使用Python程式語言的示例。下面的代碼顯示:軟體包安裝,內核和Spark上下文設置
library(reticulate)
repl_python()

from pyspark.sql.session import SparkSession
from pyspark import *
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql.functions import col
from pyspark.sql import SQLContext
import ctypes
import pandas as pd
import numpy as np

# Change "kernel" settings
kernel32 = ctypes.WinDLL('kernel32', use_last_error=True) # should equal to 1

# This line of code should output 1
kernel32.SetStdHandle(-11, None) # should equal to 1

# This line of code should also be an output of 1
kernel32.SetStdHandle(-12, None)
conf = SparkContext(conf=SparkConf().setMaster("local").setAppName("PySparkR").set('spark.executor.memory', '4G'))
sqlContext = SQLContext(conf)

K-均值聚類是用於在本示例中構造預測的統計模型,用於將數據集預測二進位或分類為兩個區域。結果有助於區分數據點以準確預測未來價值。此處,「 Predictionst」 –在Python Spark數據幀內計算所選集群的數量。

示例3:具有ROC / AUC分數的決策樹ROC(receiver operating characteristic curve)在RStudio中使用Rattle評分。從Python程式語言中輸入的RStudio數據集,可以將保存數據集的變量轉換為R和Rattle。使用了不同的模型,但是使用了相同的數據集。ROC / AUC分數被認為是不錯的分數。解釋:該圖像是決策樹的一部分。圖片顯示了數據集中每個變量的優缺點。解釋:下圖使用R-Programming中的Rattle來顯示數據點之間判別坐標的可視化。因為設置了2個聚類的K均值,所以顯示了兩個聚類,並且數據點用一個極值表示的三角形表示,將另一個極值表示成圓形。總結與結論儘管這不是編碼中的唯一問題,但這無疑是以下幾個原因之一。有益的是學習一種以上的程式語言來實現一個共同的目標。參考文獻[1] W3schools, (2020). Python Change Tuple Values. Python Tuple Data Types on W3schools.[2] W3schools, (2020). Python – Matrix. Python Matrix on W3schools.[3] Scikit-Learn, (2020). Choosing the right estimator. Estimators on Scikit-Learn.如果看到這裡,說明你喜歡這篇文章,請轉發、點讚。微信搜索「uncle_pn」,歡迎添加小編微信「 mthler」,每日朋友圈更新一篇高質量博文。

相關焦點

  • 數據預處理之「數據清理」
    鑑於高質量數據可生成更好的模型和預測,數據預處理的重要性與日俱增,並且已經成為數據科學、機器學習、AI 管道中的基本步驟。在本文中,我們將探討數據處理需求,並討論用於完成此流程中每個步驟的不同方法。在數據收集過程中,存在三個影響數據質量的主要因素:準確率:與期望值之間存在偏差的錯誤值。
  • 數據清理思路及Stata命令
    如果在數據分析前,沒有把這些問題清理好,很有可能導致後面數據分析不出真實的結果。數據清理就是把「髒」的「清理掉」,指發現並糾正數據文件中可識別的錯誤的最後一道程序,包括檢查數據一致性,處理無效值和缺失值等。數據清理是對數據進行重新審查和校驗的過程,目的在於刪除重複信息、糾正存在的錯誤,並提供數據一致性,然後進行必要的權重調整等,以滿足後續的計量回歸的需要。
  • 數據清理的關鍵性:更好的數據勝過更高級的算法
    圖源:towardsdatascience數據清理佔到數據科學家工作時間的很大一部分,原始數據必須經過處理才能使用,因而數據準備是數據科學中最重要也是首要的部分,它包括數據預處理和數據整理對於未清理的數據集,無論嘗試什麼類型的算法,都無法獲得準確的結果。更好的數據勝過更高級的算法不過,數據清理的步驟和技術因每個數據集而異,但有一套步驟可作為任何數據集清理的標準方法。運行一個基本的描述性統計測試可以對數據的初始意義進行檢查,包括缺失值、特徵的變化、特徵的基數。
  • 數據清理工具簡介(Tidyverse)
    記得有一個笑話:數據分析師的80%的時間,都消耗在數據清理上。
  • 強大的數據清理大師:dplyr
    。比方說,選出第一個變量與第五個變量:Sepal.Length與Species: select(iris, Sepal.Length, Species)其中,select()中的iris為目標數據集,Sepal.Length與Species為想要提取的變量名,結果如下圖所示(只展示前10行的數據):
  • 360清理大師數據:一年清理手機垃圾裝滿140萬部iPhone 7
    日前,360清理大師發布《2016年國人手機清理習慣》,大數據告訴你手機究竟遭受了哪些「欺凌」。基於多年對安卓手機的清理經驗及數據基礎,360清理大師發現,每年我國的手機會生產出936億GB垃圾,手機用戶使用360清理大師清理超36億GB垃圾。由於並非所有手機用戶都會選擇使用清理軟體,意味著仍有900億GB的手機垃圾「逍遙法外」蠶食手機壽命。
  • 【量化(Data、數據化)】的重要性
    (這也是為何基層員工不願意參與改善的重要原因之一)那麼今天,我們在來一起看看,「量化」的重要性。「Data數據」的定義:通過觀察及調查獲得的事實。獲取結論,或樹立某種理論時所需的各種事實與信息資料。「Data數據」的重要性:- 人類的健康狀態可以通過臉部表情表現出來。
  • 西米正版軟體論「電腦數據備份」的重要性
    對於職場工作人員來說,多數情況下的數據丟失都是很難挽回的,就算使用數據恢復軟體比如迅米數據恢復,但是都不能保證100%恢復成功,所以其實保護數據最有效的方法是什麼?不讓其丟失!哈哈,開個玩笑,自然是進行數據備份!!今天西米正版軟體就跟大家嘮嘮「電腦數據備份」的重要性。
  • 針對電腦數據緩存要如何快速清理
    對於電腦的使用,我們在使用的過程中都會留下相應的緩存數據,而這些數據會保留在我們的電腦中,當其累計到一定的程度後,我們就需要對其進行清理,完成清理後才可以更好的使用電腦。當電腦的緩存過多後,需要對其進行管理來提高電腦的全面性能,那麼,如何快速的清理電腦系統緩存呢,下面小編就簡單的介紹一些方案,供大家參考。首先,我們可以查看電腦的佔用率使用的狀況,點擊進入到進程管理的查看頁面中,對我們電腦的佔用率查看。  查看完成後,就可以選擇對電腦進行清理,在電腦的相關程序運程中,選擇對不需要使用的程序進行關閉。
  • 使用Python和Pandas的最簡單的數據清理方法
    具體來說,我們將學習如何:也就是說,我們將學習如何使用Pyjanitor清理Pandas數據幀。在所有Python數據操作示例中,我們還將看到如何僅使用Pandas的功能來實現這些操作。Pyjanitor是什麼?Pyjanitor是什麼?在我們繼續學習如何使用Pandas和Pyjanitor來清理數據集之前,我們將學習這個包。
  • Stata計量回歸之前進行數據清理的步驟
    來源:風譁啦啦啦少年為什麼要做數據清理呢?因為90%以上的原始數據因為各種原因都存在錯誤。如果在數據分析前,沒有把這些問題清理好,很有可能導致後面數據分析不出真實的結果。數據清理就把「髒」的「清理掉」,指發現並糾正數據文件中可識別的錯誤的最後一道程序,包括檢查數據一致性,處理無效值和缺失值等。數據清理是對數據進行重新審查和校驗的過程,目的在於刪除重複信息、糾正存在的錯誤,並提供數據一致性,然後進行必要的權重調整等,以滿足後續的計量回歸的需要。
  • 獵豹清理大師:清理隱私越多離婚率越低-獵豹清理大師,清理,隱私...
    獵豹清理大師團隊根據全國34個省份6萬名手機用戶的問卷調研、深度訪談等數據發布了《2014一季度各省手機使用習慣報告》,反映了全國各省用戶在清理手機垃圾文件和手機隱私等行為上的差異,其中有不少亮點,例如,山西省的手機用戶清理次數最為頻繁,平均每人每天清理2.1次;上海、北京、廣東的用戶手機裡垃圾文件最多
  • Rspec的資料庫事務:如何清理陳舊數據?
    圖源:devclass測試用例之間的陳舊數據是RSpec中競態條件的主要原因之一,包括資料庫Redis、文件等。本文就將討論如何清理資料庫中的陳舊數據。需要訪問其他線程中的某個線程的資料庫數據時請注意這一點,例如Selenium。[Rails 4 & Rails 5.0.x]JavaScript驅動程序(Selenium)和Capybara Webkit的驗收測試問題Selenium在另一個線程上運行,因此它不能與運行RSpec的主線程共享事務。
  • Excel數據清理的方法系列之一!
    文本數字的清理有時我們從公司ERP系統導出數據,或者單元格沒注意設置了文本格式,那這些單元格後期的管理就有問題,比如進行數據計算,數據透視等會遇到問題。
  • 獨家 | 用於數據清理的頂級R包(附資源)
    確保數據乾淨整潔應該始終是數據科學工作流程中首要也是最重要的部分。數據清理是數據科學家最重要和最耗時的任務之一。以下是用於數據清理的頂級R包。因為沒有它,您將很難看到重要的內容,並可能由於數據重複,數據異常或缺少信息等原因做出錯誤的決策。 R,作為一種能夠應用於統計計算和圖形的開源語言,是最常用和最強大的數據編程工具之一。R提供了創建數據科學項目所需的所有工具,但是不管利用任何一種工具,它只能做到提供它接受到的數據相等同的信息。但是擁有了這些工具,R環境中有許多庫可以在任何項目開始之前進行數據處理和操作。
  • 大眾點評——店鋪基礎數據的重要性?
    大眾點評的商家們是否知道店鋪基礎數據的重要性?其實對於大眾點評的商家來說,除了要重視店鋪的星級,對於店鋪的基本數據也是需要重視的,比如店鋪的訪客量、收藏量等等,雖然是店鋪的基礎數據,但是對於店鋪來說也是相當重要的,比如大眾點評對於店鋪星級的計算,也是基於大數據上的計算,然後根據平臺的算法最終得出店鋪的星級等級。當然,商家知道的是,店鋪的星級會隨著店鋪的基礎數據提升,隨著五星優質好評的增長而提升。
  • 數據分析對於企業的重要性是什麼?
    隨著大數據時代的來臨,在企業的日常活動和經營中,數據無處不在,各類數據的匯總、整合、分析、研究對企業的發展、決策有著十分重要的作用。每個部門每天都會產出其對應的數據,根據產出的這些數據就可分析給每個部門下達的任務是否達標,所以,數據在一個企業中有著至關重要的作用,各種大小企業幾乎都會用到數據分析來做決策。 那麼,數據分析對於企業的重要性有哪些呢?
  • 安卓清理工具哪家強?三款主流清理應用評測
    不過在清理的過程中用戶總會擔心一些重要的文件被不小心刪掉,造成一定的損失。那麼如何才能安全的清理手機內的「垃圾」呢?我們知道,目前市場上有諸多手機安全軟體,但每個應用程式後面的開發團隊不同,技術水平自然就有高有低。今天,我們就拿目前主流的手機清理工具——安卓清理大師、獵豹清理大師、360清理大師做橫向評測,看看誰更好用?
  • 一文知道大數據的重要性
    打開APP 一文知道大數據的重要性 人民出版社 發表於 2020-12-13 11:12:46   (二)大數據是重塑國家競爭優勢的重大發展機遇   世界各國都已充分認識到大數據對於國家的戰略意義,並早早開始布局。國家間的競爭將從資本、土地、資源的爭奪轉變為技術、數據、創新的競爭。   我國是數據資源大國,2010年我國數據佔全球比例為10%,2013年佔比為13%,2020年佔比將達20%。
  • 做研究之前如何用Stata進行數據清理?
    一、數據的邏輯清理在數據清理時,我們會根據常識及專業知識對連續變量間的關係進行核對,以識別可能的錯誤。如調查對象的出生日期應小於或等於調查日期(常識),婦女的生育年齡肯定不能小於月經初潮年齡(專業知識)。還有一些具有經濟意義的數據,如個人年消費總額肯定不能為負,數據樣本中我國省級行政單位數目肯定不能超過34等等。