大數據及大數據的4V特徵

2020-12-15 數字經濟探索

人類歷史上從未有哪個時代和今天一樣產生如此海量的數據。數據的產生已經完全不受時間、地點的限制,數據的總量在不斷地增加,增加的速度也在不斷地加快。而要掌握大數據的概念,首要任務就是從動態上了解大數據的成因。大數據的成因,不僅是人類信息技術的進步,而且是信息技術領域不同時期多個進步交互作用的結果。從開始採用資料庫作為數據管理的主要方式開始,人類社會的數據產生方式大致經歷了被動、主動和自動三個階段,而正是數據產生方式的巨大變化才最終導致大數據的產生。大數據產生的原因主要來自四大方面,一是數據存儲成本的降低與存儲硬體體積的減小;二是企業思維模式的轉變;三是生活的數位化驅動;四是社交網絡的飛速發展。

1)大數據的定義

大數據本身是一個比較抽象的概念,單從字面來看,它表示數據規模的龐大。但是僅僅數量上的龐大顯然無法看出大數據這一概念和以往的「海量數據」(Massive Data)、「超大規模數據」(Very Large Data)等概念之間有何區別。針對大數據,目前存在多種不同的理解和定義。

麥肯錫在其報告《Big data: The next frontier for innovation, competition and productivity》中給出的大數據定義是:大數據指的是大小超出常規的資料庫工具獲取、存儲、管理和分析能力的數據集。但它同時強調,並不是說一定要超過特定TB值的數據集才能算是大數據。

維基百科對「大數據」的解讀是:「大數據」(Big Data),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、並整理成為人類所能解讀的信息。

百度百科對「大數據」的定義為:「大數據」(Big Data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策的資訊。

研究機構Gartner認為,「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。它定義了哪些超出正常處理範圍和大小、迫使用戶採用非傳統處理方法的數據集。

按照美國國家標準與技術研究院(National Institute of Standards and Technology,NIST)發布的研究報告的定義,大數據是用來描述在我們網絡的、數字的、遍布傳感器的、信息驅動的、世界中呈現出的數據泛濫的常用詞語。大量數據資源為解決以前不可能解決的問題帶來了可能性。

大數據是一個寬泛的概念,每個人的見解都不一樣。在綜合各家觀點的基礎上,給出了本書的定義:「大數據」是在體量和類別特別大的雜亂數據集中,深度挖掘分析取得有價值信息的能力。大數據不僅僅在於數量的大,「大」只不過是信息技術不斷發展所產生的海量數據的表象而已。我們更加關注「數據」的深度分析和應用,對於數據有價值的深度挖掘分析和在新形勢下的數據應用是我們需要探討的重點。

大數據代表著數據從量到質的變化過程,代表著數據作為一種資源在經濟與社會實踐中扮演越來越重要的角色,相關的技術、產業、應用、政策等環境會與之互相影響、互為促進。從技術角度來看,這種數據規模質變後帶來新的問題,即數據從靜態變為動態,從簡單的多維度變成巨量維度,而且其種類日益豐富,超出當前分析方法與技術能夠處理的範疇。這些數據的採集、分析、處理、存儲和展現都涉及複雜的多模態高維計算過程,涉及異構媒體的統一語義描述、數據模型、大容量存儲的建設,涉及多維度數據的特徵關聯與模擬展現。然而,大數據發展的最終目標還是挖掘其應用價值,沒有價值或者沒有發現其價值的大數據從某種意義上講是一種冗餘和負擔。

2)大數據的特徵

大數據的特徵,由維克託邁爾-舍恩伯格和肯尼斯克耶編寫的《大數據時代》中提出,大數據的4V特徵:規模性(Volume)、高速性(Velocity)、多樣性(Variety)、價值性(Value)。

(1)規模性

隨著信息化技術的高速發展,數據開始爆發性增長。大數據中的數據不再以幾個GB或幾個TB為單位來衡量,而是以PB(1千個T)、EB(1百萬個T)或ZB(10億個T)為計量單位。

(2)多樣性

多樣性主要體現在數據來源多、數據類型多和數據之間關聯性強這三個方面。

①數據來源多,企業所面對的傳統數據主要是交易數據,而網際網路和物聯網的發展,帶來了諸如社交網站、傳感器等多種來源的數據。

而由於數據來源於不同的應用系統和不同的設備,決定了大數據形式的多樣性。大體可以分為三類:一是結構化數據,如財務系統數據、信息管理系統數據、醫療系統數據等,其特點是數據間因果關係強;二是非結構化的數據,如視頻、圖片、音頻等,其特點是數據間沒有因果關係;三是半結構化數據,如HTML文檔、郵件、網頁等,其特點是數據間的因果關係弱。

②數據類型多,並且以非結構化數據為主。傳統的企業中,數據都是以表格的形式保存。而大數據中有70%-85%的數據是如圖片、音頻、視頻、網絡日誌、連結信息等非結構化和半結構化的數據。

③數據之間關聯性強,頻繁交互,如遊客在旅遊途中上傳的照片和日誌,就與遊客的位置、行程等信息有很強的關聯性。

(3)高速性

這是大數據區分於傳統數據挖掘最顯著的特徵。大數據與海量數據的重要區別在兩方面:一方面,大數據的數據規模更大;另一方面,大數據對處理數據的響應速度有更嚴格的要求。實時分析而非批量分析,數據輸入、處理與丟棄立刻見效,幾乎無延遲。數據的增長速度和處理速度是大數據高速性的重要體現。

(4)價值性

儘管企業擁有大量數據,但是發揮價值的僅是其中非常小的部分。大數據背後潛藏的價值巨大。由於大數據中有價值的數據所佔比例很小,而大數據真正的價值體現在從大量不相關的各種類型的數據中。挖掘出對未來趨勢與模式預測分析有價值的數據,並通過機器學習方法、人工智慧方法或數據挖掘方法深度分析,並運用於農業、金融、醫療等各個領域,以期創造更大的價值。

(數字經濟與電子商務知識系列由樊重俊教授團隊編寫,每篇並無嚴格的前後關係。轉發本文請標明出處)

相關焦點

  • 大數據的「4V」特徵合適嗎?
    大數據的「4V」特徵很有名。但我一直對這個提法感覺莫名其妙:這樣總結的目的是什麼?
  • 大數據掃盲——什麼是大數據
    但誰有知道大數據是人工智慧的基礎。大數據堪稱新石油,各國都將大數據作為國家戰略資源。八國集團發布了《G8開放數據憲章》,提出要加快推動數據開放和利用。歐盟力推《數據價值鏈戰略計劃》,用大數據改造傳統治理模式,降低公共部門成本,並促進經濟增長和就業增長。
  • 大數據入門:Scala大數據黃金語言
    在大數據的學習當中,關於程式語言選擇的部分,是很多人在學習初期非常關注的。在企業大數據平臺開發場景下,Java語言是主流選擇,其次涉及到Spark部分,就不得不提到Scala語言。今天的大數據入門分享,我們就具體來講一講大數據黃金語言Scala。
  • 緊追大數據擴張腳步 浪潮助力銀行建設大數據平臺
    藉助大數據,銀行業的信貸、投資、理財、風控等發展將呈現出全新的藍圖,而大數據的背後如何構建大容量的數據存儲環境以應對數據洪流的衝擊成為金融企業面臨的關鍵抉擇。某銀行正在與浪潮合作,基於浪潮存儲伺服器NF5266M5搭建其大數據應用平臺,在解決大容量存儲方面問題的同時,讓數據中心建設空間得到高效利用,找到了性能和成本最優解。
  • 大數據如何賦能產品-用戶特徵分析
    編輯導語:大數據是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的數據集合,從目前大數據發展的趨勢來看,它不僅會成為一個蓬勃發展的行業,在其他行業的應用也有非常廣闊的空間。本文作者就提出了用大數據賦能產品的想法,從而更好的進行用戶特徵分析。
  • 電力百科|什麼是電力大數據?電力大數據從哪兒來?
    隨著智能電網和信息化建設,電力行業積累了海量數據,這些數據在數據量、多樣性、速度和價值方面具有大數據的特徵。電力行業已進入大數據時代。電力大數據是通過傳感器、智能設備、視頻監控設備、音頻通信設備、移動終端等各種數據採集渠道,收集到的海量結構化、半結構化、非結構化的業務數據集合。
  • 2017年餅乾行業大數據報告,餅乾品牌大數據分析
    2017-10-16 16:01:32 來源: 鹿豹座 舉報   原標題:2017年餅乾行業大數據報告
  • 安防AI大數據全流程解析
    本篇文章介紹了安防AI大數據流程的三個環節、數據預處理技術及方法、以及大數據的應用。對於安防AI,看上去是AI,實際上最後是大數據,大數據才是智能化的基礎。人工智慧、深度學習、機器學習、大數據應用在安防AI中, 說到底都是對大數據的採集、建模和應用。本文大致說一下安防AI中,對於大數據的運用過程與環節,讓大家有個大致的印象。
  • 大數據專家:大數據7大最奇特應用 | 網際網路數據資訊網-199IT |...
    (本文最初發表在LinkedIn)在客戶體驗與庫存管理流程方面,大數據通常會發揮重要作用。近來,我盤點了7個最有趣、最獨特的大數據應用,以及它們可能對我們的生活產生的影響。1.大數據廣告牌戶外營銷公司Route正使用大數據在廣告牌、長椅以及公交車兩側的廣告空間上設定定價模式。
  • 智慧公安情報大數據研判系統開發可視化大數據平臺搭建
    智慧公安情報大數據研判系統開發可視化大數據平臺搭建當前,隨著「智慧公安建設:的推進各市公安正在著力建設情報數據中心。「公安情報大數據研判分析系統」的總體建設目標是以省級公安數據為核心,實現數據的整合、共享和深度應用,提升發現預警、事件處置、人員控制、偵察打擊四種能力,實現指揮、情報、偵察、控制、行動五位一體的功能。
  • 蘇州大數據培訓班掌握大數據時代
    助你快速掌握大數據核心注重項目、注重技能,讓所學知識能夠合理運用,助學員快速獲得工作經驗。配備ucloud雲伺服器,提供完全真實的網際網路大數據開發部署環境。大數據開發工程師應掌握的技術1. Hadoop。
  • 高校數據科學與大數據技術專業建設全景報告
    數據科學與大數據技術專業,專業代碼:080910T,無疑是未來十年最火的專業,甚至沒有「之一」。  2020年3月,138所高校獲批第五批「數據科學與大數據技術」專業,180…  數據科學與大數據技術專業,專業代碼:080910T,無疑是未來十年最火的專業,甚至沒有「之一」。
  • 大咖雲集共話大數據 青島市大數據專家大會暨大數據冬季論壇召開
    半島全媒體記者 劉愷琦12月29日,2020青島市大數據專家大會暨青島市大數據冬季論壇在市級機關會議中心召開,大會以「聚力·創新·賦能」為主題,聚業界專家之力,創數據應用之新,賦產業升級之能,來自社會各界大數據專家近200人相聚於此,共議島城大數據發展。
  • 讓大數據為疫情預警——大數據在疾控應用中的方方面面
    雙數科技傳染病疾病智能監測方案運行邏在雙數科技的傳染病疾病智能監測解決方案中,首先匯集EMR、LIS、EMR及PACS四大系統診療數據,再運用雙數傳染病專家知識庫、語義分析技術,對診療數據進行傳染病疾病相關特徵提取
  • 裝修行業如何利用運營商大數據尋找客戶
    你可以試著利用大數據 公眾號:大海啊好多水 大數據大數據營銷的全過程分為數據的收集和解決、模型分析數據、講義數據三大方面。
  • 三種用Python從圖像數據中提取特徵的技術
    全文共4073字,預計學習時長8分鐘你之前是否使用過圖像數據?也許你想建立自己的物體檢測模型,或者僅僅是想統計走進某棟建築物的人數,使用計算機視覺技術處理圖像擁有無窮無盡的可能性。但數據科學家最近有這樣一種研究趨勢,他們堅信,在處理非結構化數據(尤其是圖像數據)時,深度學習模型是不斷向前發展的。
  • 異常行為數據集-疲勞駕駛數據集-行為分析數據集
    詳細的說明見下方正文「這個數據集不太好,但是還不至於不可用」。基於正文中對這個數據集的分析,我對在此數據集上使用其標記數據進行訓練的模型性能表示強烈的懷疑。然而,當前好用的異常行為數據集非常稀少(如 UCSD Ped x, Subway xxx,Abnormal crowd),並且這個真實監控視頻數據集的視頻總時長非常多(收集異常行為的難度非常大!)
  • 大數據的應用實例展示:生活中的大數據
    大數據、雲計算、人工智慧、物聯網……新的概念不斷湧出,並且隨著技術的成熟,也在實際的應用當中不斷拓展,逐漸影響我們的生活。以大數據來說,聽起來「高大上」,感覺離我們很遠,實際上卻並非如此。今天我們就來聊聊,大數據的應用實例,生活中的大數據例子。
  • 疫情防控大數據分析模型搭建考慮因素
    4、近期有疑似特徵就診的特殊對象預警。   5、高危地區車輛流入預警。通過各級衛生健康部門每日公布的數據(全國、省、地市、縣的確診數、疑似數、死亡數、出院數等),建立本地區與全國、本省、本市的趨勢對比,通過環比、同比、佔比,及時發現增長過快、持續增長等趨勢特徵。   2、高危區域人員流動特徵監測。發現防控中的重點區域和重點對象。在疫情後該項更為重要。
  • 對比解讀五種主流大數據架構的數據分析能力
    隨著大數據技術的發展,數據挖掘、數據探索等專有名詞的曝光度越來越高,但是在類似於Hadoop系列的大數據分析系統大行其道之前,數據分析工作已經歷了長足的發展,尤其是以BI系統為主的數據分析,已經有了非常成熟和穩定的技術方案和生態系統,對於BI系統來說,大概的架構圖如下: