大數據及大數據的4V特徵

2020-12-24 數字經濟探索

人類歷史上從未有哪個時代和今天一樣產生如此海量的數據。數據的產生已經完全不受時間、地點的限制,數據的總量在不斷地增加,增加的速度也在不斷地加快。而要掌握大數據的概念,首要任務就是從動態上了解大數據的成因。大數據的成因,不僅是人類信息技術的進步,而且是信息技術領域不同時期多個進步交互作用的結果。從開始採用資料庫作為數據管理的主要方式開始,人類社會的數據產生方式大致經歷了被動、主動和自動三個階段,而正是數據產生方式的巨大變化才最終導致大數據的產生。大數據產生的原因主要來自四大方面,一是數據存儲成本的降低與存儲硬體體積的減小;二是企業思維模式的轉變;三是生活的數位化驅動;四是社交網絡的飛速發展。

1)大數據的定義

大數據本身是一個比較抽象的概念,單從字面來看,它表示數據規模的龐大。但是僅僅數量上的龐大顯然無法看出大數據這一概念和以往的「海量數據」(Massive Data)、「超大規模數據」(Very Large Data)等概念之間有何區別。針對大數據,目前存在多種不同的理解和定義。

麥肯錫在其報告《Big data: The next frontier for innovation, competition and productivity》中給出的大數據定義是:大數據指的是大小超出常規的資料庫工具獲取、存儲、管理和分析能力的數據集。但它同時強調,並不是說一定要超過特定TB值的數據集才能算是大數據。

維基百科對「大數據」的解讀是:「大數據」(Big Data),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、並整理成為人類所能解讀的信息。

百度百科對「大數據」的定義為:「大數據」(Big Data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策的資訊。

研究機構Gartner認為,「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。它定義了哪些超出正常處理範圍和大小、迫使用戶採用非傳統處理方法的數據集。

按照美國國家標準與技術研究院(National Institute of Standards and Technology,NIST)發布的研究報告的定義,大數據是用來描述在我們網絡的、數字的、遍布傳感器的、信息驅動的、世界中呈現出的數據泛濫的常用詞語。大量數據資源為解決以前不可能解決的問題帶來了可能性。

大數據是一個寬泛的概念,每個人的見解都不一樣。在綜合各家觀點的基礎上,給出了本書的定義:「大數據」是在體量和類別特別大的雜亂數據集中,深度挖掘分析取得有價值信息的能力。大數據不僅僅在於數量的大,「大」只不過是信息技術不斷發展所產生的海量數據的表象而已。我們更加關注「數據」的深度分析和應用,對於數據有價值的深度挖掘分析和在新形勢下的數據應用是我們需要探討的重點。

大數據代表著數據從量到質的變化過程,代表著數據作為一種資源在經濟與社會實踐中扮演越來越重要的角色,相關的技術、產業、應用、政策等環境會與之互相影響、互為促進。從技術角度來看,這種數據規模質變後帶來新的問題,即數據從靜態變為動態,從簡單的多維度變成巨量維度,而且其種類日益豐富,超出當前分析方法與技術能夠處理的範疇。這些數據的採集、分析、處理、存儲和展現都涉及複雜的多模態高維計算過程,涉及異構媒體的統一語義描述、數據模型、大容量存儲的建設,涉及多維度數據的特徵關聯與模擬展現。然而,大數據發展的最終目標還是挖掘其應用價值,沒有價值或者沒有發現其價值的大數據從某種意義上講是一種冗餘和負擔。

2)大數據的特徵

大數據的特徵,由維克託邁爾-舍恩伯格和肯尼斯克耶編寫的《大數據時代》中提出,大數據的4V特徵:規模性(Volume)、高速性(Velocity)、多樣性(Variety)、價值性(Value)。

(1)規模性

隨著信息化技術的高速發展,數據開始爆發性增長。大數據中的數據不再以幾個GB或幾個TB為單位來衡量,而是以PB(1千個T)、EB(1百萬個T)或ZB(10億個T)為計量單位。

(2)多樣性

多樣性主要體現在數據來源多、數據類型多和數據之間關聯性強這三個方面。

①數據來源多,企業所面對的傳統數據主要是交易數據,而網際網路和物聯網的發展,帶來了諸如社交網站、傳感器等多種來源的數據。

而由於數據來源於不同的應用系統和不同的設備,決定了大數據形式的多樣性。大體可以分為三類:一是結構化數據,如財務系統數據、信息管理系統數據、醫療系統數據等,其特點是數據間因果關係強;二是非結構化的數據,如視頻、圖片、音頻等,其特點是數據間沒有因果關係;三是半結構化數據,如HTML文檔、郵件、網頁等,其特點是數據間的因果關係弱。

②數據類型多,並且以非結構化數據為主。傳統的企業中,數據都是以表格的形式保存。而大數據中有70%-85%的數據是如圖片、音頻、視頻、網絡日誌、連結信息等非結構化和半結構化的數據。

③數據之間關聯性強,頻繁交互,如遊客在旅遊途中上傳的照片和日誌,就與遊客的位置、行程等信息有很強的關聯性。

(3)高速性

這是大數據區分於傳統數據挖掘最顯著的特徵。大數據與海量數據的重要區別在兩方面:一方面,大數據的數據規模更大;另一方面,大數據對處理數據的響應速度有更嚴格的要求。實時分析而非批量分析,數據輸入、處理與丟棄立刻見效,幾乎無延遲。數據的增長速度和處理速度是大數據高速性的重要體現。

(4)價值性

儘管企業擁有大量數據,但是發揮價值的僅是其中非常小的部分。大數據背後潛藏的價值巨大。由於大數據中有價值的數據所佔比例很小,而大數據真正的價值體現在從大量不相關的各種類型的數據中。挖掘出對未來趨勢與模式預測分析有價值的數據,並通過機器學習方法、人工智慧方法或數據挖掘方法深度分析,並運用於農業、金融、醫療等各個領域,以期創造更大的價值。

(數字經濟與電子商務知識系列由樊重俊教授團隊編寫,每篇並無嚴格的前後關係。轉發本文請標明出處)

相關焦點

  • 大數據及大數據的4V特徵
    大數據是一個寬泛的概念,每個人的見解都不一樣。在綜合各家觀點的基礎上,給出了本書的定義:「大數據」是在體量和類別特別大的雜亂數據集中,深度挖掘分析取得有價值信息的能力。大數據不僅僅在於數量的大,「大」只不過是信息技術不斷發展所產生的海量數據的表象而已。
  • 大數據4V特徵與六大發展趨勢
    網際網路周刊的定義為:"大數據"的概念遠不止大量的數據(TB)和處理大量數據的技術,或者所謂的"4個V"之類的簡單概念,而是涵蓋了人們在大規模數據的基礎上可以做的事情,而這些事情在小規模數據的基礎上是無法實現的。換句話說,大數據讓我們以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見,最終形成變革之力。
  • 什麼是大數據,權威專家談大數據的4V1C特質
    而國際數據公司(International Data Corporation,簡稱IDC)則從四個特徵定義大數據:數據規模龐大(Volume)、數據更新頻繁(Velocity)、數據類型多樣(Variety)和數據價值巨大(Value)。
  • ABB機器人常見的幾大數據類型
    ABB機器人數據存儲描述了機器人控制器內部的各項屬性,ABB機器人控制器數據類型多達100餘種,其中常見的數據類型包括基本數據、i/o數據、運動相關數據。stringdig 只含數字的字符串:可處理不大於4294967295的正整數2、i/o 數 據 dionum 數字值:取值為0或1用於處理數字i/o信號,數字i/o信號中0作為低電平0~0.7v,1作為高電平3.4~5.0v
  • 大數據是什麼?大數據時代四個特點
    大數據有4個特點,為別為:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值),一般我們稱之為4V。大數據所謂4V,具體指如下4點:1.大量。大數據的特徵首先就體現為「大」,從先Map3時代,一個小小的MB級別的Map3就可以滿足很多人的需求,然而隨著時間的推移,存儲單位從過去的GB到TB,乃至現在的PB、EB級別。隨著信息技術的高速發展,數據開始爆發性增長。社交網絡(微博、推特、臉書)、行動網路、各種智能工具,服務工具等,都成為數據的來源。
  • 大數據的概念及特點大數據的作用有哪些
    介紹大數據的概念與特點,分別討論大數據的典型的特徵,分析大數據要解決的相關性分析、實時處理等核心問題,最後討論大數據可能要面臨的多種挑戰。   大數據」是近年來IT行業的熱詞,大數據在各個行業的應用逐漸變得廣泛起來,如2014年的兩會,我們聽得最多的也是大數據分析,那麼,什麼是大數據呢,什麼是大數據概念呢,大數據概念怎麼理解呢,一起來看看吧。
  • 大數據簡介:類型,特徵和優點
    因此,「大數據」也是一種數據,但規模巨大。「大數據」是用來描述數據的集合,是體積龐大,但與time.In短成倍增長,術語 小號 UCH數據是如此之大,複雜,沒有一個傳統的數據管理工具,能夠存儲它或有效地處理它。
  • 「人工智慧核心之機器學習(4)」——多維數據的特徵選取
    預測準確率不高一方面是我們未對數據進行一定的預處理(包括歸一化和標準化等),這樣不能確保在使用優化方式時,對不同特徵參數起到同樣的影響。 其次是未深入挖掘數據特徵間關係,比如當原始數據某些特徵與目標值不具有線性關係時,不應當納入訓練模型中。而且數據特徵之間可能存在共線性等其他問題,不完全適合使用線性回歸模型進行擬合。
  • PyTorch版YOLOv4更新了,適用於自定義數據集
    從今年 4 月 YOLOv4 發布後,對於這個目標檢測框架,問的最多的問題或許就是:「有沒有同學復現 YOLOv4 的, 可以交流一下麼」。由於原版 YOLO 使用 C 語言進行編程,光憑這一點就讓不少同學望而卻步。
  • 大數據概念及應用-業界動態-@大數據資訊
    麥肯錫是最早提出大數據時代已經到來:「各個行業和領域都已經被數據給滲透了,目前數據已成為非常重要的生產因素了。對於大數據的處理和挖掘將意味著新一波的生產率不斷增長和消費者盈餘浪潮的到來。」  大數據概念最早是IBM定義的,將大數據的特徵歸納為4個「V」(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網絡日誌、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快。
  • 10大機器學習算法,看懂你就是數據科學家
    想成為數據科學家?你得是個博聞強識,又對新鮮事物保持好奇心的人。正因為如此,數據科學家會掌握幾乎所有的常見算法,並精通其中一門,這樣可以快速適應新領域的問題。今天我們就來聊聊,每一位數據科技家都應該了解的10大機器學習算法。
  • 藝術與大數據相遇:雅昌借勢惠普大數據
    DOSTOR存儲在線 4月16日原創報導: 當藝術遭遇大數據,什麼樣的激情火花迸發,又是什麼樣的靈感創意飛濺?枯燥的大數據,是因為與藝術創作的美相遇而變得光彩奪目,還是仍舊是那麼枯燥、乏味與冰冷?大數據,是否能夠為藝術創作、藝術傳播與藝術教育帶來新的變革契機?雅昌與惠普正在嘗試給予這一連串問題以答案。
  • Vue v-for循環數據
    一、原理分析v-for數據循環是vue項目中比較常用的一個功能主要應用在相同樣式重複的數據,通過v-for的方式寫一條數據即可,剩下的數據通過循環的方式渲染展示.這裡我們可以看到,這是一個網站首頁的banner圖,裡面有三張banner圖,樣式都是一樣的,一般的寫法是寫三個img標籤展示三張圖片,而在vue中就可以用v-for的方式,寫一個img標籤循環渲染展示三張banner圖.
  • Python中的快速特徵工程:圖像數據
    在為分類任務訓練模型時,這是一種常用的特徵工程選擇。當試圖用邊界框的坐標註釋圖像時,使用原始數據可能是一項挑戰。幸運的是,有許多公開和免費可用的數據集,我們可以用來創建用於對象檢測的增強管道。其中一個數據集就是西洋棋數據集。除了這些圖像,還提供了一個JSON文件,其中包含與單個圖像中每個棋子的邊界框相關的所有信息。
  • 新媒體運營:學會用大數據去分析用戶的特徵
    大數據技術的發展,為我們分析用戶群體帶來了極大的價值:1.用來分析用戶行為特徵,篩選高價值的優質客戶;2.總結用戶需求,進而為調整營銷計劃提供依據;3.可以根據用戶數據來檢測我們品牌的口碑情況,加強新媒體的運營管理;4.分析市場動向,幫助我們把握住市場新變化。
  • 數據中臺與大數據的關聯度
    近年,數據中臺在網際網路領域走紅,越來越多的人開始探索數據中臺相關的應用。儘管數據中臺人氣火爆,但是仍有很多人分不清「中臺」與平臺、前臺-後臺、大數據等概念之間的關係。中臺的產生是由於無法科學合理地設計後臺,因此許多業務並和數據之間的銜接關係處理的並不恰當,為了改變這一現狀中臺問世了。因此,所謂的中臺戰略,必須說清楚中臺是如何從後臺分離出來以及分離之後的中臺與後臺的聯繫和關係。此外,上述眾多中臺的定義與大數據關聯不夠。
  • 陳國青 大數據:顛覆的力量
    什麼是大數據?什麼是大數據思維?算法經濟時代什麼時候到來?大數據殺熟合適嗎?大數據時代是否應該擁有被遺忘權?大數據將如何撞擊未來?6月10日晚7點,著名管理學家、清華大學經濟管理學院EMC講席教授陳國青在人文清華講壇發表主題演講《大數據:顛覆的力量》,為大家深度解讀大數據時代和大數據思維,以及大數據帶來的衝擊、挑戰和機遇。近兩千名觀眾到場聆聽演講,同時眾多網友在場外觀看了在線直播。
  • 從數據到大數據,數據技術&工具的演變
    編輯導語:大數據近些年來是一個十分火熱的話題,關於大數據的文章也是數不勝數。本文作者通過梳理自己看過的大數據相關的資料和書籍,為我們介紹了從「小數據」演化為「大數據」的過程是怎樣的?並且分享了一些數據技術以及工具。
  • 電力百科|什麼是電力大數據?電力大數據從哪兒來?
    隨著智能電網和信息化建設,電力行業積累了海量數據,這些數據在數據量、多樣性、速度和價值方面具有大數據的特徵。電力行業已進入大數據時代。電力大數據是通過傳感器、智能設備、視頻監控設備、音頻通信設備、移動終端等各種數據採集渠道,收集到的海量結構化、半結構化、非結構化的業務數據集合。
  • 乾貨 面向大數據的時空數據挖掘
    第 1 部分早期的數據挖掘研究主要針對字符、數值型的商業數據,隨著信息技術的不斷提高以及行動裝置和網絡的廣泛使用,數據產生的速度越來越快,數據收集的頻率越來越高,數據密度的增長越來越顯著,這些因素都使得大數據問題成為一種必然的趨勢。而在大數據時代下很多商業數據都包含有時間和空間信息,比如設備,建築,機構等的管理,能量的產生,分布及預測等。