人類歷史上從未有哪個時代和今天一樣產生如此海量的數據。數據的產生已經完全不受時間、地點的限制,數據的總量在不斷地增加,增加的速度也在不斷地加快。而要掌握大數據的概念,首要任務就是從動態上了解大數據的成因。大數據的成因,不僅是人類信息技術的進步,而且是信息技術領域不同時期多個進步交互作用的結果。從開始採用資料庫作為數據管理的主要方式開始,人類社會的數據產生方式大致經歷了被動、主動和自動三個階段,而正是數據產生方式的巨大變化才最終導致大數據的產生。大數據產生的原因主要來自四大方面,一是數據存儲成本的降低與存儲硬體體積的減小;二是企業思維模式的轉變;三是生活的數位化驅動;四是社交網絡的飛速發展。
1)大數據的定義
大數據本身是一個比較抽象的概念,單從字面來看,它表示數據規模的龐大。但是僅僅數量上的龐大顯然無法看出大數據這一概念和以往的「海量數據」(Massive Data)、「超大規模數據」(Very Large Data)等概念之間有何區別。針對大數據,目前存在多種不同的理解和定義。
麥肯錫在其報告《Big data: The next frontier for innovation, competition and productivity》中給出的大數據定義是:大數據指的是大小超出常規的資料庫工具獲取、存儲、管理和分析能力的數據集。但它同時強調,並不是說一定要超過特定TB值的數據集才能算是大數據。
維基百科對「大數據」的解讀是:「大數據」(Big Data),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、並整理成為人類所能解讀的信息。
百度百科對「大數據」的定義為:「大數據」(Big Data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策的資訊。
研究機構Gartner認為,「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。它定義了哪些超出正常處理範圍和大小、迫使用戶採用非傳統處理方法的數據集。
按照美國國家標準與技術研究院(National Institute of Standards and Technology,NIST)發布的研究報告的定義,大數據是用來描述在我們網絡的、數字的、遍布傳感器的、信息驅動的、世界中呈現出的數據泛濫的常用詞語。大量數據資源為解決以前不可能解決的問題帶來了可能性。
大數據是一個寬泛的概念,每個人的見解都不一樣。在綜合各家觀點的基礎上,給出了本書的定義:「大數據」是在體量和類別特別大的雜亂數據集中,深度挖掘分析取得有價值信息的能力。大數據不僅僅在於數量的大,「大」只不過是信息技術不斷發展所產生的海量數據的表象而已。我們更加關注「數據」的深度分析和應用,對於數據有價值的深度挖掘分析和在新形勢下的數據應用是我們需要探討的重點。
大數據代表著數據從量到質的變化過程,代表著數據作為一種資源在經濟與社會實踐中扮演越來越重要的角色,相關的技術、產業、應用、政策等環境會與之互相影響、互為促進。從技術角度來看,這種數據規模質變後帶來新的問題,即數據從靜態變為動態,從簡單的多維度變成巨量維度,而且其種類日益豐富,超出當前分析方法與技術能夠處理的範疇。這些數據的採集、分析、處理、存儲和展現都涉及複雜的多模態高維計算過程,涉及異構媒體的統一語義描述、數據模型、大容量存儲的建設,涉及多維度數據的特徵關聯與模擬展現。然而,大數據發展的最終目標還是挖掘其應用價值,沒有價值或者沒有發現其價值的大數據從某種意義上講是一種冗餘和負擔。
2)大數據的特徵
大數據的特徵,由維克託邁爾-舍恩伯格和肯尼斯克耶編寫的《大數據時代》中提出,大數據的4V特徵:規模性(Volume)、高速性(Velocity)、多樣性(Variety)、價值性(Value)。
(1)規模性
隨著信息化技術的高速發展,數據開始爆發性增長。大數據中的數據不再以幾個GB或幾個TB為單位來衡量,而是以PB(1千個T)、EB(1百萬個T)或ZB(10億個T)為計量單位。
(2)多樣性
多樣性主要體現在數據來源多、數據類型多和數據之間關聯性強這三個方面。
①數據來源多,企業所面對的傳統數據主要是交易數據,而網際網路和物聯網的發展,帶來了諸如社交網站、傳感器等多種來源的數據。
而由於數據來源於不同的應用系統和不同的設備,決定了大數據形式的多樣性。大體可以分為三類:一是結構化數據,如財務系統數據、信息管理系統數據、醫療系統數據等,其特點是數據間因果關係強;二是非結構化的數據,如視頻、圖片、音頻等,其特點是數據間沒有因果關係;三是半結構化數據,如HTML文檔、郵件、網頁等,其特點是數據間的因果關係弱。
②數據類型多,並且以非結構化數據為主。傳統的企業中,數據都是以表格的形式保存。而大數據中有70%-85%的數據是如圖片、音頻、視頻、網絡日誌、連結信息等非結構化和半結構化的數據。
③數據之間關聯性強,頻繁交互,如遊客在旅遊途中上傳的照片和日誌,就與遊客的位置、行程等信息有很強的關聯性。
(3)高速性
這是大數據區分於傳統數據挖掘最顯著的特徵。大數據與海量數據的重要區別在兩方面:一方面,大數據的數據規模更大;另一方面,大數據對處理數據的響應速度有更嚴格的要求。實時分析而非批量分析,數據輸入、處理與丟棄立刻見效,幾乎無延遲。數據的增長速度和處理速度是大數據高速性的重要體現。
(4)價值性
儘管企業擁有大量數據,但是發揮價值的僅是其中非常小的部分。大數據背後潛藏的價值巨大。由於大數據中有價值的數據所佔比例很小,而大數據真正的價值體現在從大量不相關的各種類型的數據中。挖掘出對未來趨勢與模式預測分析有價值的數據,並通過機器學習方法、人工智慧方法或數據挖掘方法深度分析,並運用於農業、金融、醫療等各個領域,以期創造更大的價值。
(數字經濟與電子商務知識系列由樊重俊教授團隊編寫,每篇並無嚴格的前後關係。轉發本文請標明出處)