隨著網際網路的飛速發展, 特別是近年來社交網絡、物聯網和雲計算的飛速發展和大量應用, 人們所接觸和關注的數據量出現爆炸式增長, 使得數據的極大豐富和複雜成為當今社會的重要特徵。對大數據分析和處理的技術也隨之建立完善並豐富起來。主要介紹大數據的概念和特點,分析了實現大數據處理的關鍵技術和大數據的應用領域,列舉了幾種大數據在現實生活中的典型應用。
首先, 全球數據量出現爆炸式增長, 數據成了當今社會增長最快的資源之一。根據國際數據公司IDC 的監測統計,即使在遭遇金融危機的2009 年,全球信息量也比2008年增長了62%,達到80 萬PB(1PB等於10GB),到2011年全球數據總量已經達到1.8ZB (1ZB 等於1 萬億GB),並且以每兩年翻一番的速度飛速增長,預計到2020 年全球數據量總量將達到40ZB,10 年間增長20 倍以上,到2020 年,地球上人均數據預計將達5247GB。在數據規模急劇增長的同時, 數據類型也越來越複雜, 包括結構化數據、半結構化數據、非結構化數據等多種類,其中採用傳統數據處理手段難以處理的非結構化數據已接近數據總量的75%。
如此增長迅速、龐大繁雜的數據資源, 給傳統的數據分析、處理技術帶來了巨大的挑戰。為了應對這樣的新任務, 與大數據相關的大數據技術、大數據工程、大數據科學和大數據應用等迅速成為信息科學領域的熱點問題, 得到了一些國家政府部門、經濟領域以及科學領域有關專家的廣泛關注。雖然大數據日益升溫,但與大多數信息學領域的問題一樣, 大數據的基本概念及特點, 大數據要解決核心問題,目前尚無統一的認識,大數據的獲取、存儲、處理、分析等諸多方面仍存在一定的爭議, 大數據概念有過度炒作的嫌疑。歐洲的一些企業甚至認為大數據就是海量數據存儲,僅將大數據視作是可以獲取更多信息的平臺。本文分析當前流行的幾種大數據的概念, 討論其異同,從大數據據有的典型特徵角度描述大數據的概念和特點,從整體上分析大數據要解決的相關性分析、實時處理等核心問題, 在此基礎上, 最後討論大數據可能要面臨的多種挑戰。
大數據的概念和特點
大數據是個較為抽象的概念,正如信息學領域但是面對以視頻、圖片、文字等非結構化數據為主大多數新興概念樣,大數據至今尚無確切、統的定義。來自維基百科的定義為:大數據指數量巨大、類型複雜的數據集合,現有的資料庫管理工具或傳統的數據處理應用難以對其進行處理。這些挑戰包括如捕獲、手機、存儲、搜索、共享、傳遞、分析與可視化等。IDC 在對大數據作出的定義為:大數據一般會涉及2 種或2 種以上數據形式。它要收集超過100TB的數據,並且是高速、實時數據流;或者是從小數據開始,但數據每年會增長60%以上。這個定義給出了量化標準, 但只強調數據量大,種類多,增長快等數據本身的特徵。研究機構Gartner 給出了這樣的定義:大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。