最早提出詞彙「Big Data」的是2011年麥肯錫全球研究院發布的《大數據:下一個創新、競爭和生產力的前沿》研究報告。之後,經 Gartner技術炒作曲線和2012年維克託·舍恩伯格《大數據時代:生活、工作與思維的大變革》的宣傳推廣,大數據概念開始風靡全球。
基於Web of Science資料庫中1994年後涉及大數據概念的4495篇文獻,採用Citespace知識圖譜工具,通過熱點關鍵詞和高被引文獻分析,能夠勾勒出大數據技術從萌芽到成熟的發展歷程。
上世紀90年代至本世紀初,是大數據發展的萌芽期,處於數據挖掘技術階段。隨著數據挖掘理論和資料庫技術的逐步成熟,一批商業智能工具和知識管理技術開始被應用,如數據倉庫、專家系統、知識管理系統等。此時,對於大數據的研究主要集中於「Algorithms」(算法)、「Model」(模型)、 「Patterns」(模式)、「Identification」(識別)等熱點關鍵詞。
大數據發展的突破期是2003至2006年,處於圍繞非結構化數據自由探索階段。非結構化數據的爆發帶動大數據技術的快速突破,以2004年Facebook創立為標誌,社交網絡的流行直接導致大量非結構化數據的湧現,而傳統處理方法難以應對。此時的熱點關鍵詞較為分散,包括了「Systems」(系統)、「Networks」(網絡)、 「Evolution」(演化)等,高被引文獻也很少,說明學術界、企業界正從多角度對數據處理系統、資料庫架構進行重新思考,且尚未形成共識。
2006 至2009年,大數據技術形成並行運算與分布式系統,為大數據發展的成熟期。Jeff Dean在BigTable基礎上開發了Spanner資料庫(2009)。此階段,大數據研究的熱點關鍵詞再次趨於集中,聚焦「Performance」(性能)、「CloudComputing」(雲計算)、 「MapReduce」(大規模數據集並行運算算法)、「hadoop」(開源分布式系統基礎架構)等。
2010年以來,隨著智慧型手機的應用日益廣泛,數據的碎片化、分布式、流媒體特徵更加明顯,移動數據急劇增長。
近年來大數據不斷地向社會各行各業滲透,使得大數據的技術領域和行業邊界愈來愈模糊和變動不居,應用創新已超越技術本身更受到青睞。大數據技術可以為每一個領域帶來變革性影響,並且正在成為各行各業顛覆性創新的原動力和助推器。
2013 年5月,麥肯錫全球研究所(McKinsey Global Institute)發布了一份名為《顛覆性技術:技術進步改變生活、商業和全球經濟》的研究報告。報告確認的未來12種新興技術,有望在2025年帶來14萬億至33萬億美元的經濟效益。令人驚訝的是,最為熱門的大數據技術卻未被列入其中。麥肯錫專門解釋稱,大數據已成為這些可能改變世界格局的12項技術中許多技術的基石,包括移動網際網路、知識工作自動化、物聯網、雲計算、先進機器人、自動汽車、基因組學等都少不了大數據應用。
2014年5月,美國白宮發布了2014年全球「大數據」白皮書的研究報告《大數據:抓住機遇、守護價值》。報告鼓勵使用數據以推動社會進步,特別是在市場與現有的機構並未以其他方式來支持這種進步的領域;同時,也需要相應的框架、結構與研究,來幫助保護美國人對於保護個人隱私、確保公平或是防止歧視的堅定信仰。2014年4月,世界經濟論壇也以「大數據的回報與風險」的相近主題發布了《全球信息技術報告(第13版)》。報告認為,在未來幾年中針對各種信息通信技術的政策甚至會顯得更加重要。在接下來將對數據保密和網絡管制等議題展開積極討論。全球大數據產業的日趨活躍,技術演進和應用創新的加速發展,使各國政府逐漸認識到大數據在推動經濟發展、改善公共服務,增進人民福祉,乃至保障國家安全方面的重大意義。
