史愛武:淺談大數據之特徵和關鍵技術

2020-10-04 計算機大學生

來源微信公眾號:計算機大學生


回顧幾年前,最火的一部美劇當數《紙牌屋》。這部被中國網友戲稱為「白宮甄嬛傳」的美國政治懸疑劇,其製作方既不是電視臺,也不是好萊塢的電影公司,而是一家類似於中國土豆和優酷的在線視頻播放平臺網飛Netflix。該劇從2013年首播,到2018年完結,一共6季,被評為Netflix十大神劇之首,豆瓣評分高達9.2。

《紙牌屋》第一季取得了巨大的成功,獲得了包括金球獎、艾美獎、導演工會獎、編劇工會獎、製片人工會獎等多項提名,名利雙收。為什麼呢?

因為,這部劇每一步都由Netflix平臺所擁有的大數據引導。由數千萬觀眾的客觀喜好大數據中分析出:拍什麼、誰來拍、誰來演、怎樣播、何時播等等一切有用信息,並基於這些信息一步步製作出這部熱播神劇。

Netflix的資料庫包含超過3000萬用戶的收視選擇、400萬條評論、300萬次主題搜索。用戶訪問Netflix,每一次點擊、播放、暫停甚至看了幾分鐘就關閉視頻,都會被作為數據存儲起來。通過對這些觀影數據和操作習慣的收集和分析,Netflix能最大程度的了解觀眾的嗜好:最喜歡哪個演員,最鍾愛哪種類型劇種,最佳的吐槽點在哪,最期待什麼結局……

基於這些大數據,Netflix預測出導演大衛.芬奇(David Fincher)、老戲骨凱文.史派西(Kevin Spacey)和「BBC同名劇」三種元素結合在一起,就可能大賣。

另外,Netflix通過數據分析還發現兩個流行趨勢:1)75%的訂閱者都會接受Netflix的觀影推薦。這就意味著,Netflix不用一集一集地攢《紙牌屋》這一新劇的口碑,只需向標籤為「喜愛凱文·史派西」或「喜愛政治劇」的觀眾推薦就行。2)越來越多的人不再像30年前那樣,在固定晚上的固定時刻守在電視機前,一集集的追最新劇集,而是等整季劇情播放完畢,往往選擇一個周末或者假期在方便的設備(多數是網絡設備,如電腦、iPad)上一次性觀看。

親們,你懂的!新版《紙牌屋》邀請了大衛.芬奇作為製作人和凱文.史派西作為男主角,這種黃金組合併不是憑空想像的,而是基於影迷數據分析得出的結論。

一部《紙牌屋》的成功,讓全世界的文化產業界都意識到了大數據的魔力,也讓其他的產業也紛紛瞄準大數據這座隱形的金礦。

2020年突如其來的新冠肺炎大爆發,各地的健康二維碼掃碼生活也讓普通大眾親身體驗了大數據的力量和價值。在這個舉國面臨的艱難時期,大數據充當了我們健康生活的保護神,也方便了我們日常的健康出行。

大膽設想一下,如果這次疫情爆發在大數據技術還不成熟的幾年前,湖北武漢乃至全國人民在疫情期間的日子可能真是不堪想像,結果也是難以預料!

圖:《紙牌屋》 劇照

大數據的定義和4V特徵

當前,大數據這個概念被炒得空前火熱,而其定義也多而雜。各個國家、組織、行業、標準制定機構都從自己的角度來定義大數據,不過意思基本都差不多、大同小異。按照維基百科的解釋,大數據是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的數據集合。說白了,就一句話,大數據由巨型數據集組成,這些數據集大小常超出常用軟體在可接受時間下的收集、使用、管理和處理能力。

世界領先的全球管理諮詢公司麥肯錫是最早將大數據用於IT行業的,它在研究報告中指出:「如果說雲計算為數據資產提供了保管、訪問的場所和渠道,那麼如何盤活數據資產,使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。」

雖然大數據的定義沒有統一,但是,IDC定義的大數據四個特徵卻受到業界的廣泛接受,也就是4V特徵,數據量大(Volume)、數據種類多(Variety)、數據價值密度低(Value) 和數據的產生和處理速度快(Velocity)。

第一, 數據量巨大(Volume)

雲計算、物聯網、移動網際網路、車聯網、手機、平板電腦、PC以及各種各樣的傳感器,無一不是數據來源或者承載的方式。當今的數字時代,人們的日常生活(微信、QQ、瀏覽網頁、購物、微博、搜索等等)都在產生著數量龐大的數據。

大數據不再以GB或TB為單位來衡量,而是以PB(1000個T)、EB(一百萬個T)或ZB(10億個T)為計量單位,從TB級別躍升到PB、EB乃至ZB級別。顧名思義,這就是大數據的首要特點。

第二, 數據種類繁多(Variety)

大數據不僅體現在量的急劇增長,數據類型更為複雜。

數據可分為結構化數據、半結構化數據和非結構化數據。結構化數據可以在多年來一直主導著IT應用的關係資料庫中找到;半結構化數據包括電子郵件、文字處理文件以及大量發布在網絡上的新聞等,以內容為基礎,這也是谷歌和百度存在的理由;而非結構化數據伴隨著社交網絡、移動計算和傳感器等新技術不斷產生,廣泛存在於社交網絡、物聯網、電子商務之中。

有報告稱,全世界結構化數據增長率大概是32%,而非結構化數據增長則是63%。當今網絡日誌、音頻、視頻、圖片、地理位置信息等類型的非結構化數據量佔比達到80%了左右,並在逐步提升。用於產生人類智慧的大數據,往往就是這些非結構化數據。因此,分析挖掘出有用信息的難度不斷增大。

第三, 數據價值密度低(Value)

大數據重點不在其數據量的增長,而是在信息爆炸時代對數據價值的再挖掘。在數據量極速增長的情況下,如何挖掘數據利用有效信息,才是至關重要。

價值密度的高低與數據總量的大小成反比。價值密度低雖然是大數據的一個逐漸凸顯的特性,但是大數據的價值依然是不可估量的。

以公安監控視頻為例,1部8小時的監控視頻,在連續不間斷監控過程中,可能有用的數據僅僅只有3~5秒,然而,可能正是這幾秒鐘的畫面往往能夠幫助警察抓住一個在逃的危險疑犯。

即使大數據的價值密度很低,對其進行研究、分析挖掘是具有深刻意義的。畢竟,價值是推動一切技術(包括大數據技術)研究和發展的內生決定性動力。

第四, 數據生成和處理速度快(Velocity)

美國網際網路數據中心指出, 企業數據正在以55%的速度逐年增長,網際網路上的數據每年將增長50%,每2年便將翻一番。IBM的研究表明,整個人類文明所獲得的全部數據中,90%是過去2年內產生的。

要求數據處理速度快也是大數據和傳統的數據挖掘技術存在的本質不同,也是大數據區別於傳統數據挖掘最顯著的特徵。當各種信息匯集在一起時,如何把握數據的時效性,是大數據時代對數據管理提出的基本要求。

也有學者提出了與之相關的一秒定律,意思就是在這一秒有用的數據,下一秒可能就失效。

數據的價值除了與數據規模相關,還與數據處理周期成正比關係。也就是,數據處理的速度越快、越及時,其價值越大,發揮的效能越大。


大數據的關鍵技術

大數據時代的超大數據體量和佔相當比例的半結構化和非結構化數據的存在,已經超越了傳統資料庫的管理能力,大數據技術將是IT領域新一代的技術與架構,就是從各種類型的數據中快速獲得有價值信息的技術。

大數據本質也是數據,其關鍵技術依然不外乎:

1)大數據採集及預處理;

2)大數據存儲及管理;

3)大數據分析及挖掘;

4)大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。

一、大數據採集技術及預處理

大數據技術的意義確實不在於掌握規模龐大的數據信息,而在於對這些數據進行智能處理,從中分析和挖掘出有價值的信息,但前提是擁有大量的數據。

採集是大數據價值挖掘最重要的一環,決定著其後的數據集成、數據管理和分析等處理流程。移動互聯的發展催生了更為多樣化的數據,通過RFID電子標籤、傳感器、社交網絡及移動網際網路等方式獲得的各種類型的結構化、半結構化及非結構化的海量數據,是大數據知識服務模型的根本。

大數據採集一般通過數據傳感器、網絡通信、傳感適配系統、智能識別系統及軟硬體資源接入系統,實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。

為了快速分析處理的目的,大數據預處理技術要完成對接收到的數據進行辨析、抽取、清洗等操作。獲取的數據可能具有多種結構和類型,數據抽取過程可以幫助將這些複雜的數據轉化為單一的或者便於處理的數據類型。

對於大數據,並不全是有價值的,有些數據並不是我們所關心的內容,而另一些數據則是完全錯誤的幹擾信息。因此,也要對數據進行過濾「去噪」等預處理,從而保留有效數據。

哪些數據未來將成為資產,即便是大數據服務企業也很難給出確定的答案。但有一點可以肯定的,誰掌握了足夠的數據,誰就有可能掌握未來,現在的數據採集就是將來的流動資產積累。

二、大數據存儲及管理技術

數據有多種分類方法,有結構化,半結構化,非結構化;也有元數據,主數據,業務數據;還可以分為GIS,視頻,文本,語音,業務交易類各種數據。傳統的關係型資料庫已經無法滿足數據多樣性的存儲要求。

因此,在關係型資料庫RDBMS基礎上增加了兩種類型,一種是以HDFS為代表的可以直接應用於非結構化文件存儲的分布式文件系統,一種是NoSQL類資料庫,可以存儲結構化和半結構化數據。大數據存儲與管理就是要用這些存儲技術把採集到的數據存儲起來,並進行管理和調用。

在一般的大數據平臺存儲層,關係型資料庫、NoSQL資料庫和HDFS類分布式文件系統三種存儲方式都需要。業務應用根據實際的情況選擇不同的存儲模式。

為了提高業務的存儲和讀取方便性,存儲層可以封裝成為一個統一的共享存儲服務層。通過共享存儲服務層可以實現業務應用和存儲基礎設施的徹底解耦,用戶並不需要關心底層存儲細節,只關心數據的存儲和讀取。

三、大數據分析及挖掘技術

大數據分析和挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

大數據分析和挖掘涉及的技術方法很多,有多種分類法。根據挖掘任務可分為分類或預測模型發現、關聯規則發現、依賴關係或依賴模型發現、異常和趨勢發現等;根據挖掘方法可分為機器學習方法、統計方法、神經網絡方法等。其中,機器學習方法又可細分為歸納學習方法、遺傳算法等;統計方法可細分為回歸分析、聚類分析、探索性分析等;神經網絡方法可細分為前向神經網絡、自組織神經網絡等。

面對不同的分析或預測需求,所需要的分析挖掘算法和模型是完全不同的。這也就是為什麼,雲計算平臺能夠有通用的產品,但是大數據平臺一般都是定製化項目。原因就在於大數據處理的這個環節,分析挖掘算法和模型是根據分析需求來決定的,上面提到的各種技術方法只是一個處理問題的思路,處理真正的場景問題,都得按需求來調整這些算法和模型。

四、大數據展現與應用技術

就像軟體工程中的人機互動,大數據的展現技術可以說是大數據技術與使用者交互的一個核心環節,精美簡約、友好交互的操作界面更能吸引客戶。大數據的使用對象遠遠不只程式設計師和專業工程師,如何將大數據技術的分析成果展現給普通用戶或者公司決策者,這就要看數據可視化的程度了。

可視化技術是目前解釋大量數據最有效的手段之一。在數據可視化中,數據結果以簡單形象的可視化、圖形化、智能化的形式呈現給用戶供其分析使用,圖形化方式比傳統的文字展示方式更容易理解與接收。

目前,大數據常見的可視化技術有標籤雲、歷史流、空間信息流等。傳統的圖表方式已經很難實現PB級及以上的數據可視化,需引進能夠快速而準確地處理海量數據的科學計算方法。科學計算可以用2D、3D圖形實現數據的可視化,為數據分析及研究提供了更加直觀的表現形式。

淘寶上有超過10億件商品在銷售,客戶在搜索框輸入關鍵字後,如何保證所有符合條件的商品在3秒內能顯示出來,任何一個企業家都希望各種工作報表(特別是財務報表)能夠以最簡單直觀的圖形方式呈現,甚至是虛擬實境的形式獲得更高的沉浸感,這些都是數據可視化技術。

目前,高校和研究機構主要應用開源的R語言進行大數據操作、計算和圖形展示功能,除此之外各大企業也推出相應的大數據展示技術來輔助自己的大數據服務。隨著大數據技術的深入發展,也湧現了一批專注於不同行業的大數據可視化工作的創業公司,比如Ayasdi、ClearStory、Datahero等。


傳統的技術架構和路線已經無法高效處理海量數據。而對於組織機構來說,投入較大成本而採集的信息無法通過及時處理得到有效信息,那將是得不償失的。大數據時代對我們的數據駕馭能力提出了新挑戰,同時,也為我們獲得更全面、睿智的洞察力提供了空間和潛力。

縱觀大數據分析和處理過程的採集、傳輸、挖掘和應用的相關技術就是大數據處理技術,是使用非傳統的工具來對大量的結構化、半結構化和非結構化數據進行處理,從而獲得分析和預測結果的一系列數據處理技術。

對於悲觀者而言,大數據意味著數據存儲的世界末日;對於樂觀者而言,海量的數據就是一個信息金礦,蘊含著巨大的商機。隨著技術發展,其財富價值將越來越容易、越來越快地被關注者發現。

相關焦點

  • 多媒體技術特徵有哪些_多媒體技術的關鍵特性介紹
    多媒體技術基本特徵 多媒體是融合兩種以上媒體的人——機交互式信息交流和傳播媒體,具有以下特點: 1、信息載體的多樣性:相對於計算機而言的,即指信息媒體的多樣性。 2、多媒體的交互性是指用戶可以與計算機的多種信息媒體進行交互操作從而為用戶提供了更加有效地控制和使用信息的手段。
  • 大數據及大數據的4V特徵
    人類歷史上從未有哪個時代和今天一樣產生如此海量的數據。數據的產生已經完全不受時間、地點的限制,數據的總量在不斷地增加,增加的速度也在不斷地加快。而要掌握大數據的概念,首要任務就是從動態上了解大數據的成因。大數據的成因,不僅是人類信息技術的進步,而且是信息技術領域不同時期多個進步交互作用的結果。
  • 淺談數據挖掘的基本概念及其最常用算法
    淺談數據挖掘的基本概念及其最常用算法 淺談數據挖掘的基本概念及其最常用算法 2020-06-04 13:47:34  來源:今日頭條很多人對大數據的基本概念和特點已經有所了解, 關鍵詞: 數據 挖掘   當前,大數據的理論和應用正在國民經濟和生活的各個領域如火如荼的進行。
  • 《金融心理學》11|股市反轉的主要特徵和關鍵技術圖形
    在前幾期的內容中,我們先後講到牛市、熊市以及平衡市的一般規律和心理過程,今天的內容,我們講一講投資市場的反轉市。所有的主要趨勢反轉都不相同。但是,我們可以得到結論,那就是幾乎所有的主要趨勢反轉都會涉及以下6個特徵或者其中部分特徵:1,加速和放量。
  • 深度|《信息安全技術 政務信息共享 數據安全技術要求》標準解讀
    本標準的制定和發布,為政務數據在應用方面的安全保護提供借鑑,也為政務數據治理體系建設和政務大數據安全應用提供指導,對動態流轉場景下的政務數據應用具有普適性和指引性。>數據銷毀安全關鍵為銷毀內容不可逆和過程審計記錄; 數據使用監管包括數據使用行為記錄、行為分析、安全策略匹配、監管反饋等技術要求。
  • Z igbee技術特徵
    在一定程度上,Z igbee的協議主要是由物理層、數據鏈路層、網絡/安全層、應用框架及高層應用規範組成。其中IEEE 802. 15. 4負責物理層與數據鏈路層標準; 據此開始研究Zig-bee聯盟負責網絡層與應用層的研發。 Z igbee協議棧如圖 1所示。Z igbee技術的主要特徵如下:一是功耗低。
  • ISC2020安全分析技術分論壇集結技術大咖 雲端共話技術賦能安全之路
    360網絡安全研究院安全分析資深專家徐洋當前大數據、雲計算等技術發展進程不斷加快,數據量成指數級增長,新技術創新發展伴隨的安全威脅與傳統安全問題相互交織,各種網絡攻擊事件層出不窮,通過大數據分析解讀網絡安全事件成為了輔助網絡安全建設的一種有效手段
  • 飛機結構數字孿生關鍵建模仿真技術
    因此可使用傳感器測量與仿真結合的方法,在關鍵部位附近區域的若干特徵點加裝應變記錄設備,記錄飛機實際飛行過程中特徵點的應變歷程,特徵點處的應力可以直接與關鍵部位應力聯繫起來,結合有限元分析等仿真手段,可建立特徵點應變與關鍵部位應力的關係,可以間接獲取關鍵部位的載荷數據。國外已在多種機型如F/A-18上使用該方法,取得了成功。
  • 大數據時代,數據挖掘技術的應用!
    信息技術的快速發展,網際網路的信息量逐漸增多,大數據時代到來,大數據時代之下,對於數據的運用成為了主流,數據挖掘成為各行業在大數據時代尤為重要的發展重心。當今時代之下,各類數字信息技術的快速發展,信息化已經成為了社會主要的發展趨勢,也成為了國民經濟增長的重要方式。
  • 星環科技孫元浩:大數據技術將是企業未來的核心競爭力
    本文由星環科技創始人&CEO孫元浩撰寫並投遞參與「數據猿年度金猿策劃活動——2020大數據產業趨勢人物榜單及獎項」評選。2020年是繼往開來、裡程碑式的一年,在這個十三五收官和十四五開啟之年,我們國家經受住了新冠疫情的考驗。其中,少不了大數據對城市疫情防控工作做出的有力支撐和保障。
  • 淺談ICA算法的概念、本質和流程
    淺談ICA算法的概念、本質和流程 工程師譚軍 發表於 2018-06-25 14:57:00 ICA獨立成分分析是近年來出現的一種強有力的數據分析工具(Hyvarinen A, Karhunen J, Oja
  • 大數據協同安全技術國家工程實驗室打造「超級智囊團」
    此次由32位大數據安全相關領域頂級專家組成的技術委員會和顧問委員會,主要負責對實驗室的發展規劃、研究方向、研究內容和技術路線提供指導、諮詢與評價,提出改進意見和建議,並參與實驗室的開放課題評審、年度業務總結等工作,將為實驗室的建設和發展注入強大動力,有效提升實驗室的科學化管理水平,推動大數據安全的技術進步和產業發展。
  • 將新技術、大數據與現代財稅更好地融合
    中國科學院院士鄭志明,國信優易數據研究院院長車品覺,通過視頻方式參會。       論壇以「新技術、大數據與現代財稅」為主題,與會學者圍繞如何將新技術、大數據與現代財稅更好地融合,將之服務於金融,如何更有效地運用財政大數據,如何將人工智慧服務於金融普惠等問題展開深入研討。
  • 大數據技術與應用就業前景怎麼樣?就業方向有哪些?
    根據數據統計,目前全國共有200多所職業院校開設大數據技術與應用專業,該專業是將大數據分析挖掘與處理、移動開發與架構、軟體開發、雲計算等前沿技術相結合的「網際網路+」前沿科技專業。專業旨在培養學生系統掌握數據管理及數據挖掘方法,成為具備大數據分析處理、數據倉庫管理、大數據平臺綜合部署、大數據平臺應用軟體開發和數據產品的可視化展現與分析能力的高級專業大數據技術人才。在大數據領域,相關專業的畢業生有著非常廣泛的從業選擇,就業前景十分廣闊。
  • 大數據之HBASE資料庫
    近日,大數據、雲計算、人工智慧作為新基建發展核心內容的一部分,重新回到人們視野中心。在大數據技術領域,海量數據和超高並發讓傳統的 Web2.0 網站有點力不從心,暴露了很多難以克服的問題。4、高可靠性:WAL機制保證了數據寫入時不會因集群異常而導致寫入數據丟失,Replication機制保證了在集群出現嚴重的問題時,數據不會發生丟失或損壞。5、高性能:底層的LSM數據結構和 Rowkey 有序排列等架構上的獨特設計,使得Hbase具有非常高的寫入性能。
  • 人工智慧已經成為企業轉型的關鍵技術力量
    打開APP 人工智慧已經成為企業轉型的關鍵技術力量 智能製造網 發表於 2020-11-16 11:15:28 「十四五」規劃綱要指出,要「推動網際網路、大數據、人工智慧等同各產業深度融合,推動先進位造業集群發展」,「系統布局新型基礎設施,加快第五代移動通信、工業網際網路、大數據中心等建設」。
  • 實現網絡安全的4個主要關鍵技術
    入侵檢測技術入侵檢測技術是發現和預防入侵的安全機制,主要針對主機入侵檢測、網絡入侵檢測和分布式入侵檢測。主機入侵檢測發現入侵風險是利用主機審計數據和跟蹤日誌,檢測主機系統是否受到入侵,但是這種方法不能檢測網絡攻擊。
  • 百融雲創:大數據技術助推銀行數位化轉型
    當下,正進行著新一輪的產業革命和科技變革,現代科技成果如人工智慧、大數據、雲計算、物聯網等技術正在蓬勃發展,它們與金融業務深度融合,改造或創新著金融產品、經營模式、業務流程等,使得金融領域一直保持著新鮮的血液和創新的活力。更重要的是,這些技術能夠促進金融機構走向數位化,緊跟時代潮流。  金融受行業特性影響,在大數據應用領域有著得天獨厚的優勢。
  • 淺談語音情感識別技術在互金質檢領域的應用
    隨著以上三種數據(文本、圖像、語音)的數位化,又使得存儲於三種數據形式的情感可以通過相關的數據挖掘技術進行自動檢測識別。對於基於文本和圖像的情感檢測,拍拍貸都已經做過相關研究和應用。本文主要對基於語音的情感識別技術和應用進行簡要的介紹。
  • 網際網路時代之下,大數據專業技術人才培養!
    大數據技術迅速發展,快速融入到社會的各行業之中,給人們的生產生活帶來了極大的便利。然而在大學的大數據專業以及職業培訓方面,大數據也才剛剛起步。大數據專業的人才數量與大數據快速發展之中存在不匹配的問題,從而使得社會對於大數據方面的人才需求不斷增加。