來源微信公眾號:計算機大學生
回顧幾年前,最火的一部美劇當數《紙牌屋》。這部被中國網友戲稱為「白宮甄嬛傳」的美國政治懸疑劇,其製作方既不是電視臺,也不是好萊塢的電影公司,而是一家類似於中國土豆和優酷的在線視頻播放平臺網飛Netflix。該劇從2013年首播,到2018年完結,一共6季,被評為Netflix十大神劇之首,豆瓣評分高達9.2。
《紙牌屋》第一季取得了巨大的成功,獲得了包括金球獎、艾美獎、導演工會獎、編劇工會獎、製片人工會獎等多項提名,名利雙收。為什麼呢?
因為,這部劇每一步都由Netflix平臺所擁有的大數據引導。由數千萬觀眾的客觀喜好大數據中分析出:拍什麼、誰來拍、誰來演、怎樣播、何時播等等一切有用信息,並基於這些信息一步步製作出這部熱播神劇。
Netflix的資料庫包含超過3000萬用戶的收視選擇、400萬條評論、300萬次主題搜索。用戶訪問Netflix,每一次點擊、播放、暫停甚至看了幾分鐘就關閉視頻,都會被作為數據存儲起來。通過對這些觀影數據和操作習慣的收集和分析,Netflix能最大程度的了解觀眾的嗜好:最喜歡哪個演員,最鍾愛哪種類型劇種,最佳的吐槽點在哪,最期待什麼結局……
基於這些大數據,Netflix預測出導演大衛.芬奇(David Fincher)、老戲骨凱文.史派西(Kevin Spacey)和「BBC同名劇」三種元素結合在一起,就可能大賣。
另外,Netflix通過數據分析還發現兩個流行趨勢:1)75%的訂閱者都會接受Netflix的觀影推薦。這就意味著,Netflix不用一集一集地攢《紙牌屋》這一新劇的口碑,只需向標籤為「喜愛凱文·史派西」或「喜愛政治劇」的觀眾推薦就行。2)越來越多的人不再像30年前那樣,在固定晚上的固定時刻守在電視機前,一集集的追最新劇集,而是等整季劇情播放完畢,往往選擇一個周末或者假期在方便的設備(多數是網絡設備,如電腦、iPad)上一次性觀看。
親們,你懂的!新版《紙牌屋》邀請了大衛.芬奇作為製作人和凱文.史派西作為男主角,這種黃金組合併不是憑空想像的,而是基於影迷數據分析得出的結論。
一部《紙牌屋》的成功,讓全世界的文化產業界都意識到了大數據的魔力,也讓其他的產業也紛紛瞄準大數據這座隱形的金礦。
2020年突如其來的新冠肺炎大爆發,各地的健康二維碼掃碼生活也讓普通大眾親身體驗了大數據的力量和價值。在這個舉國面臨的艱難時期,大數據充當了我們健康生活的保護神,也方便了我們日常的健康出行。
大膽設想一下,如果這次疫情爆發在大數據技術還不成熟的幾年前,湖北武漢乃至全國人民在疫情期間的日子可能真是不堪想像,結果也是難以預料!
圖:《紙牌屋》 劇照
大數據的定義和4V特徵
當前,大數據這個概念被炒得空前火熱,而其定義也多而雜。各個國家、組織、行業、標準制定機構都從自己的角度來定義大數據,不過意思基本都差不多、大同小異。按照維基百科的解釋,大數據是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的數據集合。說白了,就一句話,大數據由巨型數據集組成,這些數據集大小常超出常用軟體在可接受時間下的收集、使用、管理和處理能力。
世界領先的全球管理諮詢公司麥肯錫是最早將大數據用於IT行業的,它在研究報告中指出:「如果說雲計算為數據資產提供了保管、訪問的場所和渠道,那麼如何盤活數據資產,使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。」
雖然大數據的定義沒有統一,但是,IDC定義的大數據四個特徵卻受到業界的廣泛接受,也就是4V特徵,數據量大(Volume)、數據種類多(Variety)、數據價值密度低(Value) 和數據的產生和處理速度快(Velocity)。
第一, 數據量巨大(Volume)
雲計算、物聯網、移動網際網路、車聯網、手機、平板電腦、PC以及各種各樣的傳感器,無一不是數據來源或者承載的方式。當今的數字時代,人們的日常生活(微信、QQ、瀏覽網頁、購物、微博、搜索等等)都在產生著數量龐大的數據。
大數據不再以GB或TB為單位來衡量,而是以PB(1000個T)、EB(一百萬個T)或ZB(10億個T)為計量單位,從TB級別躍升到PB、EB乃至ZB級別。顧名思義,這就是大數據的首要特點。
第二, 數據種類繁多(Variety)
大數據不僅體現在量的急劇增長,數據類型更為複雜。
數據可分為結構化數據、半結構化數據和非結構化數據。結構化數據可以在多年來一直主導著IT應用的關係資料庫中找到;半結構化數據包括電子郵件、文字處理文件以及大量發布在網絡上的新聞等,以內容為基礎,這也是谷歌和百度存在的理由;而非結構化數據伴隨著社交網絡、移動計算和傳感器等新技術不斷產生,廣泛存在於社交網絡、物聯網、電子商務之中。
有報告稱,全世界結構化數據增長率大概是32%,而非結構化數據增長則是63%。當今網絡日誌、音頻、視頻、圖片、地理位置信息等類型的非結構化數據量佔比達到80%了左右,並在逐步提升。用於產生人類智慧的大數據,往往就是這些非結構化數據。因此,分析挖掘出有用信息的難度不斷增大。
第三, 數據價值密度低(Value)
大數據重點不在其數據量的增長,而是在信息爆炸時代對數據價值的再挖掘。在數據量極速增長的情況下,如何挖掘數據利用有效信息,才是至關重要。
價值密度的高低與數據總量的大小成反比。價值密度低雖然是大數據的一個逐漸凸顯的特性,但是大數據的價值依然是不可估量的。
以公安監控視頻為例,1部8小時的監控視頻,在連續不間斷監控過程中,可能有用的數據僅僅只有3~5秒,然而,可能正是這幾秒鐘的畫面往往能夠幫助警察抓住一個在逃的危險疑犯。
即使大數據的價值密度很低,對其進行研究、分析挖掘是具有深刻意義的。畢竟,價值是推動一切技術(包括大數據技術)研究和發展的內生決定性動力。
第四, 數據生成和處理速度快(Velocity)
美國網際網路數據中心指出, 企業數據正在以55%的速度逐年增長,網際網路上的數據每年將增長50%,每2年便將翻一番。IBM的研究表明,整個人類文明所獲得的全部數據中,90%是過去2年內產生的。
要求數據處理速度快也是大數據和傳統的數據挖掘技術存在的本質不同,也是大數據區別於傳統數據挖掘最顯著的特徵。當各種信息匯集在一起時,如何把握數據的時效性,是大數據時代對數據管理提出的基本要求。
也有學者提出了與之相關的一秒定律,意思就是在這一秒有用的數據,下一秒可能就失效。
數據的價值除了與數據規模相關,還與數據處理周期成正比關係。也就是,數據處理的速度越快、越及時,其價值越大,發揮的效能越大。
大數據的關鍵技術
大數據時代的超大數據體量和佔相當比例的半結構化和非結構化數據的存在,已經超越了傳統資料庫的管理能力,大數據技術將是IT領域新一代的技術與架構,就是從各種類型的數據中快速獲得有價值信息的技術。
大數據本質也是數據,其關鍵技術依然不外乎:
1)大數據採集及預處理;
2)大數據存儲及管理;
3)大數據分析及挖掘;
4)大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。
一、大數據採集技術及預處理
大數據技術的意義確實不在於掌握規模龐大的數據信息,而在於對這些數據進行智能處理,從中分析和挖掘出有價值的信息,但前提是擁有大量的數據。
採集是大數據價值挖掘最重要的一環,決定著其後的數據集成、數據管理和分析等處理流程。移動互聯的發展催生了更為多樣化的數據,通過RFID電子標籤、傳感器、社交網絡及移動網際網路等方式獲得的各種類型的結構化、半結構化及非結構化的海量數據,是大數據知識服務模型的根本。
大數據採集一般通過數據傳感器、網絡通信、傳感適配系統、智能識別系統及軟硬體資源接入系統,實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。
為了快速分析處理的目的,大數據預處理技術要完成對接收到的數據進行辨析、抽取、清洗等操作。獲取的數據可能具有多種結構和類型,數據抽取過程可以幫助將這些複雜的數據轉化為單一的或者便於處理的數據類型。
對於大數據,並不全是有價值的,有些數據並不是我們所關心的內容,而另一些數據則是完全錯誤的幹擾信息。因此,也要對數據進行過濾「去噪」等預處理,從而保留有效數據。
哪些數據未來將成為資產,即便是大數據服務企業也很難給出確定的答案。但有一點可以肯定的,誰掌握了足夠的數據,誰就有可能掌握未來,現在的數據採集就是將來的流動資產積累。
二、大數據存儲及管理技術
數據有多種分類方法,有結構化,半結構化,非結構化;也有元數據,主數據,業務數據;還可以分為GIS,視頻,文本,語音,業務交易類各種數據。傳統的關係型資料庫已經無法滿足數據多樣性的存儲要求。
因此,在關係型資料庫RDBMS基礎上增加了兩種類型,一種是以HDFS為代表的可以直接應用於非結構化文件存儲的分布式文件系統,一種是NoSQL類資料庫,可以存儲結構化和半結構化數據。大數據存儲與管理就是要用這些存儲技術把採集到的數據存儲起來,並進行管理和調用。
在一般的大數據平臺存儲層,關係型資料庫、NoSQL資料庫和HDFS類分布式文件系統三種存儲方式都需要。業務應用根據實際的情況選擇不同的存儲模式。
為了提高業務的存儲和讀取方便性,存儲層可以封裝成為一個統一的共享存儲服務層。通過共享存儲服務層可以實現業務應用和存儲基礎設施的徹底解耦,用戶並不需要關心底層存儲細節,只關心數據的存儲和讀取。
三、大數據分析及挖掘技術
大數據分析和挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
大數據分析和挖掘涉及的技術方法很多,有多種分類法。根據挖掘任務可分為分類或預測模型發現、關聯規則發現、依賴關係或依賴模型發現、異常和趨勢發現等;根據挖掘方法可分為機器學習方法、統計方法、神經網絡方法等。其中,機器學習方法又可細分為歸納學習方法、遺傳算法等;統計方法可細分為回歸分析、聚類分析、探索性分析等;神經網絡方法可細分為前向神經網絡、自組織神經網絡等。
面對不同的分析或預測需求,所需要的分析挖掘算法和模型是完全不同的。這也就是為什麼,雲計算平臺能夠有通用的產品,但是大數據平臺一般都是定製化項目。原因就在於大數據處理的這個環節,分析挖掘算法和模型是根據分析需求來決定的,上面提到的各種技術方法只是一個處理問題的思路,處理真正的場景問題,都得按需求來調整這些算法和模型。
四、大數據展現與應用技術
就像軟體工程中的人機互動,大數據的展現技術可以說是大數據技術與使用者交互的一個核心環節,精美簡約、友好交互的操作界面更能吸引客戶。大數據的使用對象遠遠不只程式設計師和專業工程師,如何將大數據技術的分析成果展現給普通用戶或者公司決策者,這就要看數據可視化的程度了。
可視化技術是目前解釋大量數據最有效的手段之一。在數據可視化中,數據結果以簡單形象的可視化、圖形化、智能化的形式呈現給用戶供其分析使用,圖形化方式比傳統的文字展示方式更容易理解與接收。
目前,大數據常見的可視化技術有標籤雲、歷史流、空間信息流等。傳統的圖表方式已經很難實現PB級及以上的數據可視化,需引進能夠快速而準確地處理海量數據的科學計算方法。科學計算可以用2D、3D圖形實現數據的可視化,為數據分析及研究提供了更加直觀的表現形式。
淘寶上有超過10億件商品在銷售,客戶在搜索框輸入關鍵字後,如何保證所有符合條件的商品在3秒內能顯示出來,任何一個企業家都希望各種工作報表(特別是財務報表)能夠以最簡單直觀的圖形方式呈現,甚至是虛擬實境的形式獲得更高的沉浸感,這些都是數據可視化技術。
目前,高校和研究機構主要應用開源的R語言進行大數據操作、計算和圖形展示功能,除此之外各大企業也推出相應的大數據展示技術來輔助自己的大數據服務。隨著大數據技術的深入發展,也湧現了一批專注於不同行業的大數據可視化工作的創業公司,比如Ayasdi、ClearStory、Datahero等。
傳統的技術架構和路線已經無法高效處理海量數據。而對於組織機構來說,投入較大成本而採集的信息無法通過及時處理得到有效信息,那將是得不償失的。大數據時代對我們的數據駕馭能力提出了新挑戰,同時,也為我們獲得更全面、睿智的洞察力提供了空間和潛力。
縱觀大數據分析和處理過程的採集、傳輸、挖掘和應用的相關技術就是大數據處理技術,是使用非傳統的工具來對大量的結構化、半結構化和非結構化數據進行處理,從而獲得分析和預測結果的一系列數據處理技術。
對於悲觀者而言,大數據意味著數據存儲的世界末日;對於樂觀者而言,海量的數據就是一個信息金礦,蘊含著巨大的商機。隨著技術發展,其財富價值將越來越容易、越來越快地被關注者發現。