終於有人把大數據講明白了

2021-01-10 齊魯壹點

01 大數據概念

數據發展推動科技進步,海量數據給數據分析帶來了新的機遇和挑戰。大數據是一種強大到在獲取、存儲、管理、分析方面遠遠超出傳統資料庫軟體工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和較低的價值密度四大特徵。

於是,我們需要新的處理模式來實現更強的數據處理能力以應對多樣化的信息資產。

大數據技術追求的不是精確性的樣本數據,而是面向全體的數據,這部分數據可能是不精確的、非結構化的,但大數據技術正是利用這些之前未被利用的數據,創造新的價值。

從海量數據中獲得的數據處理結果可能是超乎我們的認知邏輯的,但是我們並不需要理解結果背後的因果關係。簡言之,我們需要用相關思維替代因果思維。

02 大數據核心技術

大數據在信息系統的生命周期中,從數據源到最終產生有價值的可視化信息,主要經歷6個步驟,分別是數據收集、數據存儲、資源管理與服務協調、計算框架確定、數據分析和數據可視化,此過程涵蓋了海量分布式系統、資料庫、並行計算框架、數據挖掘等方面的技術。

圖2-1羅列了大數據技術中各個步驟目前所對應的主流技術體系,大數據的相關技術日新月異、層出不窮,由於篇幅限制,不再一一列舉。

▲圖2-1 大數據的主流技術體系

03 大數據特點

大數據具有海量的數據規模、快速的數據流轉、多樣的數據類型和較低的價值密度這四大特徵,下面將分別進行詳細闡述。

1. 海量的數據規模(Volume)

大數據所採集、存儲和計算的數據規模都非常大。隨著網際網路的廣泛應用,使用網際網路的人和企業等增多,數據的創造者變多,數據量呈幾何級增長。近年來,隨著數據維度變多、數據類型增加、數據的描述能力增強,數據可以傳達的信息也越來越多,越來越準確。

2. 快速的數據流轉(Velocity)

大數據不僅增長速度快,處理速度也快,有很強的時效性。在資訊時代,人成為網絡的核心,每個人每天都在製造新的數據,這些數據再被相應的機構如政府、網際網路企業、銀行、電信運營商等收集,形成了一個個龐大的數據體系。

面對如此龐大的數據體系,處理數據並得到結果的速度越快,數據的時效性就越強,價值就越高——而大數據和傳統數據挖掘最大的區別也在於此,大數據更強調數據處理的實時性和時效性。

3. 多樣的數據類型(Variety)

大數據的種類和來源多樣化,多樣的數據為數據處理帶來了挑戰。在數據結構上,大數據可以分為結構化數據、半結構化數據和非結構化數據;在具體形式上,大數據可以分為視頻、音頻、圖像、博客、社交網絡、網際網路搜索等。大數據迎接的挑戰就是要針對這些結構不一、形式多樣的數據,挖掘其中的相關性。而這些前所未有的、來自各個領域的、不同形式的數據,賦予了大數據強大的威力。

4. 較低的價值密度(Value)

大數據的價值密度相對較低。數據的價值密度和數據的規模呈反相關,數據的規模越大,數據的價值密度越低。大數據最大的價值即在於從大量低價值密度數據中挖掘出對分析和預測等有價值的信息。

相較於傳統數據挖掘利用結構化的數據類型,大數據把目光也投向了非結構化的、非抽樣的、包含全體的數據類型。這為大數據帶來了更多的有效信息,但同時也增加了大量無價值的甚至是錯誤的信息。

04 大數據的通用應用

大數據已經滲透到了全世界市場中的各個領域,彰顯著巨大的價值,其在各個領域的詳細應用情況如下。

1. 金融領域

大數據在金融領域應用廣泛,如針對個人的信貸風險評估,銀行根據用戶的刷卡、轉帳、微信評論等數據有針對性地推送廣告;理財軟體通過大數據為客戶有針對性地推薦理財產品。總結來說,大數據在金融領域的應用可以概括為精準營銷、風險控制、效率提升、決策支持。

2. 醫療領域

醫療行業擁有大量的病例、檢測記錄、藥物記錄、治療結果記錄等,這些數據中蘊含著巨大的價值,如果可以加以利用,將對醫療界產生不可估量的影響。疾病確診和因人而異的治療方案設定是醫療領域的重大問題,大數據可以幫助建立針對疾病特點、病人狀況以及治療方案的資料庫,為人類健康貢獻巨大的力量。

3. 生物領域

各國研究人員正如火如荼地推進著人類基因組計劃,這促進了生物數據的爆發式增長。基因檢測可以幫助人們對自己現在的以及未來的健康狀況有更深刻、全面的認識,甚至可以幫助父母在寶寶出生前就對其健康狀況進行檢測。因此,人類基因組計劃是未來人類戰勝疾病的重要工具。

大數據可以整合已有的人類基因的檢測結果並進行分析,加速人類基因組研究的進程。

4. 零售領域

零售行業可以利用大數據了解顧客的消費偏好和趨勢,用以商品的精準營銷和相關產品的精準推銷,降低運營成本,提高進貨管理和過期產品管理效率。大數據可以幫助零售商預測消費者需求趨勢,更高效地提高供應鏈滿足需求的能力。對大數據帶來的潛在信息的挖掘和有效利用,將成為未來零售領域的必爭之地。

5. 電商領域

電商行業的數據集中、數據規模大,可以利用大數據在很多方面進行有效信息的分析提取,如用戶消費趨勢、地域消費特點等。電商領域中的大數據應用已經頗具規模,電商也是最早利用大數據進行精準營銷的行業。電商可以根據顧客消費習慣提前備貨以提高商品送達效率,還可以通過對客戶瀏覽、收藏、加入購物車和購買記錄等數據的分析,對用戶進行有效的商品推薦,提高銷量。

(大數據DT)

相關焦點

  • 終於有人把數據中臺講明白了
    通過數據中臺提供的方法和運行機制,形成匯聚整合、提純加工、建模處理、算法學習,並以共享服務的方式將數據提供給業務使用,從而與業務聯動。 再者,結合業務中臺的數據生產能力,最終構建數據生產—消費—再生的閉環。為了更好地理解數據中臺,我們將其與數據倉庫、數據湖、BI、大數據等相關概念進行對比。
  • 終於有人把「籌碼分布」講明白了
    從某種意義上講,節奏存在速率性和方向性,如果投資者的節奏與市場存在速率性差別可以彌補,並且最終不影響獲利效果;如果投資者節奏與市場存在方向性差別,並不能得到及時的糾正,必將被市場所拋棄。 趨勢只能跟隨,節奏只能把握,這就是交易制勝的法寶。
  • 人工智慧7大關鍵技術,終於有人講明白了
    達文波特 來源:大數據DT(ID:hzdashuju) 導讀:企業使用AI的一個複雜因素是,這個主題包含了多個不同的底層技術。這些技術中大多數都能夠完成很多替代功能。技術和功能的組合非常複雜,表1-1列出了7項關鍵技術,包括每項技術的簡要描述,以及它們可以實現的一些典型功能或應用程式。
  • 什麼樣的數據才有價值?應該怎樣收集和處理?終於有人講明白了
    提起數據,我們只單純指那些可被收集、衡量或分析的碎片信息或信息集合。我們的目的不在於討論數據本身,而是使你認識到數據對了解用戶的價值。比如老營員不喜歡過多食用綠色蔬菜,對制定夏令營運營計劃的你而言,這是否算是一則有用的信息?常聽有人爭執於一些數據比另一些更具價值。
  • 直到今天,終於明白了!為什麼很少有人欠花唄和借唄不還的?
    導語:直到今天,終於明白了!為什麼很少有人欠花唄和借唄不還的?科技生活的頭銜已經冠上了我們的生活,我們可以很真切的感受到身邊的一切都在慢慢和網際網路聯繫起來,讓它令我們生活得更好。更無需說行動支付帶給我們什麼好處,少現金的時代正在往無現金的時代發展途中,銀聯雲支付也在推廣中。
  • 數據分析最常用的18個概念,終於有人講明白了
    區間型數據是直接進行計算的;分類型數據是先將其轉換為稀疏矩陣:每一個類別是一個新的欄位,然後根據其取值「1」「0」進行計算。在很多場景下,人們習慣將分類型數據和序數型數據統稱為分類型數據,即數據類型可以是兩個:數值型數據(區間型數據)和分類型數據(分類型數據和序數型數據)。
  • 終於有人講清楚了樹莓派是什麼
    打開APP 終於有人講清楚了樹莓派是什麼 發表於 2018-01-22 15:59:53 同時擁有視頻模擬信號的電視輸出接口和HDMI高清視頻輸出接口,以上部件全部整合在一張僅比信用卡稍大的主板上,具備所有PC的基本功能只需接通電視機和鍵盤,就能執行如電子表格、文字處理、玩遊戲、播放高清視頻等著多功能。RaspberryPiB款只提供電腦板,無內存、電源、鍵盤、機箱或連線,考慮到便於普及和成本的問題,又細分為Model-A和Model-B兩個版本,兩個版本的區別如附表所示。
  • 《愛情公寓》:終於明白,為何美嘉能讓「花心大蘿蔔」呂子喬收心
    還記得那一個一個夜晚等待更新的日子,有人戲稱,我們看《愛情公寓》就像是父母看《鄉村愛情》一樣,裡面幽默風趣的情節給我們帶來快樂的同時,也帶給了我們很多引人深思的相處之道。或許每個女孩子都曾經幻想當一個讓浪子回頭的女生,變成那個一個人的例外和獨一無二。
  • 從概念到應用,這一次終於把數據挖掘給講明白了
    作者 | 陳封能 來源 | 《數據挖掘導論》(原書第2版) 導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。
  • LOL職業賽場上LEVI一秒五鍵搶龍,看完終於明白什麼叫不講道理
    LOL職業賽場上LEVI一秒五鍵搶龍,看完終於明白什麼叫不講道理 LOL職業賽場上LEVI一秒五鍵搶龍,看完終於明白什麼叫不講道理
  • 終於有人講清楚了,BI和報表的差異!
    終於有人講清楚了,BI和報表的差異! 2020年06月01日 15:20作者:黃頁編輯:黃頁   IT系統自帶報表功能,為什麼還要額外採購BI?
  • 電解液添加量是個難題,終於有人講明白了
    比如:電解液的添加量過少不僅影響正負電極活性物質和隔膜的浸潤情況,導致離子傳輸路徑變大,阻礙了鋰離子在正負極之間的穿梭,未接觸電解液的極片無法參與電池電化學反應,同時電池界面電阻增大,影響鋰電池的倍率性能、放電容量和使用壽命;然而,過多的電解液會增加電池重量,導致較低的能量密度和額外的增加電池的成本。因此如何確定合適的注液量,對於鋰離子電池在性能和成本之間的平衡就顯得尤為重要。
  • 關於頻率與穿透、繞射能力的關係,終於有人能說明白了
    有人說,電磁波的頻率越高,穿透力越弱,所以覆蓋能力差。那麼就有人問,X射線和γ射線頻率高,不是用於醫學攝片和金屬設備探傷嗎? 也有人問,頻率越高,穿透能力越弱,為什麼可見光的頻率那麼高,卻可以穿透玻璃呢? 總而言之,眾說紛紜,誰也說不清楚,到底頻率和穿透能力之間是什麼樣的關係。
  • 為什麼有的摩天大樓中,會掛著一個大鐵球?今天終於明白了!
    為什麼有的摩天大樓中,會掛著一個大鐵球?今天終於明白了!不知道大家有沒有到摩天大樓裡參觀過,據一些去過的朋友說,不少有名的摩天大樓裡都掛著一個大球。那麼,這個大球是做什麼用的呢?有人說,這只是個裝飾,有人說這是大樓裡的定樓神器。
  • 終於明白什麼中國女排派二隊參加世聯賽總決賽,關鍵詞:成績
    終於明白什麼中國女排派二隊參加世聯賽總決賽,網友熱議一針見血地指出:筆者左思右想,想明白了一個道理。筆者推測郎平的思路如下:瓜隊跟義大利是略弱一點的55開,義大利報仇心切,特別希望在總決賽中擊敗瓜隊。但我就是不給你這個機會,讓你大概率拿到總決賽冠軍,讓你找不到目標而煩躁,讓你的冠軍總有那麼一點不夠分量。然後,東京見。有球迷說,郎導為了東京的成績,不尊重想看主力打比賽而買票的球迷。我也覺得有這話不是完全沒道理,確實很多人都想看主力打球。但是,跟很多球迷球迷或者更大範圍的關注度相比,球迷仍然是很小一部分。想想吧,網上才多少人?能到現場看球的球迷有多少?
  • 終於有人講清楚了!
    眾所周知,金融行業是一個「多金」的行業,但凡有人在金融圈混,我們都會覺得他自帶「光環」。這是為何呢?因為大部分人不懂金融。因為稀缺,所以信息不對等就會存在,而賺錢往往來源於比別人更早一步地獲取信息。因此,我們可以不投資不理財,但我們必須懂點金融常識。
  • BI和報表等於數據分析?終於有人講清楚了它們的區別
    傳統式 BI以Cognos等國外產品為代表,其優勢是在大數據量上的性能和穩定性,劣勢也十分明顯:數據分析的能力和對業務的響應速度差些。 如今使用傳統式BI的企業或機構中,83%以上的數據分析需求無法得到滿足,很多企業重金打造的BI系統幾乎成了擺設,收效甚微。
  • 乾貨| 關於頻率(波長)與穿透、繞射能力的關係,終於有人能說明白了
    有人說,電磁波的頻率越高,穿透力越弱,所以覆蓋能力差。那麼就有人問,X射線和γ射線頻率高,不是用於醫學攝片和金屬設備探傷嗎? 也有人問,頻率越高,穿透能力越弱,為什麼可見光的頻率那麼高,卻可以穿透玻璃呢?
  • 歡迎加入共同大數據知識星球:海量資源一站式獲取!
    阿里巴巴+騰訊+華為人力資源體系匯總華為人力資源體系大曝光,看完感嘆:太牛了!阿里巴巴人力資源體系大曝光,馬雲:HR真慘!最全Excel教程匯總,讓你一個月成為Excel大神!230套Excel可視化圖表模板大禮包,讓數據美如畫!
  • 終於有人把常用的三種通訊方式:RS485、RS232、RS422講明白了
    我們都知道,在一般情況下我們會使用串口進行通訊,但是這種串口只適合連接2個設備之間,因此存在很多不方便之處(比如我們進行一對多的通訊),制約了串行數據的收發,這個時候我們就可能需要用到485通訊協議。除了RS485以外,常見的還有RS232和RS422。