數據湖的發展趨勢將給企業帶來什麼

2020-12-11 騰訊網

【51CTO.com快譯】「數據湖」(Data Lake) 這一術語已經推出了將近10年的時間,如今已經成為從大型數據存儲庫中的數據挖掘中形成競爭性見解的關鍵工具。

Pentaho公司創始人James Dixon在2010年創造了「數據湖」這個術語。他對「數據湖」給出了這樣描述:「如果將數據集市看作是一個瓶裝水的儲存地——經過清潔、包裝和結構化以便消費,那麼數據湖就是在自然狀態下的一個大型水體。」

隨後很多人質疑組織是在創建具有業務價值的數據湖,還是創建價值有限或沒有價值的數據沼澤。有鑑於此,行業專家Marco Iansiti和Karim Lakhani建議說,「數據湖(其中的數據是原始來源)是數據平臺的一部分,數據從下到上流動……數據平臺聚合、清理、精煉和處理在數據湖中捕獲的數據」。

考慮到這種更為精細的觀點,那麼問題是:數據湖在其炒作周期內發揮了什麼作用?為了回答這個問題,行業媒體徵求了一些首席信息官和行業專家的意見。

數據湖產生了什麼結果?

首席技術官Steve Jones說:「我所在的組織部署了很多數據湖,通常它們有三點基礎:(1)彌補傳統企業數據倉庫的不一致的鴻溝;(2)使機器學習和人工智慧更容易實施;(3)數據的提取和整理實現產業化。這樣做的目的是讓組織專注於結果,而IT團隊專注於供應數據,而不是將系統集成到數據集市/倉庫中。如果有了這些,那麼用例就會變得無窮無盡。」

作為數據湖實施者,首席信息官Deb Gildersleeve表示,她所在的組織已經為業務部門實現了特定主題的數據湖,它們在獲取見解並為企業用戶提供訪問方面確實起到了很大作用。」

首席信息官Jim Russell表示,也採取了類似的自助服務方法,並部署了適用於供應商的數據湖。他說,「它是我們三年成熟計劃的一部分,以修複數據並開始查看流程。其驅動力很難判斷,因為它代表了我們組織的總體範式轉變。因此,它證明了這一點,但並不令我們感到驚訝。」

同時,企業架構師Craig Milroy表示,「我們已在不同的平臺(AWS、Azure和Cloudera)上分別繼承了一個數據湖。每個領域都專注於從數字到5G的特定業務成果。我認為我們正處於價值驅動之旅的起點。要使業務價值和成果與技術投資保持一致,還有很多工作要做。」

與此同時,首席信息官Melissa Woo認為從其數據湖中獲得的業務成果並不確定。她說:「我們的分析主管在數據湖變成現實之前就實施了一個數據湖,但是對於我們的組織而言,並沒有那麼多需求。我們的客戶仍然需要傳統的數據倉庫和報告編寫功能。我們公司總裁仍然對建立適當的基礎設施可能產生的結果非常感興趣,並且非常喜歡數據湖這一術語。」

更糟糕的是,首席信息官Ben Haines說:「許多數據湖變成了數據沼澤,浪費了數據機會。」以上的討論導致Mark Thiele提出一個問題,「數據湖是否取代了其他數據存儲庫,還是只是一種增值服務?」

與數據倉庫相比,數據湖面臨的最大機遇是什麼?

對於電信行業高管Mil Roy來說,數據湖提供了對來自5G終端的大量非結構化數據的支持。這不適合傳統的數據倉庫方法,尤其是在線/實時流式數據和分析功能。他表示,針對特定業務需求,將適合特定用途的工作負載部署到數據湖。

Stephen diFilipo對Milroy的建議表示認同,並表示,「數據湖提供了收集、存儲和分析所有數據、格式、非結構化元數據的功能,而這是傳統數據倉庫存儲庫無法實現的。」

與類似的觀點一樣,Gildersleeve認為數據湖的最大機會是能夠應用焦點,並比傳統數據倉庫移動更快。這樣可以使更多人訪問數據。

首席技術官Steve Jones在這一點上斷言,數據湖和數據倉庫之間的區別在於能夠從「更改數據捕獲」轉變為所有更改的歷史。使用數據湖,無需僅提取報告所需的數據,就可以捕獲整個歷史記錄。

Gartner公司分析師Nick Heudecker對這一討論進行了總結,他說:「數據湖應被視為勘探系統。它們為數據倉庫方法提供了補充。」

數據湖項目成敗的驅動因素是什麼?

對於成功的數據湖項目的性質,首席信息官們有著不同的看法。一些人認為,當多個業務組數據合併以創建融合而不是歷史報告的總和時,數據湖是最好的利用方式。首席信息官Melissa說,「這已成為我們解決問題的一部分。如果不同的群體不願意提供數據,則沒有什麼價值。顯然,分析的成熟度仍然很重要。但是,成功完成這一任務的組織將成為分析公司或競爭對手。」

首席信息官McBreen說,「當企業能夠為共同的目的而合作時,這就像來自許多設備、合作夥伴和重要領域的數據流,但我們只是從頭開始。對於人工智慧和機器學習來說,這可能是使用它們進行增強。」就成功或失敗的驅動因素而言,首席信息官幫助執行團隊理解有價值的數據湖和數據沼澤之間的區別是很重要的。常見問題包括:

(1)缺乏業務定義的用例/結果。

(2)缺乏人際交往能力。

(3)資源不足。

(4)過高的期望。

(5)數據素養和流利性。

(6)數據質量。

(7)數據治理。

Heudecker表示:「數據湖部署經常遇到困難,因為尚未確定目標受眾。這會影響可用的工具,所需的數據素養水平等等。而認為數據湖只是一種服務的觀點是不正確的。」

隨著首席數據官的出現,首席信息官可以在哪裡增加最大價值?

diFilipo建議說,「企業的首席信息官也將成為為首席數據官提供數據平臺的數據資產經理。」

Craig Milroy表示,由於這個原因,首席信息官們應該讓分析、數據科學更容易獲得高質量、更容易理解的數據,從而推動業務價值和成果。

結語

首席信息官在數據管理中繼續發揮著重要作用。數據湖為他們提供了增值的潛力。顯然,隨著數據湖的應用結果喜憂參半,許多組織在業務上面臨失敗。但是對於那些將數據湖視為生成數據平臺或用數據結構分析的一些組織來說,加速業務轉型付出一些代價都是值得的。

原文標題:Key Trends in Data Lakes,作者: Guest Author

【51CTO譯稿,合作站點轉載請註明原文譯者和出處為51CTO.com】

相關焦點

  • 企業級數據湖來了 阿里雲陳起鯤:數據湖將成為企業應用創新標配
    10月23日,數據湖高峰論壇在京召開,阿里雲宣布推出業內首個雲原生企業級數據湖解決方案,提供EB級數據存儲、分析能力,可一站式實現湖存儲、湖加速、湖管理、湖計算,幫助企業對數據深入挖掘與分析,洞察其中蘊含價值,更適合於人工智慧、物聯網、自動駕駛等擁有海量數據場景的新興行業。
  • 數據湖正在成為新的數據倉庫
    筆者作為一個長期的行業觀察者,看到了在不斷創新和創業活動浪潮下行業的快速發展。這種趨勢基本上始於十年前標準設備進入數據倉庫主流,然後隨著市場向新一代雲數倉轉移逐漸獲得了新動力。在過去幾年中,一個雲數倉供應商(Snowflake) 在市場上獲得了非常多的支持。
  • 阿里雲最新重構的數據湖解決方案「秒殺所有對手」
    之後,隨著大數據、雲計算以及雲存儲技術的不斷成熟,數據湖解決方案被主流雲計算廠商極力推崇,並且演繹出不同版本。走到今天,數據湖解決方案似乎已足夠成熟,但從應用場景來看,一切才剛剛開始,還有大量變革空間,這也是阿里云為什麼要重構數據湖解決方案,主推下一代技術的根本原因。  什麼是下一代數據湖解決方案?
  • 阿里雲推出業內首個企業級數據湖解決方案 將在今年雙11大規模應用
    阿里雲推出業內首個企業級數據湖解決方案 將在今年雙11大規模應用 阿里雲智能存儲產品資深總監陳起鯤透露,雲原生企業級數據湖解決方案將首次被大規模應用於今年雙11,支撐阿里巴巴經濟體及百萬客戶全面上雲,最大程度地釋放數據價值。
  • 賦能中國數字經濟發展 易華錄舉辦2020第二屆數據湖大會
    中國華錄集團董事、總經理、黨委副書記張黎明提出在中國大力推進數字經濟基礎設施建設的今天,中國華錄集團作為國資委直接管理的中央企業,站在了中華民族努力實現偉大復興與推動數字經濟蓬勃發展的交匯事業之上,全力支持集團信息產業板塊發展的旗下上市公司易華錄依託集團核心藍光存儲技術,全面布局數字經濟基礎設施——城市數據湖,打通數據壁壘、突破應用瓶頸,實現政府、社會、產業等不同來源數據的低成本匯聚
  • 阿里雲宣布推出業內首個雲原生企業級數據湖解決方案
    10月23日,數據湖高峰論壇在京召開,阿里雲宣布推出業內首個雲原生企業級數據湖解決方案,提供EB級數據存儲、分析能力,可一站式實現湖存儲、湖加速、湖管理、湖計算,幫助企業對數據深入挖掘與分析,洞察其中蘊含的價值,更適合於人工智慧、物聯網、自動駕駛等擁有海量數據場景的新興行業。
  • 贛州有個「數據湖」
    擁有150PB的存儲容量藍光存儲保存壽命長保守估計使用時間可達50年能耗是傳統的IDC機房耗電量的千分之三……走進位於贛州蓉江新區的贛南數據湖示範中心,記者切身感受到了「智慧城市」建設給發展帶來的次次新機
  • 漫畫:數據倉庫、數據中臺、數據湖,終於搞懂了!
    通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。MOLAP,數據以多維方式存儲以減少存儲空間並提高查詢效率,代表廠商為微軟;ROLAP,數據以關係資料庫方式存儲,代表廠商為SAP BO。
  • 數據湖也要自學習 構建數據通路是前提
    數據湖就像是企業存儲各種原始數據的大倉庫,這些數據在入庫之初是雜亂無章的,但是企業需要讓這些數據具備存儲/讀取、被處理、可分析的能力。既然是湖,藉助管道讓數據流動起來是關鍵因素,否則就變成了「堰塞湖」。
  • 華為雲智能數據湖FusionInsight 成功助力10000+大數據集群滾動升級
    隨著政企數位化發展,大數據在政府、金融、運營商、大型企業等中承載越來越多的關鍵數據分析、處理的業務,在日常升級和維護過程中,對於業務連續性保障的要求也越來越高。每次升級操作的窗口準備時間要求儘量短,同時需要實現大集群滾動升級時業務不停機,如何處理這些痛點,成為了業界關注的重點。
  • 將讓企業獲利的5個人工智慧趨勢
    事實上,調研機構Gartner公司最近將「更智能、更快、更負責任的人工智慧」列為其第一大趨勢,尤其是那些希望進行必要的投資為疫情結束之後做好準備的組織。除了應對疫情之外,Gartner公司還強調了人工智慧將會帶來多大的影響,並預測說:「到2024年底,75%的企業將從人工智慧試點轉向運營人工智慧,將推動流數據和分析基礎設施增長5倍。」
  • 數據中臺、數據湖到底是怎麼回事兒?
    、數據湖等大數據應用實踐話題進行分享,感興趣的小夥伴歡迎上車!、發展方向和業務價值實現等方向。演講議題:愛奇藝數據中臺的建設實踐演講議題介紹:隨著市場對數據價值的認可,促進了數據在各行各業的爆發式增長,以及大數據設施的快速演化,同時也帶來了不少新的數據問題;解決這些問題,發揮更大的數據價值,成為了各大公司的重點工作。
  • 企業在線學習平臺的四大綜合發展趨勢
    本文將分析企業在線學習平臺四大綜合趨勢——內生化、智能化、電商化和社區化。本篇文章也是在竭力陳述這一觀點,如果說和其他文章有什麼不同的話,那就在於本文的陳述更多著眼於當下市場上領先的幾大大客戶企業內部的運營實踐,用「操盤的手」去探測實際的應用需求場景,能更清楚的把控行業的發展趨勢。標題中我沒有用「未來」二字,而是「綜合」,在於這已經是馬上即將發生的,或者已經發生了的行業發展變化,用「未來已來」形容再恰當不過了。
  • 數字閱讀行業創新趨勢研究報告:作者體系將影響企業發展
    2019年中國數字閱讀行業市場規模達292.8億元,預計2020年將達372.1億元。中國數字閱讀行業用戶規模達5.1億人,2020年全中國網絡文學作品累計規模將超2500萬部,17K小說網、晉江文學城以及起點中文網的網文儲量均超過200萬。有聲書布局、免費閱讀生態布局、打造多元 IP、開拓國際市場等將是在線閱讀行業未來發展的創新趨勢。
  • 數智時代基石,阿里雲推出新一代雲原生數據倉庫與數據湖
    同時推出的數據湖解決方案,採用一種存儲多種計算理念,基於存儲與計算分離架構和全新大數據分析加速引擎,可實現與本地計算一樣的快速體驗,激發企業數智動能。如今我們談到產業數位化,數字產業化,今天絕大多數的經濟活動、數據的沉澱分析和服務都是離不開的。
  • 谷歌雲高管預測:2021年這五大數據趨勢將會推動業務發展
    對數據質量決定企業成敗的理解也是如此。適應瞬息萬變的客戶需求幾乎成為零售商和其他企業的當務之急。根據Gartner的2020年數據質量解決方案魔力象限報告,糟糕的數據質量使組織每年平均損失1,290萬美元。隨著業務環境日益數位化和複雜化,這個數字可能會上升。   因此,《福布斯》對話了谷歌雲的數據負責人,他們對企業進入新的一年有什麼見解。
  • 引領BI趨勢,永洪科技聯合生態提速企業數位化轉型
    註:永洪科技CEO何春濤作為以客戶為中心的技術驅動型企業,永洪科技牢牢把握著數據與分析領域的技術發展趨勢,疫情期間,在研發、營銷、在線、交付等所有環節都積極應變,一如既往地踐行「以卓越的數據技術為客戶創造價值
  • 新經濟下用工變革與企業服務趨勢,訂個活靈活用工為企業發展護航
    12月8-10日,北京國際會議中心舉辦了「WISE2020新經濟之王大會——崛起與回歸」大會,以「十年企服:崛起與加速」為主題,聚合行業專家、專注企服賽道的知名投資人、行業代表企業,從行業市場環境分析到企業可持續發展戰略,從宏觀行業發展洞察到微觀企業服務管理升級,共同探討企服數位化發展趨勢
  • TB級大數據如何採用優刻得USQL數據湖分析降本90%
    摘要:TB級大數據使用優刻得USQL,將數據分析的等待時間從平均43小時降到2小時;同時依託USQL根據數據分析量計費,不使用不收費的特性,幫助客戶將數據運算成本降至自建方案的0.5%。  當前,大數據的價值已無需贅述,作為衡量一個公司核心能力的最底層標準,數據的建設也面臨著諸多難題。
  • 智能衣櫃發展趨勢如何
    那麼,智能衣櫃發展趨勢究竟如何呢?下面我們簡單來解析下智能衣櫃發展趨勢如何。智能衣櫃發展趨勢如何:智能家居趨勢已不可逆轉  和當年智慧型手機的普及一樣,家居行業也開始注重用戶需求並緊跟社會潮流,涉足智能家居的研發,在為其生活帶來便利的同時,也增加企業在市場的競爭力