來源:CPDA數據分析師網 / 作者:數據君 /
一些組織並不僅僅是為了增強現有系統來處理大數據
相反他們將其現有系統替換為使用Hadoop生態系統技術和/或基於雲的數據平臺構建的大數據湖,您如何避免陷阱和危害,從而可以利用大數據來獲得更多的客戶見解,改善運營並實現其他關鍵目標?您可以立即開始大數據項目,然後對其進行管理以更快,更輕鬆地實現目標,與許多項目一樣,如果知道前進的方向,則可以縮短實現價值的時間,以便更快地實現收益。
研究指出了縮短實現價值的時間的兩個常見障礙
較差的項目定義和範圍以及缺乏熟練的技術人員,根據他的建議,您的團隊應仔細定義業務案例,並闡明項目將如何為關鍵目標做出貢獻,例如增加銷售和市場份額,降低成本或為合作夥伴或客戶提供新產品和服務,一旦知道要去哪裡,提供增量收益就很重要,傳統的BI和數據倉庫項目通常要幾個月(或幾年)才能交付結果,而此時目標可能已經改變了,通過使用支持業務領導者,分析師,數據科學家,開發人員和數據工程師之間強大的團隊合作的敏捷方法,組織可以利用更短的增量開發周期,用戶可以根據中間交付成果進行合作並提供反饋,並相應地調整項目。
制定項目計劃時,請考慮使用藍圖和模板
而不是從空的畫布開始,其中的許多藍圖和模板都是免費提供的,這些概述可防止您在制定可靠的計劃之前就投資技術,並幫助您處理大數據項目的複雜性和細節,模板和藍圖還支持重複使用經過驗證的流程和例程,從而避免不必要地重新發明輪子,從而可以節省組織的時間和金錢, 通常可以對它們進行自定義以適應您的特定需求和目標,優化技術平臺以進行數據攝取和轉換,釋放大數據平臺的潛在價值,以及如何利用集中化各種數據來支持創新應用程式。
建議您的企業將數據治理和管理工作放在優先位置,而不是事後考慮
信息治理要求我們辨別信息及其來源背後的意圖,而不是識別數據治理所要求的技術來源和處理的光頭事實,研究一下這種看似矛盾的陳述如何在自己的領域中應用。結果可能是我們在現代數字業務中捕獲和處理的通常質量較差的數據量不斷增加的信息治理領域的新見解,每天我們創建2.5兆字節的數據-如此之多的數據中有90%僅在過去的兩年中就創造了今天的世界,我相信您在過去幾年中已經多次看到此聲明,我知道我有 我很好奇:如果我們生活在一個「呈指數」增長的數據量世界中,那麼每天2.5兆字節的數據必須追溯到特定年份。
我去尋找報價的原始研究
該錯誤信息的影響是相當有限的,除非,當然,除非某些磁碟存儲供應商使用它來向您出售一些非常大的設備,實際上如果他們將適當的複合增長率應用於2011年的數字,他們的情況可能會更強,但是朱利安尼似乎很有道理。真理不一定是真理-出於多種原因:錯誤,粗心大意甚至惡意的虛假信息(所謂的假新聞)。
數據豐富,信息匱乏
不管正確的數字是什麼,不可否認的是,當今的業務正在處理來自外部源的海量數據,並且數量在不斷增長,這些數據不僅比傳統的內部來源的數據大幾個數量級,而且還存在各種有時描述不充分的結構,這些結構的可靠性常常令人懷疑,隨著這些劣質數據越來越多地推動重要的業務決策,數據科學家和BI專家必須反覆問:「是的,但這是真的嗎?」挑戰來自兩個主要方面。第一個且已經是長期存在的關注點與社交媒體有關,後者是人類信息的子集。在過去的五年中,顯而易見的是,隨著社交媒體的博弈和政治化,社交媒體正越來越不可靠地反映現實世界中的觀點和行為。
問題的部分原因是企業提取和分析的統計數據未能反映出在社交媒體上發現的當前人力資源信息的複雜性和細微差別
帖子是來自真人的真實意見,還是有償帖子或邪惡的機器人農場的產物?我們區分真實信息,錯誤信息(真正的錯誤)和虛假信息的能力使那些從扭曲系統中獲利的人們的興趣和動力滯後。數據收集者和其他各方開發的簡化但龐大的數據模型推動了大量個人詳細信息的收集和使用,這些詳細信息旨在提供針對性的廣告,這是基於建立在監視之下的網際網路業務模型所驅動的。
我們對來自物聯網的機器生成數據的最新痴迷提出了第二個挑戰
人們普遍認為,由電子傳感器生成並通過Internet傳遞的數據代表著有關物理世界的真相。現實更加混亂,傳感器可能有故障或被黑客入侵。通信可能會中斷或被攔截。由於數據量和速度遠遠超過了傳統的基於社交媒體的大數據,因此,誘惑是儘可能快速,高效地「處理和破壞」,此外數據科學家經常在不完整的上下文中分析數據,甚至在尋找真相之前就讓它們掌握實際的信息內容。
信息治理是對真理的追求
數據治理,一個長期以來被忽視的學科,最近引起了人們的興趣,因為數據湖的挖掘者終於意識到了它們所造成的沼澤(每天2.5億字節)。數據目錄和元數據存儲,業務詞彙表和企業數據模型(通常通過機器學習技術來填充)是必不可少的,再次拯救技術,並且及時!問題在於,不需要管理數據,而是需要真正治理的信息。數據治理是必要的,但不足以辨別通往真相的道路,對於數據,根據我們的數據倉庫歷史記錄,我們假設存在「事實的單個版本」,但是當我們考慮信息時,很明顯,真理有許多種,有些真正矛盾,有些確實必須調和。
信息治理要求我們辨別信息及其來源的意圖
而不是數據治理所要求的技術來源和處理的光頭事實,例如,汽車工業已反覆證明,其測量燃油效率和排放的目標與監管機構的目標和公眾的期望有很大不同,信息治理超越了企業中數據所有者的幹and角色和數據管家的質量證明,從而探索了信息如何在企業內外的世界範圍內出現並變形為人類影響,現在聽起來更有趣!
—— 分享新聞,還能獲得積分兌換好禮哦 ——