雲計算環境中流行的大數據框架介紹

2021-01-13 電子發燒友
雲計算環境中流行的大數據框架介紹

全球物聯網資訊 發表於 2021-01-09 11:35:13

在本文中,我們將介紹雲計算環境中流行的大數據框架,並確定這些大數據框架的某些屬性,並探討與之相關的一些最大障礙和問題。本文將按資源管理大數據框架的主要屬性進行分類,將它們與具有類似性質的其他框架進行比較,並提出與使用它們相關的推薦最佳實踐。

介紹

儘管遷移到雲計算的好處是眾所周知的,但在大數據分析的背景下,其好處更為明顯。大數據所固有的是使用PB(即將成為EB和ZB)數據。業務分析要求使用數據密集型應用程式,而雲環境的可伸縮性對於使它們的部署可行是必不可少的。利用雲還可以促進整個組織之間更輕鬆的協作和連接,簡化數據共享並授予更多員工訪問相關分析的權限。

IT領導者當然認識到將大數據轉移到雲中的好處,但是要讓主要利益相關者和高層管理人員購買該概念會更加複雜。但是,利用雲和大數據的組合確實具有商業上的實際意義,因為它將允許對業務進行優化查看,並將促進基於相關數據的決策。

例如,生產實物產品的公司的營運長可以極大地受益於訪問有關供應鏈優化的數據以及跟蹤缺陷的有效機制。同樣,尋求提高客戶忠誠度和參與度的CMO,以及尋求增加收入,降低成本和進行戰略投資的新途徑的CFO,也都依賴數據來制定決策。無論從哪個角度來看,基於雲的敏捷平臺和大數據的利用將驅動貴公司的運營和實現目標。

如2020-2025年大數據市場報告所述,全球大數據市場規模將從2020年的1389億美元增加到2025年的2294億美元。

大數據和雲計算的歷史

龐大的分析項目高度依賴有效的資源管理,因為數據平臺利用大量可視化的硬體資源來降低成本並優化結果。架構的複雜性使得這種管理或資源具有挑戰性。因此,應認真考慮將要處理多少數據,並設計出既有利於當前應用,又有利於未來應用的最佳性能的體系結構。

直到最近,網格,計算機集群和其他高性能超級計算機仍被用作高計算項目的資源。群集計算是

此類框架的主要環境。網格計算環境(或其他分布式HPC環境)中的虛擬組織管理專用於應用程式需求的資源(外部和內部),儘管近年來有關將此執行轉移到雲的討論一直是討論的熱門話題。出於安全原因,吸引本地存儲敏感數據不足為奇,但是當存儲量變得無法內部存儲(例如企業中的數據)時,組織發現必須遷移到雲存儲解決方案。

儘管雲計算可能是增長大數據的核心,但是針對大數據應用程式的基於雲的解決方案與常見的解決方案有很大不同。傳統的雲解決方案提供了一些鬆散相關的應用程式,其細粒度的體系結構旨在為大量用戶提供服務。這些用戶通常在不同的位置獨立運行,並且通常擁有非共享或私有數據。該數據可能主要是面向批處理的,並且包含許多交互。通常會對其進行重新定位,以適應高度動態的資源需求。話雖如此,大數據與常規擴展解決方案共享一些共同的屬性,以及對資源自動管理的要求。

雲計算企業的成長和成熟正在完善和改善雲環境,以使其更加敏捷和高效。雲提供商也在擴展其服務,其中通常包括數據湖架構。該平臺提供了增強的生產力套件,可用於BI,雲操作,資料庫,OLAP,數據倉庫和其他開發工具。

大數據云計算中的資源管理框架

已經在不同的應用領域中使用了各種計算基礎結構,以利用商品計算資產以批處理模式處理大型資料庫。在這裡,我們旨在探索雲計算環境中使用的一些流行的大數據資源管理框架。下圖有助於直觀地繪製出大數據管理結構樣式的分類。

比較大數據框架

當代企業,研究社區和IT行業都在感受到大數據云計算的影響,湧現出一些變革性和顛覆性的大數據解決方案和技術,以促進許多企業的創新和數據驅動的運營決策。現代數據云計算服務提供了基礎架構,技術和大數據分析,可幫助加快大數據分析的步伐並降低其成本。

儘管有許多選項可用,但關鍵在於選擇最適合特定業務的框架。這種選擇往往會歸結為應用需求,並權衡每種情況的優點和缺點。其中許多是基於應用程式使用場景的,並且可能涉及一些折衷。在雲中部署大數據應用程式之前,需要確定幾個關鍵因素。現在,我們將討論選擇每種主要管理框架類型的利弊。

1.處理速度

在評估不同資源管理結構的功效時,處理速度是一項重要的性能衡量工具,它基於對內存或磁碟的數據傳輸讀寫(I / O)的便利性。它還測量特定時間段內兩個通信單元之間的數據傳輸速率。有理由認為某些資源管理框架會表現更好。但是,研究發現,儘管某些框架在執行較小的任務時表現出更好的性能,但其他框架在處理更大的數據源集時卻要快得多。但是,隨著數據集輸入的增加,所有框架的「加速」比率都降低了。

2.容錯

測量一個組件發生故障時系統的其餘部分如何繼續運行稱為容錯。在高性能計算系統中執行特定任務時,將評估數百個錯綜複雜的互連節點。一個導致失敗的結果應該對整個計算的影響很小或沒有影響。一些框架比其他框架具有更高的容錯能力,其中某些框架在涉及大量數據傳輸的情況下會超出容錯範圍。使用PageRank算法進行的研究已用於對多種框架的性能進行實驗,發現在較小的數據集中,性能可以很好地衡量,但是隨著數據集的增長,「加速」性能下降。某些數據集可能變得如此之大,以至於某些系統無法處理它們而不會崩潰。

3.可擴展性

企業依靠及時處理數據來解決高價值業務問題。通過能夠同時大規模執行多個計算,可以減少與業務相關的計算的工作量,總體時間和複雜性。通過在運行時分配額外的資源來適應大負載或工作量(或大小)變化的情況稱為可伸縮性。可伸縮性可用於增加所需的資源(按比例放大)或減少所需的資源(按比例縮小)。因此,可伸縮性涉及將多個條件組合到單個算法中。研究表明,框架也可以在不同級別上產生可伸縮的性能。

4.安全性

大多數大數據應用程式都不再使用內部數據存儲,而是選擇遷移到雲環境中,使不同的用戶可以訪問或記錄相同的隱私,從而輕鬆獲得信息。數據完整性和安全性一直是最重要的,但是隨著大數據平臺廣泛採用雲計算服務,這一方面會進一步擴大。由於暴露給出於自身原因而尋求數據的多個用戶,這反過來又增加了數據所面臨的隱私和安全性的風險級別。

安全性分為幾類,每一種都需要通過各種級別的加密對身份驗證和授權進行不同級別的訪問。某些框架在其訪問示意圖中使用加密機制,而其他框架則允許對其訪問和加密進行密碼控制。儘管如此,其他人仍未提供任何系統級內置安全性。

結論

在速度和數據量方面的增長速度可能是驚人的,特別是對於年輕的組織。但是,利用雲計算可以從根本上改變任何運營的效率和數據驅動的組織。

您的組織是否已將大數據遷移到雲?我們很想聽聽此舉如何影響您的數據分析質量和速度。請與我們分享這如何幫助您改善組織運作。
責任編輯人:CC

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 雲計算簡史(完整版)
    這意味著無論應用有多麼複雜,它都能夠在多雲環境中進行統一運維。比如自家的某種類型存儲用完了,就可以臨時購買一些亞馬遜的存儲。數據過時了,就定期自動地轉移到低價格的冷存服務中。有了多雲技術框架和服務,同時意味著雲計算平臺必須提供廣泛支持。阿里雲當然希望多賣一些雲主機服務,但是如果因為技術框架落後,客戶就會流失。
  • 雲計算一周熱文回顧:五大主流資料庫模型
    上一期中,我們回顧了過去一周雲計算頻道裡的熱點新聞,本期將繼續給大家回顧上周的熱點新聞。五大主流資料庫模型無論是關係型資料庫還是非關係型資料庫,都是某種數據模型的實現。本文將為大家簡要介紹5種常見的數據模型,讓我們來追本溯源,窺探現在流行的資料庫解決方案背後的神秘世界。
  • 中科曙光助力「地球大數據科學工程」,用雲計算「讀懂」地球
    這議程的眾多目標中,地球大數據至少可以為實現其中八個提供不同形式的支持,特別是純淨的水源、低廉的能源、可持續發展的城市、全球變化、水下生命、陸上生命、健康和平等發展目標。 2017年中科院成立了為期五年的「地球大數據科學工程」先導專項,其中大數據云服務平臺是「地球大數據科學工程」先導專項的重要建設任務之一,屬於綜合型基礎設施項目。
  • 雲計算,大數據,人工智慧的通俗解釋,一看就懂
    雲計算、大數據、人工智慧都是當前科技界的熱門技術,它們支撐了各行各業的發展。下面我通俗地回答一下。1、雲計算①、雲計算概念通俗講解IT界只要講雲計算,就會用「喝水的故事」來通俗的解釋,這裡我擴展一下來來講。
  • 雲計算平臺有哪些_幾種雲計算平臺的介紹
    雲計算(cloudcomputing)是基於網際網路的相關服務的增加、使用和交付模式,通常涉及通過網際網路來提供動態易擴展且經常是虛擬化的資源。雲是網絡、網際網路的一種比喻說法。過去在圖中往往用雲來表示電信網,後來也用來表示網際網路和底層基礎設施的抽象。
  • 【焦點】探秘「內蒙古雲計算大數據創客中心」
    隨著內蒙古雲計算大數據創客中心的開園,對於很多行業而言,機遇與挑戰並存,如何利用這些大規模數據,大數據的價值體現在哪些方面,小編帶您了解……內蒙古首個雲計算大數據創客中心開園 8月18日,內蒙古首個以雲計算為基礎的創客中心在和林縣開園。
  • 雲計算大數據智能製造論壇:中國製造業彎道超車的新機會
    【CSDN現場報導】第六屆中國雲計算大會於2014年5月20-23日在北京國家會議中心拉開帷幕。本次大會立足實踐,以國際化的視野,幫助與會者了解全球雲計算技術的發展趨勢;從應用出發,探討交通、醫療、教育、金融、製造、數字娛樂等行業領域的實踐經驗;並通過技術專場、產品發布和培訓課程等方式,深度剖析雲計算大數據的核心技術。
  • 【大數據】最新大數據學習路線(完整詳細版】
    Spark:Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用並行框架,除了Hadoop MapReduce所具有的優點,但不同於MapReduce的是job中間輸出結果可以保存在內存中,從而不需要讀寫HDFS,因此Spark能更好的適用於數據挖掘與機器學習等需要迭代的MapReduce算法。
  • 增加企業競爭優勢,大數據業務的六大驅動因素
    過去十年中,大數據來自業務需求和技術創新的結合許多以大數據為核心戰略的公司在21世紀初就已經非常成功著名的例子包括蘋果,亞馬遜,臉譜和Netflix的。 許多業務驅動的因素是它們成功的核心,並解釋了為什麼大數據迅速成為業界最令人垂涎的話題之一。
  • 什麼是大數據?它與雲計算有什麼關係?
    最終目標是幫助做出更多基於數據而不是直覺的決策。這是因為基於證據或數據的決策被認為更可靠。大數據與傳統上稱為分析的內容分開的主要區別是什麼?差異在於現在可以輕鬆獲取的數據量,數據與各種數據點一起整理的速率。1.數據量 - 每40個月創建的數據量翻倍。
  • 華為靖江雲計算數據中心上線
    「雲匯靖江·數贏未來」華為靖江雲計算數據中心上線發布儀式昨日舉行,這標誌著靖江市雲計算和大數據產業邁出了堅實一步。靖江市委書記趙葉,華為公司副總裁、華為政企雲總裁楊瑞凱,江蘇省廣電有線信息網絡股份有限公司副總經理錢進共同啟動華為靖江雲計算數據中心。
  • 2016年7款最流行的Java框架
    另外,很多大型公司都選擇使用Spring MVC,所以如果你在使用過程中遇到問題,會有很多技術大牛能夠給你解答。  優點和缺點  Spring以絕對優勢登頂不是沒有理由的,它之所以能夠成為最知名的Java框架,主要是因為:1.使用POJO簡化測試數據的注入。
  • 關於雲計算的10個常見問題解答
    雲計算還具有全球性、便利性、巨大的可擴展性,並且易於訪問的優勢,所有這些特性加快了創建和部署軟體應用程式的時間。它使企業可以使用一系列新服務,這些服務可以實現應用程式架構和使用中很流行的趨勢,其中包括微服務、容器、無伺服器計算、機器學習、大規模數據分析、物聯網等。4.雲計算的缺點或風險是什麼?
  • 歐洲鋼鐵行業數位化轉型重點:大數據分析和雲計算
    大數據分析和雲計算是歐盟鋼鐵行業數位化轉型的12個重點科研基金項目之一。大數據分析關注基於歷史數據的算法,以識別產品質量問題從而減少產品故障。鋼鐵行業中的傳統資料庫技術在完成對大量結構化和非結構化數據的捕獲、存儲、管理和分析方面,尚存在一定的困難。
  • 中國大數據領導者,「星環科技」起航
    這是國內第一家 「數據上雲」的大數據基礎軟體。從此,用戶能夠通過PaaS平臺使用大數據基礎軟體來進行大數據的處理。大數據和雲的結合為星環科技的產品帶來了核心競爭力。雲計算的服務架構分為IaaS-PaaS-SaaS三層,在IaaS和SaaS流行之時,PaaS被人忽略。
  • 雲計算數據中心和傳統IDC的差異在哪裡
    、環境控制設備、監控設備以及各種安全裝置」,當下,雲計算即將成為信息社會的公共資源,而數據中心則是支撐雲計算服務的基礎設施,雲計算也的確有給資訊時代帶來翻天覆地變化的本事,所以自從雲計算橫空出世,一切信息技術都開始圍著它轉,雲計算有如神一樣地存在著,下面看看什麼是雲計算數據中心、雲計算數據中心和傳統IDC有何區別?
  • 聯合國CBD2020後框架工作組更新框架籌備、大流行和COP15最新信息
    幾天前,聯合國《生物多樣性公約》(UN CBD)2020年後全球生物多樣性框架不限成員名額工作組共同主席Francis Ogwal 與Basile van Havre專發致信,更新了進入4月以來的工作進展,圍繞很多人一致關注的2020後框架籌備情況、所受大流行的波及等給出了最新說明,並談到眾所關心的對原定於2020年10月在昆明舉行的CBD締約方大會第十五次會議(COP15
  • 從雲計算+邊緣計算的角度看工業物聯網
    從雲計算和邊緣計算的角度來看工業物聯網,或許將得到新的認識。IIoT:不僅是雲計算工業物聯網(IIoT)通常與大數據和雲相關聯,從廣泛分布的傳感器中收集大量數據,將「信息轉化為洞察力」。在一些工業流程中,洞察時間非常關鍵,而將數據發送到雲端並接收響應的延遲時間可能過長。
  • 雲計算與物聯網的關係_雲計算和物聯網的優勢
    雲計算介紹   雲計算是一種新興的基於網際網路的商業計算模型。它將計算任務分布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算力、存儲空間和各種軟體服務。雲計算是並行計算、分布式計算和網格計算的發展,或者說是這些計算機科學概念的商業實現。
  • 利用雲計算和大數據來防止漁業過度捕撈
    谷歌最近推出了一項雄心勃勃的計劃:結合雲計算、大數據和衛星網絡監控全球漁業活動,主要著眼於防止過度捕撈。太平洋上的漁船信號(來自computerworld.com)    根據海洋環境保護組織Oceana的說法