大數據五項相關技術與數據分析應用案例

2021-01-09 火車採集器

大數據技術指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

1、Avro與Protobuf

Avro與Protobuf均是數據序列化系統,可以提供豐富的數據結構類型,十分適合做數據存儲,還可進行不同語言之間相互通信的數據交換格式,學習大數據,需掌握其具體用法。

2、Cassandra

Apache Cassandra是一個高性能,可擴展性和高線性可用的資料庫,可以運行在伺服器或雲基礎設施上,為關鍵任務數據提供完美的平臺,。 Cassandra支持多個數據中心之間複製是同類產品中最好,為用戶提供更低的延遲,甚至不懼怕停電。 Cassandra的數據模型提供了便利的列索引,高性能試圖和強大的內置緩存。

3、Kafka

Kafka是一種高吞吐量的分布式發布訂閱消息系統,其在大數據開發應用上的目的是通過Hadoop的並行加載機制來統一線上和離線的消息處理,也是為了通過集群來提供實時的消息。大數據開發需掌握Kafka架構原理及各組件的作用和使用方法及相關功能的實現!

4、Chukwa

是一個開源大型分布式系統的數據採集監視系統。它是建立在Hadoop分布式文件系統(HDFS)和Map/ Reduce框架之上,並繼承了Hadoop的可伸縮性和健壯性。 Chukwa還包括一個靈活而強大的工具包,用於顯示,監測和分析結果,以便做出最佳地使用所收集的數據。

5、Flume

Flume是一款高可用、高可靠、分布式的海量日誌採集、聚合和傳輸的系統,Flume支持在日誌系統中定製各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各種數據接受方(可定製)的能力。大數據開發需掌握其安裝、配置以及相關使用方法。返回搜狐,查看更多

石油公司殼牌通過分析數據以預測機器故障

很少有行業能比能源行業產生更多的數據了。但多年來,石油巨頭殼牌甚至不知道其在世界各地的各種設施中的零件都位於哪裡;它不知道什麼時候需要再進貨;直到部件開始出現故障,它才知道什麼時候出現了維護問題。由於機器停機每天給公司造成了數百萬美元的損失,於是殼牌決定收集數據以避免這些問題。

殼牌卓越數據科學中心的總經理Daniel Jeavons表示,殼牌基於多家供應商的軟體建立了一個分析平臺,運行預測模型,以預測3000多種不同的石油鑽井機的部件何時會出現故障。

其中一個名為Databricks的工具通過Apache Spark來捕獲流數據。殼牌使用這個工具來更好地計劃什麼時候購買機器部件,保存多長時間,以及在哪裡存放庫存物品。

該工具託管在微軟Azure的雲中,幫助殼牌將庫存分析從超過48小時減少到不到45分鐘,每年減少數百萬美元的庫存轉移和重新分配成本。

經驗總結:避免機器故障需要很多工具。Jeavons表示,殼牌的平臺包括了來自Databricks、Alteryx、C3、SAP和其他供應商的軟體,所有的這些軟體共同幫助了他的數據科學家來產生商業見解。最終,首席信息官必須正確評估這些工具,並在進行大額購買之前了解哪些才是有效的。

ARC啟用了新的數據管理工具

數據是航空報告公司( ARC )的生命線,該公司每年結算航空公司之間價值超過880億美元的機票交易,包括德爾塔航空公司、美國航空公司、英國航空公司、阿拉斯加航空公司以及Expedia等旅行社。航空公司付費獲取ARC在這些交易中收集的數據,以了解更多的關於旅行者的目的地、旅行時間以及在此過程中每年為超過22億次航班支付的費用的信息。

ARC捕獲數據,將其輸入分析引擎,對其進行細化,並為其客戶構建定製的報告。ARC 的CIO Dickie Oliver表示,該公司正從Teradata的數據倉庫遷移到Snowflake的雲軟體中,這將幫助ARC更快地將數據產品推向市場,並提供更大的可伸縮性和性能,這得益於其在AWS上的業務。Oliver表示,Snowflake是為了將計算資源與數據存儲分開而設計的,它使ARC能夠為客戶快速構建新的定製報告。Oliver補充說,多虧了這個項目,ARC將能夠為考慮新數據形式的客戶量身定製新的產品。

經驗總結:遷移到一個新的數據平臺通常是令人畏懼的,不僅僅是因為技術的轉變;變更管理是其中真正的麻煩所在。Oliver說,讓人們「從一開始就專注於改變,並讓他們經歷改變過程是這個過程中最具挑戰性的部分」,他補充說,他正全力培訓員工,包括讓他們通過認證,並引進顧問,如讓Slalom來幫助我們進行變更管理。

TD銀行在數據湖方面的天賦

TD銀行的數據分析團隊花了幾年時間來更新數據基礎設施,以滿足當前和未來的需求,並創建了一個企業Hadoop數據湖。

TD銀行企業信息高級副總裁Joe DosSantos表示,我們使用了基於Cloudera的數據湖用來培養對客戶的洞察力,包括從跟蹤員工的流失率,到為客戶提供合適的產品。

TD 銀行的一個核心關注點包括讓業務分析師能夠從數據湖中提取數據,可用且可操作的能力,而無需數據科學家來親自操控。 DosSantos表示:「我們正在讓人們廣泛使用這些數據集。」他補充道,TD Bank還嘗試使用其分析平臺來檢測欺詐和其他瀆職行為。

經驗總結:過去幾年來,TD Bank一直在重新構想其企業數據平臺,篩選數十年來的客戶交易和其他數據。TD銀行沒有過度依賴Hadoop,而是使用了Talend的軟體來提取、轉換原始數據並將其加載到可用於可操作商業智能的信息中。

DosSantos解釋道:「Hadoop對於理解如何從A點到B點獲取數據方面並不是很好。而Talend有一個元數據管理器和一個中央存儲庫來跟蹤數據湖中的數據移動和轉換。」

嘉吉公司正為蝦農提供數據分析

嘉吉公司(Cargill)的動物營養部門開發了一款名為iQuatic的移動數據跟蹤應用,幫助養蝦人降低產量的死亡率。

嘉吉動物營養公司的CIO Tiffany說,該應用程式能夠基於環境因素(如溫度、pH值和營養)來預測蝦池中的生物量,並與嘉吉公司的iQuatic自動餵蝦系統協同工作。Snyder在8月的CIO 100研討會上介紹了iQuatic系統。

只要農民將應用程式中的數據保存到雲中,然後訪問實時的操作儀錶盤,便能夠直觀顯示池塘的性能,提供關鍵的測量和預測分析,幫助他們更好地管理蝦健康並提高產量。以前,農民是用傳統的方式——用筆和紙來收集的這些數據。

經驗總結:為了構建這個應用程式,嘉吉公司派遣了工程師和企業高管去厄瓜多的一個養蝦場,了解農民是如何從池塘中獲取數據的。「我們讓農民成為了我們團隊的一部分,」Snyder說。通過在敏捷、two-pizza的團隊中快速工作,為在5個月內成功進行試點鋪平了道路,並最終實現了產品發布。

讓數據分析在默克公司發揮作用

全球醫療保健公司默克希望利用在ERP和核心系統中收集到的數據來進行生產執行和庫存控制,以獲得更多的商業見解。但是,由於它的工程師花費了60%到80%的精力去尋找、訪問和獲取每個項目的數據,以至於許多商業目標沒有得到實現。默克公司的IT製造首席信息官Michelle D』alessandro表示:「我們沒有把數據視為一種可行的、永久的、有價值的資產。我們希望建立一種文化,在這種文化中,我們可以儘量在移動和報告數據上少花時間,從而將更多的時間花在使用數據來實現有意義的業務成果上。」

默克公司創建了MANTIS(製造和分析智能)系統,這是一個über數據倉庫系統,包括了內存資料庫和開源工具,可以處理在結構化和非結構化系統中的數據,包括文本、視頻和社交媒體。重要的是,該系統能夠允許非技術業務分析師在可視化的軟體中輕鬆的查看數據。而數據科學家可以通過複雜的模擬和建模工具訪問信息。MANTIS系統已經使公司整體IT分析項目總業務量的時間和成本降低了45%。有形的業務成果包括平均提前期減少了30%,平均庫存持有成本減少了50%。

經驗總結:D'Alessandro表示,她成功的關鍵是在亞太地區的一家工廠中設立了一個「標杆」分析項目,默克將在那裡獲得最大的回報。而在那裡展示了MANTIS的成功之後,它就為其他網站樹立了榜樣。她還學會了如何步步為營。D 'Alessandro說,她在一個早期的實驗中使用了人工智慧和機器學習來分析默克製造過程的成本,但她「做得過頭了」。她說:「這並不是因為缺乏贊助或缺乏遠見,我們只是無法讓它發揮作用。

相關焦點

  • 大數據應用案例TOP100
    文/謝然  在當前的網際網路領域,大數據的應用已十分廣泛,尤其以企業為主,企業成為大數據應用的主體。大數據真能改變企業的運作方式嗎?答案毋庸置疑是肯定的。隨著企業開始利用大數據,我們每天都會看到大數據新的奇妙的應用,幫助人們真正從中獲益。大數據的應用已廣泛深入我們生活的方方面面,涵蓋醫療、交通、金融、教育、體育、零售等各行各業。
  • 13個應用案例 講述最真實的大數據故事
    大數據改變的那些行業大數據目前是當下最火熱的詞了,你要是不知道大數據這個概念,都不好意思在眾人面前開口了。然而實際上很多人都對大數據的應用模糊不清。現在就讓我們從下面十三個鮮明的大數據應用案例來了解下最真實的大數據故事。這是大數據在生活中實現應用的情況,也許能改變一個企業的運營,甚至改變一個行業未來的走勢與發展。
  • 大數據在反腐上的數據應用
    在大數據時代,各行各業都在發掘和利用大數據的價值,大數據的應用為研究腐敗防治的行為提供了有益的方法論指導,利用大數據方法,總結出有關廉政風險的規律共性,從預防、控制、懲治三個層面入手,管好公職人員的人財物三個方面,更好的助力廉政風險防控。
  • 工業大數據的技術與應用
    詳述工業大數據的技術與應用 一、工業大數據定義 工業大數據是指在工業領域中,圍繞典型智能製造模式,從客戶需求到銷售、訂單、計劃、研發、設計、工藝、製造、採購、供應、庫存、發貨和交付、售後服務、運維、報廢或回收再製造等整個產品全生命周期各個環節產生的各類數據及相關技術和應用的總稱。
  • MSA數據分析方法和應用案例
    因此,MSA 可簡單概括為:分析整個測量系統(儀器或量具、標準、操作、方法、夾具、軟體、人員、環境和假設的集合)在測量過程中存在哪些風險和誤差的過程。MSA採用的數據分析方法有:獨立樣本法、圖表法、極差法、方差分析法等。按照測量系統分析過程前後順序,相關方法摘記如下。
  • 2015網際網路+大數據應用案例Top100
    想必大家都聽過這個典型的大數據應用案例:某超市通過分析一位女顧客的購物數據(包括購物清單,瀏覽物品,諮詢信息,視頻監控信息<超市內徘徊區域>等),根據分析結果給該女顧客寄來了孕嬰童試用品。
  • 大數據_數據挖掘技術分類及應用
    真實性(Veracity):數據的質量   複雜性(Complexity):數據量巨大,來源多渠道   價值(value):合理運用大數據,以低成本創造高價值   數據挖掘技術分類及應用   數據挖掘技術概況   基於Internet的全球信息系統的發展使我們擁有了前所未有的豐富數據
  • 大數據時代的大數據技術與應用有哪些.
    大數據給網際網路帶來的是空前的信息大爆炸,它不僅改變了網際網路的數據應用模式,還將深深影響著人們的生產生活。深處在大數據時代中的人們,已經認識到大數據已經將數據分析的認識從「向後分析」變成「向前分析」,改變了人們的思維模式,但同時大數據也向我們提出了數據採集、分析和使用等難題。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • 大數據分析與應用技術國家工程實驗室發布數字生態指數2020
    2020/10/11 信息來源: 大數據分析與應用技術國家工程實驗室 編輯:麥洛 |
  • 金融大數據的應用現狀、存在的問題及相關建議
    隨著大數據技術的廣泛普及和發展成熟,金融大數據應用已經成為行業熱點趨勢,在交易欺詐識別、精準營銷、黑產防範、消費信貸、信貸風險評估、供應鏈金融、股市行情預測、股價預測、智能投顧、騙保識別、風險定價等涉及銀行、證券、保險、支付清算和網際網路金融等多領域的具體業務中,得到廣泛應用。對於大數據的應用分析能力,正在成為金融機構未來發展的核心競爭要素。
  • 2018青島大數據專家大會召開 大數據《案例集》《名錄集》重磅發布
    大會總結了青島市大數據專家委員會一年來的工作、回顧了青島一年來大數據領域取得的積極進展,發布了《青島市優秀大數據成果(案例)彙編》《2018 青島市大數據產業生態名錄集》。同時,大會還對大數據建言獻策先進個人、專家委員會先進個人、大數據最強技術團隊、大數據優秀學術成果進行了表彰鼓勵。
  • 大數據分析與應用技術國家工程實驗室助力科學抗疫
    王騰蛟團隊研發多源大數據疫情防控研判系統1月底,實驗室數據管理及分析中心王騰蛟教授團隊接到學校一項緊急任務安排:發揮團隊在大數據分析技術方面的優勢,立即投入大數據疫情防控研判系統的研發,為疫情研判服務。從那時開始,王騰蛟團隊的老師和同學們聞令即動,爭分奪秒,立即進入了全力以赴的科研攻關狀態。
  • 大數據的應用實例展示:生活中的大數據
    大數據、雲計算、人工智慧、物聯網……新的概念不斷湧出,並且隨著技術的成熟,也在實際的應用當中不斷拓展,逐漸影響我們的生活。以大數據來說,聽起來「高大上」,感覺離我們很遠,實際上卻並非如此。今天我們就來聊聊,大數據的應用實例,生活中的大數據例子。
  • 醫療健康大數據:應用實例與系統分析
    利用大數據技術還能有效減少醫療成本,麥肯錫全球研究院預計使用大數據分析技術將每年為美國節省3 000億美元開支。其中,最有節省開支潛力的兩個方面包括臨床操作和研發。利用大數據技術幫助醫療企業實現其業務的例子正在快速增多。
  • 數據可視化技術的應用,行業優秀案例分享
    數據可視化並不是什麼新型技術,二十世紀50年代電子計算機圖形學的初期,就可以利用軟體建立出了第一批圖形圖表。伴隨著近幾年來大數據備受關注,網際網路端數據剖析產品盛行。企業歷經前些年IT系統基本建設後累積了很多數據,包含業務流程數據、客戶數據、以及他第三方數據。
  • 辦公必備的大數據分析利器,數據分析工具推薦
    說到數據分析,很多小夥伴可能第一時間聯想到複雜的算法,龐大的數據,甚至是讓人眼花繚亂的代碼。但實際上,運營做數據分析並不需要懂這些,關鍵是你對業務流程的理解,以及用數據解決問題的思維。本文將介紹在一些領域被高頻率使用,且不可缺少的大數據分析利器,使用尚可的數據分析工具。
  • 開課啦 | 新課預告:大數據分析的營銷前沿應用
    MBA新課介紹大數據分析的營銷前沿應用任課教師/梁屹天大數據的出現使得營銷的科學化、精準化變得可能,而其中的核心就是數據分析。本課程將從一個微觀實踐的角度,以案例作為載體,講述數據分析在各種營銷場景下的前沿應用。雖然媒體大量的報導已經使得很多人默認了「數據分析」這個概念。但是,數據分析在營銷實踐中究竟是怎麼一回事?人們常說的「模型」和「算法」究竟是什麼?它們在營銷中如何落地,又面臨哪些挑戰?數據分析跟業務邏輯應該如何融合?
  • 常用的數據分析方法及案例講解
    常用的數據分析方法有描述統計、信度分析、相關分析、回歸分析、聚類分析等。本文將結合實際案例,為大家一一講解這些數據分析的方法。如果你想了解如何做數據分析,就接著看下去吧~描述性統計分析是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。這也是我們在日常生活最常用的一種數據分析方法,因此這裡就不再用案例展開講解了。2、信度分析信度即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。企業在招聘員工時會有一套性格測試題,這裡面就用到了信度分析。
  • 軍工研究所大數據應用分析
    通過網際網路、移動物聯網等帶來的低成本感知、高速移動連接、分布式計算和可視化分析,信息技術和工業系統正在深入融合,給工業帶來深刻的變革,創新企業的研發方式、生產方式、運營方式、營銷方式和管理方式。這些方式的創新,給不同行業的工業企業帶來了更快的速度、更高的效率和更高的洞察力。