...數據分析及生態系統分論壇:HBase、Spark、ES、Kylin及Octopus...

2020-12-13 CSDN技術社區

2015年12月10-12日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中國科學院計算技術研究所、北京中科天璣科技有限公司與CSDN共同協辦,以「數據安全、深度分析、行業應用」為主題的 2015中國大數據技術大會 (Big Data Technology Conference 2015,BDTC 2015)在北京新雲南皇冠假日酒店盛大開幕。

2015中國大數據技術大會第三天的大數據分析及生態系統分論壇中,來自Hortonworks、IBM、京東、百度、eBay、銀聯智惠和南京大學的七位專家介紹了大數據分析及生態系統的進展。本次論壇由清華大學計算機系副教授張廣豔主持。


清華大學計算機系副教授  張廣豔

Hortonworks技術員於志宏:Recent developments in HBase

Hortonworks技術員於志宏演講的題目是「Recent developments in HBase」。他從批量加載 HFile備份、端到端Offheap讀路徑優化、Slider上的HBase三部分詳細講解了HBase的最新進展。Replication中支持集群之間的數據同步,集群A可以把數據推送到集群B,集群B同樣可以把它的一些新的寫入再返回到集群A;同時支持循環複製;在表或者列級別上進行配置;它的實現是基於日誌推送;在災難恢復上,可以實現跨地域容災的要求。


Replication狀態存入ZooKeeper,預設路徑為:hbase/replication/peers。對於regionservers,對於每個ReplicationOverview會記錄伺服器的名字、埠,每一個ReplicationOverview可以向多個推送。對於Soure Cluster,有Batch、Bulk Load、Zookeeper,其中Bulk Load效率非常高。Region Server功能主要是協調。以前推送的只是寫入的這些數據,比如說Peer Cluster1接受寫入1,然後Peer2接受寫入2,但是黃色背景就沒有推送。HBase13153把以前的結構進行擴展,還有一些後續的工作要做。Cell在HBase應用已久,界面不容易改變。因此伺服器端引入了ByteBuffers,它只在伺服器端起作用,返回給用戶的時候,返回給客戶端的時候還是Cell。Cell在HBASE-13387升級擴展為為新的ByteBufferedCell。


Hortonworks技術員  於志宏

於志宏提到當有任務時,YARN生成一個集群,對於多租戶有兩種方案。YARN在集群運行其代碼,客戶端可創建AppMaster(AM),AM向YARN Node Manager申請容器。對於Registration,應用必須發布自身的URLs、Host/port、Config 等信息;動態集群內,需要使用Discovery查找空閒埠。不同的客戶端支持如果回調「數據」(thick clients)和可配置的網關(thinclients)。

對於監控,有Metrics和Alerts兩種方式。前者以時間度量、瞬時度量;後者是基於JMX/埠掃描/容器狀態或者Nagios的配置或其他警報機制。

接下來,他介紹了一些常見的故障處理,當應用組件出現問題時,組件實例需要重啟;當AppMaster出現故障時,需要YARN重啟AppMaster、Slider重構狀態、更新註冊表;當ResourceManager或者NodeManager出現故障時,應用不受影響。演講最後,於志宏提到HBase Replication的同步時間受很多因素的影響,比如帶寬等等。以前的Replication是直接把寫入進行推送,新加一個可複製HDFS,對網絡帶寬要求比較高。

IBM數據和分析事業部大中華區大數據產品總監洪建勳:Spark數據和設計迎巨變


IBM數據和分析事業部大中華區大數據產品總監洪建勳分享的是「Spark數據和設計迎巨變」。目前大數據整個生態趨勢是降低IT成本、數據存儲成本,走向數據倉庫扁平化、低成本化。客戶最關心的是東西怎麼去用,而非某項具體技術,由業務驅動技術的發展。他談到,儘管Spark技術已經出現兩三年之久,但是從目前實踐的角度上來看,並不成熟,IBM願同大家合作共同填補其中的坑。例如,IBM將機器學習庫SystemML開源給了Spark社區。

在國外,客戶聯手IBM和Spark開始創新,收集海量數據進行分析應用。首先用於慢性病預防方面,INDEPENDENCE利用Spark技術從幾百萬的病人數據裡面提取分析,進行發病的趨勢預測。另外與普惠公司合作,利用Hadoop和Spark等技術,對發動機運行狀況的分析和監測。這是機械控制和IT結合的領域,將數據分析傾向於製造業和工業。


IBM數據和分析事業部大中華區大數據產品總監  洪建勳

洪建勳表示,真正要做一個大數據的話實際上不只是單一的技術,還包含前端數據採集、預處理、數據倉庫等等。以及其中的實時處理、實時分析、後期的數據挖掘,甚至是中間的聯動環節、可視化處理,都需要用大數據來進行實現。IBM的大數據簡易分析框架由前端數據採集、預處理、數據挖掘、可視化分析組成。IBM SQL基於Hadoop技術,用戶可通過不同的方式訪問數據。IBM相關的雲方案:在IBM提供的雲環境下面,用戶可以得到IBM不同軟體的相關服務,其中Spark的也可以用雲的方式來做。

演講最後,他談到大數據的生態不僅僅是一個Hadoop或者Spark,開發者應重新利用舊的技術,不停地進行技術嫁接,發揮其更大的作用,這裡他舉了數據挖掘的例子加以證明。洪建勳表示IBM做大數據不僅僅是從技術層面出發,更多的是出於用戶的角度。企業應該考慮怎麼樣把IT轉換到真正發揮業務價值,這是非常重要的一點。離開業務價值談大數據那還不是真正的大數據。

京東集團雲平臺數據首席架構師杜宇甫:構建大數據生態環境

京東集團雲平臺數據首席架構師杜宇甫分享的題目是「構建大數據生態環境」。本次分享只要是從宏觀上面構建一個大數據生態。今天各個企業都很注重大數據,對於大數據積攢到今天,其實不是一蹴而就的,而是有一個漫長的累積過程。數據從最開始到最後,自古以來就數據產生的,由小數據到大數據的積攢,到目前為止經歷五次大的信息革命。


京東集團雲平臺數據首席架構師  杜宇甫

數據分析環節包括數據採集、存儲、建模、分析、應用。在數據採集階段業內使用的產品和技術:Flume(NG)、Sqoop、Scribe、Camus。Flume可以日誌文件搬運到計算機集群;數據存儲:可運行於通用硬體之上盤分布式存儲系統HDFS,其具有高吞吐量的超大文件處理能力且模型簡單一致。兼容MapReduce和Spark內存分布式存儲系統Tachyon:能提供插件式的底層文件系統和具有瀏覽文件系統的Web界面,並且具有高容錯性;數據建模分析中常用的SparkMLlib、Mahout機器學習和Spark GraphX、Neo4j圖計算方式;根據數據分析的使用場景,可以分為三種:批量處理資料庫的過程Batch、針對各種臨時的、自定義的需求採取的Ad-hoc解決方案、應用於實時性要求比較高的場景Streaming方案。

杜宇甫提到生態是指生物群落及其地理環境相互作用的自然系統,由無機環境生物的生產者、消費者以及分解者4部分組成。由生物群落和與之相互作用的自然環境以及其中的能量流過程構成的系統。生態的意義在於合作夥伴之間聯合作戰,實現共贏。


京東數據云系統依託京東公有雲穩定強大的IAAS底層服務系統,將公有云云存儲、雲資料庫等基礎設施做為數據存儲層。雲資料庫、雲存儲可做為數據源;雲資料庫、雲存儲可做為數據數據分析結果輸出目的地。京東數據集群(Big Data Service,BDS)使用Hadoop開源框架,支持自動配置集群並動態調整;支持離線數據處理和流式數據處理;目前主要應用於數據分析、挖掘、商業智能等領域。京東生態雲是用戶可用的雲服務:在上層提供分析工具;在雲端提供雲存儲、雲分析、雲海,提供開發者使用的數據集群以及實時分析。管理員可通過京東數據云管理數據網關。最後,他強調任何數據要有自己的市場,否則沒有任何價值。

百度大數據部高級研發工程師衣國壘:通過ElasticSearch進行大數據分析

百度大數據部高級研發工程師衣國壘演講主題是「通過ElasticSearch進行大數據分析」。分布式的架構ElasticSearch最初構建在Lucene搜尋引擎上,採用分布式索引和多副本高可靠的分布式的架構。近年來由全文檢索系統轉變為數據分析平臺。ElasticSearch最基本的結構Index類似於Database,是數據的物理管理方式。其中一個Index被劃分為多個Shard,每個Shard可以有多個副本,副本通過REST API來訪問;目前ElasticSearch存儲的數據格式實際上是Json文檔接,包括非結構化普通文本和半結構化日誌、郵件文檔。利用ID Hash來將數據劃分到各個Shard上,在導入時支持對文本進行分詞處理;查詢方面,ElasticSearch中採用用Json來描述查詢語句,同時支持MPP的方式查詢所有相關的Shard。


他認為ElasticSearch的興起與近年來的生態密不可分。目前ElasticSearch通過插件機制對底下各種數據源打通,推送到ElasticSearch中的數據目前已經能夠和Hadoop生態環境進行打通,做批量數據分析。同時它自身也可以做數據分析,像在線的查詢請求也可以通過ElasticSearch自身得到滿足,而不必依賴於離線高延時的處理系統。

ElasticSearch具有多維分析、實時性、易用性、Flexible Schema等優勢,支持Json格式的數據,支持嵌套、集合、父子關係多種模式。並且ES的單節點100GB/小時的加載能力滿足大部分需求。


百度大數據部高級研發工程師  衣國壘

百度在兩年前使用ElasticSearch,目前覆蓋百度內部40多個業務線;單集群每天導入30TB+數據,總共每天60TB+;單集群最大100臺機器,200個ElasticSearch節點;共使用近400臺機器,啟動700+ElasticSearch節點。在ElasticSearch實踐中:監控業務中採用動態欄位,按照一律接受或者一律拒絕的規則來接受、處理。同時使用冷熱數據分離進行數據數據寫入和數據遷移;OLTP業務集成中ElasticSearch可與RDBMS互補、融合使用;跨機房部署方案中部署一個跨機房的集群,使用zone aware的方式部署,同時強制一個Shard的各個Replica分布在多個機房裡。在MapTask機制、開放雲等方式,ElasticSearch也發揮了很大的作用。

eBay 軟體工程師、Apache Kylin PMC 成員仲儉:ApacheKylin的大數據可視化實踐


eBay 軟體工程師、Apache Kylin PMC 成員  仲儉

eBay 軟體工程師、Apache Kylin PMC 成員仲儉做了題為「ApacheKylin的大數據可視化實踐」的演講。Kylin是Hadoop平臺中OLAP,由eBay貢獻出來,於2014年10月正式開源;2014年11月加入Apache孵化器;2015年11月正式畢業成為Apache頂級項目。仲儉首先介紹了Kylin在京東的應用案例:在OLAP分析分析方面,能做到單個Cube最大維度16個、最大數據條數100億、最大存儲空間400G、 95%的查詢響應時間在15秒以內;原始明細數據查詢方面,能做到單個Cube最大維度8個、最大數據條數4億、最大存儲空間800G。30個Cube佔用總空間4T左右、查詢QPS在50左右、所有查詢平均響應時間200ms、 查詢QPS在200左右平均響應時間可以保持在1s以內。

仲儉隨後介紹了Apache Kylin RESTAPI,包括Hive Metadata、Cube、Job和Query。其中Hive Metadata又包括Get Hive Table、Get Hive Table(Extend Info)、Get Hive Tables、Load Hive Table。Kylin自帶有非常豐富的可視化的接口。本身UI裡面就有查詢界面,用戶可利用SQL查詢結果,列出表格包括對應趨勢圖、餅圖。利用Tableau,其它業務業務人員可以將自己的平臺與Kylin集成。Kylin同樣支持PowerBI、Excel等。


Kylin關鍵在於其提前計算,將顏色、大小等維度提出後由Hadoop進行處理。Apache Kylin 與 Zeppelin進行了整合和二次開發。開發人員可在Zeppelin架構下自行開發後端,僅需利用KylinInterpreter;同時Zeppelin上對應的語句,可在其他平臺上同樣運行。當業務用戶多維分析的時候有不同組合,數據模型相對比較固定,不管是年月日還是季度周的,Kylin 內部很多東西已經提前算好了,如果該組合不存在,Kylin可以進行實時計算加以實現。920多億數據情況下,90%的查詢在1.5秒以內。預計算不可避免的問題是模型固定,業務人員在分析某些數據的時候並不需要非常動態的做這些東西的,Kylin內部完全可以支撐動態數據模型,支持原數據在幾個維度或與新的數據組合。

銀聯智惠聯合創始人兼CTO龍凱:銀聯智惠消費大數據解決方案


銀聯智惠聯合創始人兼CTO  龍凱

銀聯智惠聯合創始人兼CTO龍凱給帶來的分享是「銀聯智惠消費大數據解決方案」。銀聯智惠數據挖掘技術框架:銀聯大數據平臺、數據預處理層、模型算法層、產品應用層。其中數據預處理層中採用了海量數據清洗技術、數據加密及脫敏技術、海量技術分層技術、數據整合技術。

銀聯智惠數據挖掘技術。一是基於邏輯回歸的消費軌跡預測模型:利用先驗知識與後驗規則結合的方法,構建決策樹模型,通過在海量刷卡數據中反覆迭代計算,最終實現對上億持卡人用戶畫像。二是基於聚類算法的商圈模型:基於消費者刷卡行為軌跡,利用統計方法,構建商戶距離矩陣;利用聚類算法,將附近商戶聚合成為商圈,從而支持城市熱門商圈分析、基於商圈的精準營銷等應用。


數據安全、數據隱私、數據產權是大數據產業鏈三大基礎。商業智能是指通過對數據的收集、管理、分析以及轉化,使數據成為可用的信息,從而獲得必要的洞察力和決策力,更好地輔助決策和指導行動。用戶畫像是一種勾畫目標用戶特徵、了解用戶訴求,以及指導產品設計及營銷的有效工具,用戶畫像在各領域得到了廣泛的應用。他詳解了用戶標籤實現過程:

  1. 用戶刷卡消費後將會產生一系列消費信息;
  2. 利用銀聯智惠用戶模擬器系列模型對用戶歷史消費特徵進行計算;
  3. 利用模型計算結果為用戶打上一系列消費特徵標籤;
  4. 通過數十個維度的特徵指標,對用戶群體進行消費特徵分析,幫助商戶勾勒出詳細的用戶群特徵。

智慧金融中,通過大數據分析客戶目標特點,實現信貸周期一體化解決方案。結合審批過程中由繁至簡的流程,為不同應用場景需求的客戶,提供金字塔形的數據挖掘成果。

智慧安全雲通過收集各類內外數據,利用Hadoop等基礎設施查詢、統計、分析,以雲基礎平臺為依託,構建集中資源池,實現不同用戶的虛擬資源隔離,提供穩定、高效、豐富的服務。

南京大學計算機系PASA大數據實驗室教授黃宜華:Octopus(大章魚):基於R語言的跨平臺大數據機器學習與數據分析系統


黃宜華認為大數據+機器學習是驅動全球網際網路企業的核心。大數據機器學習是一個同時涉及到機器學習和大數據處理兩個主要方面的交叉性研究課題。面向大數據複雜分析挖掘,現有的串行化機器學習與數據挖掘算法都需要重寫,進行並行化設計以及不同的大數據並行處理平臺上,各種大數據機器學習與數據挖掘算法需要進行基於特定平臺的並行化算法設計等問題的存在,迫切需要研究提供一種統一化並易於使用的大數據機器學習系統支撐平臺。

可通過系統抽象來降低大數據機器學習系統設計的複雜性,比如上層算法研究人員無需學習底層大數據處理系統平臺使用。目前基於主流大數據平臺的並行化機器學習算法/算法庫

基於Hadoop MapReduce和Spark、以及基於傳統的MPI並行計算框架等。這裡他舉了百度ELF與百度機器學習雲平臺BML和騰訊Peacock與Mariana深度學習平臺等實例加以說明。


Octopus是面向大數據的跨平臺統一MLDM編程模型、框架和系統平臺,針對不同平臺開發了不同的大規模矩陣運算庫。對於專業性程式設計師來說,提供一個跨平臺統一的大叔聚集起學習和數據分析編程方法和平臺,實現「Write once,run anywhere」的特性,以避免針對不同的大數據平臺重寫所有大數據起學習和數據分析算法。

大規模矩陣計算是機器學習與數據挖掘以及其他諸多計算問題的建模表示方法。該系統完成了大規模矩陣運算並行化計算方法和算法,實現了完整的大規模分布式矩陣運算庫,且具有良好的可擴展性。其中OctMatrix:一個基於R的大規模分布矩陣計算庫,提供高層和平臺獨立的分布矩陣計算操作和編程接口,允許從R語言程序中直接調用。

目前大章魚系統已經與Spark、Hadoop MapReduce、MPI以及最新的Flink系統無縫集成,並實現這些底層大數據平臺對上層程式設計師的完全透明性。該系統易於使用、基於矩陣模型的高層編程接口;具有Write Once、Run Anywhere的跨平臺特性;可提供基於矩陣模型的機器學習和數據挖掘算法庫;與標準R語言環境無縫集成。


南京大學計算機系PASA大數據實驗室教授  黃宜華

黃宜華最後提到,Octopus仍在擴展:第一個擴展,除了R語言也支持其他語言;第二個擴展,目前也在考慮支持表模型,綜合在該系統上,簡單分析和複雜分析都揉和在一個平臺上,然後進行綜合的分析。

更多精彩內容,請關注直播專題 2015中國大數據技術大會(BDTC),新浪微博@CSDN雲計算,訂閱CSDN大數據微信號。 

本文為CSDN原創文章,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)

相關焦點

  • 搞懂Hadoop、MapReduce、Hive、HBase、YARN及Spark的區別與聯繫
    hive 中的元數據,包括表的名字,表的列和分區及其屬性,表的屬性(是否為外部表等),表的數據所在目錄等。解釋器、編譯器、優化器、執行器解釋器、編譯器、優化器完成HQL 查詢語句,從詞法分析、語法分析、編譯、優化以及查詢計劃的生成。
  • Kylin Cube構建原理+調優
    比如員工數據,可以從性別角度來分析,也可以更加細化,從入職時間或者地區的維度來觀察。維度是一組離散的值,比如說性別中的男和女,或者時間維度上的每一個獨立的日期。因此在統計時可以將維度值相同的記錄聚合在一起,然後應用聚合函數做累加、平均、最大和最小值等聚合計算。度量:即被聚合(觀察)的統計值,也就是聚合運算的結果。比如說員工數據中不同性別員工的人數,又或者說在同一年入職的員工有多少。
  • 大數據基礎知識:Hadoop分布式系統介紹
    隨著智能化、萬物互聯時代的快速發展,數據量開始暴增,一方面我們需要開始思考如何高效可靠地存儲海量的數據,另一方面我們還需要對這些數據進行分析處理,以獲得更多有價值的信息。這時期我們就需要用到Hadoop了。
  • SHC:使用 Spark SQL 高效地讀寫 HBase
    Apache Spark 和 Apache HBase 是兩個使用比較廣泛的大數據組件。很多場景需要使用 Spark 分析/查詢 HBase 中的數據,而目前 Spark 內置是支持很多數據源的,其中就包括了 HBase,但是內置的讀取數據源還是使用了 TableInputFormat 來讀取 HBase 中的數據。
  • 經典面試題:ES如何做到億級數據查詢毫秒級返回?
    面試題es 在數據量很大的情況下(數十億級別)如何提高查詢效率啊?面試官心理分析這個問題是肯定要問的,說白了,就是看你有沒有實際幹過 es,因為啥?其實 es 性能並沒有你想像中那麼好的。其實,僅僅寫入 es 中要用來檢索的少數幾個欄位就可以了,比如說就寫入 es id,name,age 三個欄位,然後你可以把其他的欄位數據存在 mysql/hbase 裡,我們一般是建議用 es + hbase 這麼一個架構。
  • 大數據生態系統論壇(上):Hadoop、Spark交相輝映
    2014中國大數據技術大會第二日上午大數據生態系統論壇上,Databricks 軟體工程師、Apache Spark PMC成員孟祥瑞 ,美國俄亥俄州立大學計算機科學與工程系Senior Research Associate魯小億,華為Universe大數據平臺的架構師徐健鵬,Apache Hadoop和Tez項目PMC成員Bikas Saha,Intel Senior Software
  • Hive整合HBase完整筆記(親測)
    (1)測試數據文件創建測試文件course.csv第一列為課程名稱,第二列為課程分數(2)數據加載到HDFS在hdfs文件系統中創建hive-hbase目錄,並加載測試數據。查看hdfs文件目錄從查詢語句的執行結果可以看出,Hive表中的數據和hdfs上的數據一致。
  • Apache Spark大數據分析入門(一)
    Spark 概述Apache Spark是一個正在快速成長的開源集群計算系統,正在快速的成長。Apache Spark生態系統中的包和框架日益豐富,使得Spark能夠進行高級數據分析。Apache Spark的快速成功得益於它的強大功能和易於使用性。相比於傳統的MapReduce大數據分析,Spark效率更高、運行時速度更快。
  • JAVA 經典面試題:ES如何做到億級數據查詢毫秒級返回?
    其實,僅僅寫入 elasticsearch 中要用來檢索的少數幾個欄位就可以了,比如說就寫入 es id,name,age 三個欄位,然後你可以把其他的欄位數據存在 mysql/hbase 裡,我們一般是建議用 elasticsearch + hbase 這麼一個架構。
  • HBase調優 | HBase Compaction參數調優
    影響查詢效率進階: 這個值的設置還和業務數據的特點有關係,比如類似詳單雲系統,業務邏輯是 按月建表,每個月建一個表,rowkey是reverse(手機號碼)+時間戳 數據每3-5分鐘導入一次。相反如果是類似只查詢某段時間的日誌業務,查詢的數據都比較集中,也就是查詢只會發生在一個HFile或者相鄰的2個HFile 中。 此時合併文件,對查詢效率的提升影響不大。則可以將該值設置的大一些,減少合併對系統的影響。
  • Spark【面試】
    Spark【面試】1、簡答說一下hadoop的map-reduce編程模型首先map task會從本地文件系統讀取數據 export原理:根據要操作的表名生成一個java類,並讀取其元數據信息和分隔符對非結構化的數據進行匹配,多個map作業同時執行寫入關係型資料庫11、Hbase行健列族的概念,物理模型,表的設計原則?行健:是hbase表自帶的,每個行健對應一條數據。
  • HBase二級索引方案
    01 HBase簡介HBase是一個構建在HDFS之上,用於海量數據存儲分布式列存儲系統。Apache Phoenix: 功能圍繞著SQL on hbase,支持和兼容多個hbase版本, 二級索引只是其中一塊功能。 二級索引的創建和管理直接有SQL語法支持,使用起來很簡便, 該項目目前社區活躍度和版本更新迭代情況都比較好。
  • 數據分析工程師面試集錦5——Spark面試指南
    可以說Spark幾乎是企業搭建大數據平臺必備組件,作為數據分析工程師在工作中執行程序、調試程序、查詢數據都會和Spark打交道,所以對Spark知識的考察也就順理成章了。怎麼去準備Spark的面試?一般來說,分布式數據集的容錯性有兩種方式:數據檢查點和記錄數據的更新。 面向大規模數據分析,數據檢查點操作成本非常高,需要通過數據中心的網絡連接在機器之間複製龐大的數據集,而網絡帶寬往往比內存帶寬低得多,同時還需要消耗很多其它的存儲資源。因此,Spark選擇記錄更新的方式。
  • 大數據常見的數據框架你知道的有哪些呢?
    大數據的出現背景最初為谷歌提出的三篇關於大數據的論文,分別是GFS論文,MapReduce論文和BigTable論文。這三篇論文奠定了大數據發展的基礎。我們常見的大數據框架hadoop,flume,hive,kafka,hbase,pig,spark.等等這些大數據框架,所謂大數據生態系統的集群,就是由這些大數據組件組成的大數據生態系統,每一個組件都有在處理各種數據的特點以及它自己獨特的優點,這些組件的出現為大數據的快速發展提供了基礎。
  • 百度大數據三面題:shuffle過程+HBase+Spark優化+kmeans算法
    hadoop和spark的都是並行計算,那麼他們有什麼相同和區別呢?說一說Spark Streaming和Storm有何區別?kafka的數據存在內存還是磁碟Hive與關係型資料庫的關係?spark集群運算的模式簡單說一下hadoop的shuffle過程三面:(主要是算法原理)自我介紹說說你對大數據行業現狀的看法
  • 不拘一格降HBase,數據存儲的利器,學完摸清Google存儲套路——大數據課程更新09.01
    第七階段:分布式資料庫 HBase章節1:hbase第1章1:hbase介紹2:數據結構和存儲結構3:hbase架構014:hbase架構025:hbase高可用完全分布式搭建6:hbase客戶端常用操作7:hbase數據模型進階8:LSMTree9:大合併(major)和小合併(minor)10:hbase讀寫流程 章節2:hbase第2章11:創建表phone12:添加數據和根據
  • 深入淺出Hive數據傾斜
    我們日常使用HSQL的時候經常會遇到這樣一個令人苦惱的場景:執行一個非常簡單的SQL語句,任務的進度條長時間卡在99%,不確定還需多久才能結束,這種現象稱之為數據傾斜。這一現象經常出現的原因在於分析師主要關注分析邏輯和數據結果的正確性,卻很少關注SQL語句的執行過程與效率。
  • hadoop與數據挖掘的關係_區別_哪個好
    Hadoop是一個對海量數據進行處理的分布式系統架構,可以理解為Hadoop就是一個對大量的數據進行分析的工具,和其他組件搭配使用,來完成對大量數據的收集、存儲和計算。 下面就以hadoop教學實戰項目為例,為hadoop做一個詳細的解析:
  • 大數據分析工程師入門9-Spark SQL
    如果你想讓一個臨時視圖在所有session中相互傳遞並且可用,直到Spark 應用退出,你可以建立一個全局的臨時視圖,全局的臨時視圖存在於系統資料庫global_temp中,我們必須加上庫名去引用它。(rowRDD,schema)三不得不說的數據源在工作中使用Spark SQL進行處理數據的第一步就是讀取數據,Spark SQL通過統一的接口去讀取和寫入數據。
  • 大數據查詢——HBase讀寫設計與實踐
    AI 前線導語:本文介紹的項目主要解決 check 和 opinion2 張歷史數據表(歷史數據是指當業務發生過程中的完整中間流程和結果數據)的在線查詢。原實現基於 Oracle 提供存儲查詢服務,隨著數據量的不斷增加,在寫入和讀取過程中面臨性能問題,且歷史數據僅供業務查詢參考,並不影響實際流程,從系統結構上來說,放在業務鏈條上遊比較重。