...數據分析及生態系統分論壇:HBase、Spark、ES、Kylin及Octopus...

2020-12-13 CSDN技術社區

2015年12月10-12日，由中國計算機學會（CCF）主辦，CCF大數據專家委員會承辦，中國科學院計算技術研究所、北京中科天璣科技有限公司與CSDN共同協辦，以「數據安全、深度分析、行業應用」為主題的 2015中國大數據技術大會（Big Data Technology Conference 2015，BDTC 2015）在北京新雲南皇冠假日酒店盛大開幕。

2015中國大數據技術大會第三天的大數據分析及生態系統分論壇中，來自Hortonworks、IBM、京東、百度、eBay、銀聯智惠和南京大學的七位專家介紹了大數據分析及生態系統的進展。本次論壇由清華大學計算機系副教授張廣豔主持。

清華大學計算機系副教授 張廣豔

Hortonworks技術員於志宏：Recent developments in HBase

Hortonworks技術員於志宏演講的題目是「Recent developments in HBase」。他從批量加載 HFile備份、端到端Offheap讀路徑優化、Slider上的HBase三部分詳細講解了HBase的最新進展。Replication中支持集群之間的數據同步，集群A可以把數據推送到集群B，集群B同樣可以把它的一些新的寫入再返回到集群A；同時支持循環複製；在表或者列級別上進行配置；它的實現是基於日誌推送；在災難恢復上，可以實現跨地域容災的要求。

Replication狀態存入ZooKeeper，預設路徑為：hbase/replication/peers。對於regionservers，對於每個ReplicationOverview會記錄伺服器的名字、埠，每一個ReplicationOverview可以向多個推送。對於Soure Cluster，有Batch、Bulk Load、Zookeeper，其中Bulk Load效率非常高。Region Server功能主要是協調。以前推送的只是寫入的這些數據，比如說Peer Cluster1接受寫入1，然後Peer2接受寫入2，但是黃色背景就沒有推送。HBase13153把以前的結構進行擴展，還有一些後續的工作要做。Cell在HBase應用已久，界面不容易改變。因此伺服器端引入了ByteBuffers，它只在伺服器端起作用，返回給用戶的時候，返回給客戶端的時候還是Cell。Cell在HBASE-13387升級擴展為為新的ByteBufferedCell。

Hortonworks技術員 於志宏

於志宏提到當有任務時，YARN生成一個集群，對於多租戶有兩種方案。YARN在集群運行其代碼，客戶端可創建AppMaster（AM），AM向YARN Node Manager申請容器。對於Registration，應用必須發布自身的URLs、Host/port、Config 等信息；動態集群內，需要使用Discovery查找空閒埠。不同的客戶端支持如果回調「數據」（thick clients）和可配置的網關（thinclients）。

對於監控，有Metrics和Alerts兩種方式。前者以時間度量、瞬時度量；後者是基於JMX/埠掃描/容器狀態或者Nagios的配置或其他警報機制。

接下來，他介紹了一些常見的故障處理，當應用組件出現問題時，組件實例需要重啟；當AppMaster出現故障時，需要YARN重啟AppMaster、Slider重構狀態、更新註冊表；當ResourceManager或者NodeManager出現故障時，應用不受影響。演講最後，於志宏提到HBase Replication的同步時間受很多因素的影響，比如帶寬等等。以前的Replication是直接把寫入進行推送，新加一個可複製HDFS，對網絡帶寬要求比較高。

IBM數據和分析事業部大中華區大數據產品總監洪建勳：Spark數據和設計迎巨變

IBM數據和分析事業部大中華區大數據產品總監洪建勳分享的是「Spark數據和設計迎巨變」。目前大數據整個生態趨勢是降低IT成本、數據存儲成本，走向數據倉庫扁平化、低成本化。客戶最關心的是東西怎麼去用，而非某項具體技術，由業務驅動技術的發展。他談到，儘管Spark技術已經出現兩三年之久，但是從目前實踐的角度上來看，並不成熟，IBM願同大家合作共同填補其中的坑。例如，IBM將機器學習庫SystemML開源給了Spark社區。

在國外，客戶聯手IBM和Spark開始創新，收集海量數據進行分析應用。首先用於慢性病預防方面，INDEPENDENCE利用Spark技術從幾百萬的病人數據裡面提取分析，進行發病的趨勢預測。另外與普惠公司合作，利用Hadoop和Spark等技術，對發動機運行狀況的分析和監測。這是機械控制和IT結合的領域，將數據分析傾向於製造業和工業。

IBM數據和分析事業部大中華區大數據產品總監 洪建勳

洪建勳表示，真正要做一個大數據的話實際上不只是單一的技術，還包含前端數據採集、預處理、數據倉庫等等。以及其中的實時處理、實時分析、後期的數據挖掘，甚至是中間的聯動環節、可視化處理，都需要用大數據來進行實現。IBM的大數據簡易分析框架由前端數據採集、預處理、數據挖掘、可視化分析組成。IBM SQL基於Hadoop技術，用戶可通過不同的方式訪問數據。IBM相關的雲方案：在IBM提供的雲環境下面，用戶可以得到IBM不同軟體的相關服務，其中Spark的也可以用雲的方式來做。

演講最後，他談到大數據的生態不僅僅是一個Hadoop或者Spark，開發者應重新利用舊的技術，不停地進行技術嫁接，發揮其更大的作用，這裡他舉了數據挖掘的例子加以證明。洪建勳表示IBM做大數據不僅僅是從技術層面出發，更多的是出於用戶的角度。企業應該考慮怎麼樣把IT轉換到真正發揮業務價值，這是非常重要的一點。離開業務價值談大數據那還不是真正的大數據。

京東集團雲平臺數據首席架構師杜宇甫：構建大數據生態環境

京東集團雲平臺數據首席架構師杜宇甫分享的題目是「構建大數據生態環境」。本次分享只要是從宏觀上面構建一個大數據生態。今天各個企業都很注重大數據，對於大數據積攢到今天，其實不是一蹴而就的，而是有一個漫長的累積過程。數據從最開始到最後，自古以來就數據產生的，由小數據到大數據的積攢，到目前為止經歷五次大的信息革命。

京東集團雲平臺數據首席架構師杜宇甫

數據分析環節包括數據採集、存儲、建模、分析、應用。在數據採集階段業內使用的產品和技術：Flume(NG)、Sqoop、Scribe、Camus。Flume可以日誌文件搬運到計算機集群；數據存儲：可運行於通用硬體之上盤分布式存儲系統HDFS，其具有高吞吐量的超大文件處理能力且模型簡單一致。兼容MapReduce和Spark內存分布式存儲系統Tachyon：能提供插件式的底層文件系統和具有瀏覽文件系統的Web界面，並且具有高容錯性；數據建模分析中常用的SparkMLlib、Mahout機器學習和Spark GraphX、Neo4j圖計算方式；根據數據分析的使用場景，可以分為三種：批量處理資料庫的過程Batch、針對各種臨時的、自定義的需求採取的Ad-hoc解決方案、應用於實時性要求比較高的場景Streaming方案。

杜宇甫提到生態是指生物群落及其地理環境相互作用的自然系統，由無機環境生物的生產者、消費者以及分解者4部分組成。由生物群落和與之相互作用的自然環境以及其中的能量流過程構成的系統。生態的意義在於合作夥伴之間聯合作戰，實現共贏。

京東數據云系統依託京東公有雲穩定強大的IAAS底層服務系統，將公有云云存儲、雲資料庫等基礎設施做為數據存儲層。雲資料庫、雲存儲可做為數據源；雲資料庫、雲存儲可做為數據數據分析結果輸出目的地。京東數據集群（Big Data Service，BDS）使用Hadoop開源框架，支持自動配置集群並動態調整；支持離線數據處理和流式數據處理；目前主要應用於數據分析、挖掘、商業智能等領域。京東生態雲是用戶可用的雲服務：在上層提供分析工具；在雲端提供雲存儲、雲分析、雲海，提供開發者使用的數據集群以及實時分析。管理員可通過京東數據云管理數據網關。最後，他強調任何數據要有自己的市場，否則沒有任何價值。

百度大數據部高級研發工程師衣國壘：通過ElasticSearch進行大數據分析

百度大數據部高級研發工程師衣國壘演講主題是「通過ElasticSearch進行大數據分析」。分布式的架構ElasticSearch最初構建在Lucene搜尋引擎上，採用分布式索引和多副本高可靠的分布式的架構。近年來由全文檢索系統轉變為數據分析平臺。ElasticSearch最基本的結構Index類似於Database，是數據的物理管理方式。其中一個Index被劃分為多個Shard，每個Shard可以有多個副本，副本通過REST API來訪問；目前ElasticSearch存儲的數據格式實際上是Json文檔接，包括非結構化普通文本和半結構化日誌、郵件文檔。利用ID Hash來將數據劃分到各個Shard上，在導入時支持對文本進行分詞處理；查詢方面，ElasticSearch中採用用Json來描述查詢語句，同時支持MPP的方式查詢所有相關的Shard。

他認為ElasticSearch的興起與近年來的生態密不可分。目前ElasticSearch通過插件機制對底下各種數據源打通，推送到ElasticSearch中的數據目前已經能夠和Hadoop生態環境進行打通，做批量數據分析。同時它自身也可以做數據分析，像在線的查詢請求也可以通過ElasticSearch自身得到滿足，而不必依賴於離線高延時的處理系統。

ElasticSearch具有多維分析、實時性、易用性、Flexible Schema等優勢，支持Json格式的數據，支持嵌套、集合、父子關係多種模式。並且ES的單節點100GB/小時的加載能力滿足大部分需求。

百度大數據部高級研發工程師衣國壘

百度在兩年前使用ElasticSearch，目前覆蓋百度內部40多個業務線；單集群每天導入30TB+數據，總共每天60TB+；單集群最大100臺機器，200個ElasticSearch節點；共使用近400臺機器，啟動700+ElasticSearch節點。在ElasticSearch實踐中：監控業務中採用動態欄位，按照一律接受或者一律拒絕的規則來接受、處理。同時使用冷熱數據分離進行數據數據寫入和數據遷移；OLTP業務集成中ElasticSearch可與RDBMS互補、融合使用；跨機房部署方案中部署一個跨機房的集群，使用zone aware的方式部署，同時強制一個Shard的各個Replica分布在多個機房裡。在MapTask機制、開放雲等方式，ElasticSearch也發揮了很大的作用。

eBay 軟體工程師、Apache Kylin PMC 成員仲儉：ApacheKylin的大數據可視化實踐

eBay 軟體工程師、Apache Kylin PMC 成員仲儉

eBay 軟體工程師、Apache Kylin PMC 成員仲儉做了題為「ApacheKylin的大數據可視化實踐」的演講。Kylin是Hadoop平臺中OLAP，由eBay貢獻出來，於2014年10月正式開源；2014年11月加入Apache孵化器；2015年11月正式畢業成為Apache頂級項目。仲儉首先介紹了Kylin在京東的應用案例：在OLAP分析分析方面，能做到單個Cube最大維度16個、最大數據條數100億、最大存儲空間400G、 95%的查詢響應時間在15秒以內；原始明細數據查詢方面，能做到單個Cube最大維度8個、最大數據條數4億、最大存儲空間800G。30個Cube佔用總空間4T左右、查詢QPS在50左右、所有查詢平均響應時間200ms、查詢QPS在200左右平均響應時間可以保持在1s以內。

仲儉隨後介紹了Apache Kylin RESTAPI，包括Hive Metadata、Cube、Job和Query。其中Hive Metadata又包括Get Hive Table、Get Hive Table(Extend Info)、Get Hive Tables、Load Hive Table。Kylin自帶有非常豐富的可視化的接口。本身UI裡面就有查詢界面，用戶可利用SQL查詢結果，列出表格包括對應趨勢圖、餅圖。利用Tableau，其它業務業務人員可以將自己的平臺與Kylin集成。Kylin同樣支持PowerBI、Excel等。

Kylin關鍵在於其提前計算，將顏色、大小等維度提出後由Hadoop進行處理。Apache Kylin 與 Zeppelin進行了整合和二次開發。開發人員可在Zeppelin架構下自行開發後端，僅需利用KylinInterpreter；同時Zeppelin上對應的語句，可在其他平臺上同樣運行。當業務用戶多維分析的時候有不同組合，數據模型相對比較固定，不管是年月日還是季度周的，Kylin 內部很多東西已經提前算好了，如果該組合不存在，Kylin可以進行實時計算加以實現。920多億數據情況下，90%的查詢在1.5秒以內。預計算不可避免的問題是模型固定，業務人員在分析某些數據的時候並不需要非常動態的做這些東西的，Kylin內部完全可以支撐動態數據模型，支持原數據在幾個維度或與新的數據組合。

銀聯智惠聯合創始人兼CTO龍凱：銀聯智惠消費大數據解決方案

銀聯智惠聯合創始人兼CTO 龍凱

銀聯智惠聯合創始人兼CTO龍凱給帶來的分享是「銀聯智惠消費大數據解決方案」。銀聯智惠數據挖掘技術框架：銀聯大數據平臺、數據預處理層、模型算法層、產品應用層。其中數據預處理層中採用了海量數據清洗技術、數據加密及脫敏技術、海量技術分層技術、數據整合技術。

銀聯智惠數據挖掘技術。一是基於邏輯回歸的消費軌跡預測模型：利用先驗知識與後驗規則結合的方法，構建決策樹模型，通過在海量刷卡數據中反覆迭代計算，最終實現對上億持卡人用戶畫像。二是基於聚類算法的商圈模型：基於消費者刷卡行為軌跡，利用統計方法，構建商戶距離矩陣；利用聚類算法，將附近商戶聚合成為商圈，從而支持城市熱門商圈分析、基於商圈的精準營銷等應用。

數據安全、數據隱私、數據產權是大數據產業鏈三大基礎。商業智能是指通過對數據的收集、管理、分析以及轉化，使數據成為可用的信息，從而獲得必要的洞察力和決策力，更好地輔助決策和指導行動。用戶畫像是一種勾畫目標用戶特徵、了解用戶訴求，以及指導產品設計及營銷的有效工具，用戶畫像在各領域得到了廣泛的應用。他詳解了用戶標籤實現過程：

用戶刷卡消費後將會產生一系列消費信息；
利用銀聯智惠用戶模擬器系列模型對用戶歷史消費特徵進行計算；
利用模型計算結果為用戶打上一系列消費特徵標籤；
通過數十個維度的特徵指標，對用戶群體進行消費特徵分析，幫助商戶勾勒出詳細的用戶群特徵。

智慧金融中，通過大數據分析客戶目標特點，實現信貸周期一體化解決方案。結合審批過程中由繁至簡的流程，為不同應用場景需求的客戶，提供金字塔形的數據挖掘成果。

智慧安全雲通過收集各類內外數據，利用Hadoop等基礎設施查詢、統計、分析，以雲基礎平臺為依託，構建集中資源池，實現不同用戶的虛擬資源隔離，提供穩定、高效、豐富的服務。

南京大學計算機系PASA大數據實驗室教授黃宜華：Octopus(大章魚）:基於R語言的跨平臺大數據機器學習與數據分析系統

黃宜華認為大數據+機器學習是驅動全球網際網路企業的核心。大數據機器學習是一個同時涉及到機器學習和大數據處理兩個主要方面的交叉性研究課題。面向大數據複雜分析挖掘，現有的串行化機器學習與數據挖掘算法都需要重寫，進行並行化設計以及不同的大數據並行處理平臺上，各種大數據機器學習與數據挖掘算法需要進行基於特定平臺的並行化算法設計等問題的存在，迫切需要研究提供一種統一化並易於使用的大數據機器學習系統支撐平臺。

可通過系統抽象來降低大數據機器學習系統設計的複雜性，比如上層算法研究人員無需學習底層大數據處理系統平臺使用。目前基於主流大數據平臺的並行化機器學習算法/算法庫

基於Hadoop MapReduce和Spark、以及基於傳統的MPI並行計算框架等。這裡他舉了百度ELF與百度機器學習雲平臺BML和騰訊Peacock與Mariana深度學習平臺等實例加以說明。

Octopus是面向大數據的跨平臺統一MLDM編程模型、框架和系統平臺，針對不同平臺開發了不同的大規模矩陣運算庫。對於專業性程式設計師來說，提供一個跨平臺統一的大叔聚集起學習和數據分析編程方法和平臺，實現「Write once，run anywhere」的特性，以避免針對不同的大數據平臺重寫所有大數據起學習和數據分析算法。

大規模矩陣計算是機器學習與數據挖掘以及其他諸多計算問題的建模表示方法。該系統完成了大規模矩陣運算並行化計算方法和算法，實現了完整的大規模分布式矩陣運算庫，且具有良好的可擴展性。其中OctMatrix：一個基於R的大規模分布矩陣計算庫，提供高層和平臺獨立的分布矩陣計算操作和編程接口，允許從R語言程序中直接調用。

目前大章魚系統已經與Spark、Hadoop MapReduce、MPI以及最新的Flink系統無縫集成，並實現這些底層大數據平臺對上層程式設計師的完全透明性。該系統易於使用、基於矩陣模型的高層編程接口；具有Write Once、Run Anywhere的跨平臺特性；可提供基於矩陣模型的機器學習和數據挖掘算法庫；與標準R語言環境無縫集成。

南京大學計算機系PASA大數據實驗室教授黃宜華

黃宜華最後提到，Octopus仍在擴展：第一個擴展，除了R語言也支持其他語言；第二個擴展，目前也在考慮支持表模型，綜合在該系統上，簡單分析和複雜分析都揉和在一個平臺上，然後進行綜合的分析。

更多精彩內容，請關注直播專題 2015中國大數據技術大會(BDTC)，新浪微博@CSDN雲計算，訂閱CSDN大數據微信號。

本文為CSDN原創文章，未經允許不得轉載，如需轉載請聯繫market#csdn.net(#換成@)

...數據分析及生態系統分論壇:HBase、Spark、ES、Kylin及Octopus...

相關焦點

搞懂Hadoop、MapReduce、Hive、HBase、YARN及Spark的區別與聯繫

Kylin Cube構建原理+調優

大數據基礎知識:Hadoop分布式系統介紹

SHC:使用 Spark SQL 高效地讀寫 HBase

經典面試題:ES如何做到億級數據查詢毫秒級返回?

大數據生態系統論壇(上):Hadoop、Spark交相輝映

Hive整合HBase完整筆記(親測)

Apache Spark大數據分析入門(一)

JAVA 經典面試題:ES如何做到億級數據查詢毫秒級返回?

HBase調優 | HBase Compaction參數調優

Spark【面試】

HBase二級索引方案

數據分析工程師面試集錦5——Spark面試指南

大數據常見的數據框架你知道的有哪些呢?

百度大數據三面題:shuffle過程+HBase+Spark優化+kmeans算法

不拘一格降HBase,數據存儲的利器,學完摸清Google存儲套路——大數據課程更新09.01

深入淺出Hive數據傾斜

hadoop與數據挖掘的關係_區別_哪個好

大數據分析工程師入門9-Spark SQL

大數據查詢——HBase讀寫設計與實踐