【IT168 SACC現場報導】在數位化轉型時代,雲已成為萬物智能的數位化大腦。而隨著大數據應用、人工智慧、移動網際網路等技術的飛速發展,「智慧+」的概念正在深入到各行各業,提升企業效率,釋放商業潛能,創造全新機遇。作為國內頂級技術盛會之一,2017中國系統架構師大會(SACC2017)將於10月19-21日在北京新雲南皇冠假日酒店震撼來襲。
大會第三日,搜狗雲平臺資深高級開發工程師申賢強針對HDFS 當集群擴大一定階段後需要應對的問題,以及具體的 Fedration 的技術,針對 YARN 改進彈性計算框架改進可能遇到的問題做了分享。
申賢強,2012 年 7 月畢業於中科院計算所,2012 年 7 月—2013 年 7 月,百度,網頁搜索部,分布式架構開發,2013 年 7 月—至今,搜狗,大數據平臺部,主要負責 Hadoop,HBase,Docker 等基礎平臺的開發和建設,以及提供一站式數據分析服務。
申賢強認為,基於社區的 HDFS 進行元信息的垂直擴展,且進一步優化針對二級目錄的拆分,讓 HDFS 的元數據更加均勻,降低 GC time,提升 HDFS 穩定性到 99.99%,同時業務發展制約於計算資源的缺乏,因此採用離線混布的計算模型,將資源進行統一管理,提供穩定高效的服務,極大的解決了業務方資源不足的問題。
關於搜狗雲分布式存儲與離線混部彈性計算平臺,是基於Apache Hadoop生態,建設搜狗海量數據存儲和計算平臺,能夠提供穩定高效的數據分析系統,為搜狗各類型大數據應用,提供一站式數據處理服務 。每天數十億的數據增量,數以萬計的數據計算流程,使數據的價值得到充分利用,作為前沿技術落地及推進開源技術的發展起到了重要作用。
對於當初的技術選型階段,申賢強吐露,通過考察國內外主流企業和網際網路企業,為了實現集群的無限擴容,提供高性能、高可用,搜狗雲借鑑和自研的垂直擴展Hadoop元信息的技術,即社區的Fedration方案,將集群的管理能力擴展到理論無上限,且保持高性能,穩定性達到99.99%。
申賢強介紹,搜狗雲在分布式存儲優化方面,主要分為HDFS Fedration、NameService拆分、FastCopy、等切分、拆分和優化部分,優化後Master的性能和吞吐提升3倍 ,計算性能提升12%以上 ,SLA水平到達99.99%。
搜狗雲彈性計算平臺的構建背景主要源於資源需求在增加,但資源的整體利用率卻不高、解決實際業務資源不足問題,CPU等資源利用率低。
C/S業務彈性計算—總體流程包括:Driver精細的資源控制,Docker環境隔離 ,YARN自動化資源控制 ,基於時間/負載的資源調度。在基於負載調度方面,Driver收集CPU/Mem/Net/Disk負載,負載超過閾值Driver Kill Service ,Driver將負載信息上報給LocateServer ,NodeManager將負載上報給RM ,RM根據負載進行資源調度 ,LocateServer根據負載返回Service Client 在不影響集群原有服務,以提高集群的利用率。
在集群統一管理優勢是提高並均衡集群利用率,解決業務方資源不足的問題以及節約成本,提高online業務的SLA水平。
▲更多精彩請點擊:http://sacc.it168.com/topic2017/