聚焦數據架構前沿技術 快手大數據平臺架構技術交流會成功舉辦

2020-12-12 快科技

近日,快手數據平臺部聯合「快手中學」,專題舉辦「快手大數據平臺架構技術交流會」(Kuaishou Data Platform Architecture Conference),吸引了各行業數據相關開發者的參與。

從hadoop到spark,再到flink,從kylin到druid,再到clickhouse,從離線數倉到實時數倉架構,再到數據湖架構,近10多年中,大數據平臺架構經歷了快速演變。各大網際網路公司或藉助開源生態,或通過自研構建大數據架構系統,促進數據相關業務的價值挖掘與發展,為公司的戰略發展、產品改進、用戶增長帶來收益。

作為全球領先的生活分享社區,目前快手日活躍用戶超過 3 億,庫存短視頻數量超過 200 億條,直播日活超過 1.7 億,電商日活超過 1 億。在海量的 UGC 數據、業務數據、用戶數據背後,支撐快手數據業務的大數據平臺架構系統,經歷了幾個階段的高速發展。為此,交流會著重介紹了快手在大數據存儲、調度、計算上的技術挑戰、應用、演進與最佳實踐。

(▲交流現場)

本次交流採取線下線上結合的參會方式。交流會開放了部分線下參會名額,所有現場觀眾需佩戴口罩,確保測溫和健康寶狀態正常,在籤署健康聲明後方可入場,入會就座時也均保持了一定間隔。此外,交流全程還通過「快手APP」直播,觀看總人數超1.5萬人。

交流過程中,該場出品人之一、快手平臺研發&數據平臺負責人韋彬首先致辭。他介紹,快手大數據平臺的使命是以領先的大數據技術,激活數據價值,賦能業務,打造快手核心競爭力。大數據團隊從2011年創立之初沒有全職數據同學,到目前團隊已逐漸完備。在快手做大數據有四個特點,一是數據規模大,對數據治理的要求很高;二是數據驅動的文化深入人心,團隊一直致力於對標行業最好水平打造數據中臺;三是極度重視效率,確保數據平臺靈活可用;四是為滿足快手線上社區的場景,對數據的建模能力、應用能力都有極高要求。

(▲快手平臺研發&數據平臺負責人 韋彬)

第二位出品人、快手大數據架構團隊負責人趙健博介紹,快手大數據架構團隊的領域主要涉及六個方向,分別是:存儲系統、消息隊列、資源調度、實時引擎、離線引擎、OLAP引擎。近幾年,快手大數據架構的技術發展迅猛,從離線計算分析到實時計算,從大集群到超大集群,飛速迭代優化。

(▲快手大數據架構團隊負責人 趙健博)

隨後,來自快手的分布式存儲高級研發工程師徐增強、離線計算引擎方向負責人王磊、分布式消息隊列高級研發工程師陳春斌,以及騰訊數據平臺部數據湖研發負責人邵賽賽,分別帶來主題演講。

徐增強從數據規模、挑戰和實踐等幾個方面,對快手分布式HDFS系統進行了全方位解讀,並詳細介紹了快手EB級HDFS集群發展歷程中遇見一些核心問題的解決思路,如主節點擴展性問題、主節點處理能力瓶頸問題、節點熱點問題、重要任務的分級保障問題等。

王磊介紹了快手Hive元數據在億級分區規模的存儲使用上所面臨的總量多、增速快、壓力大等多方面挑戰,針對上述挑戰給出了快手所採取的系列優化措施,包括讀寫分離、API性能優化、流量分級控制、Federation水平擴容等,從而達到提升Hive元數據服務穩定性和性能的目標。

陳春斌介紹了快手Kafka在業務快速增長過程中遇到的集群擴容瓶頸、集群間資源利用率不均、業務接入效率低等問題,針對上述問題從集群水平擴展性和topic水平擴展性等方面對Kafka進行針對性改造,從而達到平滑支撐業務快速增長和提高資源利用率的目的。

邵賽賽從數據湖技術需要具備的能力,如何構建一個統一的數據湖存儲、並在其上進行多種形式的數據分析角度切入,介紹了Iceberg的設計初衷、優點及能力,使聽眾對表格式這一領域有了充分理解,並深入了解Iceberg的設計、實現、優勢以及使用方式。

(▲演講嘉賓合影:從左至右,分別為徐增強、陳春斌、邵賽賽、趙健博、王磊、李遠策)

快手以技術為核心競爭力,十分重視技術創新和應用,同時也希望通過更多更廣泛的技術交流,和業內開發者分享經驗,碰撞出更多智慧火花,推動技術不斷前進。「快手中學」作為內部專業人才培養平臺,旨在通過提供豐富多樣的專業課堂培訓、比賽、技術交流,助力人才成長,提升專業能力和專業影響力。

今年7—8月,「快手中學」曾聯合快手大前端團隊舉辦「快手大前端技術交流會2020」,受疫情影響僅做線上直播,而隨著疫情防控的逐步穩定,為了給觀眾帶來更好的交流互動體驗,本次技術交流首次開放了部分線下參會名額。未來,由「快手中學」舉辦的技術交流還將以每季度一次的頻次長期開展。

相關焦點

  • 大數據架構流程圖
    流程圖來源:ioDraw.com大數據管理數據處理過程圖大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察力。大數據處理的主要流程包括數據收集、數據存儲、數據處理、數據應用等主要環節。隨著業務的增長,大量和流程、規則相關的非結構化數據也爆發式增長。平臺數據架構流程圖標準大數據平臺架構,標準大數據平臺架構,大數據平臺架構,數據倉庫,數據集市,大數據平臺層級結構,數據挖掘,舉報,包含該模版的分享。
  • 大數據入門:HDFS架構演進之路
    Hadoop的核心三大組件之一,HDFS主要負責分布式文件存儲,將大規模的數據存儲任務拆分成小塊,分布到不同的機器上,從而以低成本的方式解決大數據存儲問題。今天的大數據入門分享,我們就主要來講講伴隨著Hadoop的迭代更新,HDFS架構是如何演進的。
  • SDCC深圳站之架構技術峰會講師團大公開
    兩場峰會大牛講師來自百度、騰訊、阿里、京東、小米、唯品會、滴滴出行、攜程等知名網際網路公司,共同探討高可用/高並發/高穩定/高流量的系統架構設計、秒殺系統架構、搜索架構、中小企業架構之道、數據平臺系統演進歷程和技術剖析、傳統資料庫與分布式資料庫選型/備份/恢復原理及優化實踐、大數據應用實戰等領域的熱點話題與技術。
  • 數據湖 VS 數據倉庫之爭?阿里提出大數據架構新概念:湖倉一體
    阿里雲EMR數據湖架構 企業使用數據湖技術構建大數據平臺,主要包括數據接入、數據存儲、計算和分析、數據管理、權限控制等,下圖是Gartner定義的一個參考架構。當前數據湖的技術因其架構的靈活性和開放性,在性能效率、安全控制以及數據治理上並不十分成熟,在面向企業級生產要求時還存在很大挑戰(在第四章會有詳細的闡述)。
  • 數據基礎架構如何演進,威騰電子有話說
    威騰電子公司副總裁兼中國區業務總經理劉鋼 也正因為如此,像威騰電子這樣聚焦在數據基礎架構的廠商,近年來力推創新存儲架構--分層存儲,通過更加精細化的管理與分層,以及多種組合來滿足應用的需求。例如,極熱存儲採用內存DRAM,熱存儲採用高性能SSD,溫存儲則採用主流的SSD/HDD,冷存儲適合採用傳統大容量企業級 HDD,極冷存儲則會考慮用SMR HDD來把一些隨機寫入變成順序寫入,更進一步地提高存儲的密度。 其次,具體到每一層存儲,都需要有更加創新的技術來支撐數據應用。
  • 「網絡技術控」數據中心網絡走向Spine-Leaf架構
    傳統的數據中心網絡一般基於核心層、匯聚層和接入層的三層設計,不少情況下,數據中心網絡會省去匯聚層,因為大部分的企業數據中心都是位於同一物理位置。所謂的大二層也多由生成樹協議控制。但是,隨著網絡協議和技術發展的進步和先進的軟體定義網絡(SDN)技術的結合,網絡架構師重新構想應該如何構建網絡。數據中心網絡所服務的是端到端的終端有效和快速的連接,因此考慮到端到端的高轉發速度和低延遲,那麼Spine-leaf網絡架構是更好的選擇。
  • 楊元慶:5G就是智能化時代產業架構和技術架構的前導性技術
    聯想集團董事長兼CEO楊元慶在論壇上演講時表示,任何新的架構的出現都與某個前導性技術或者前導性產品的出現是分不開的,5G就是這樣一個前導性的技術。楊元慶說,今年恰好處於科技大變革或者是工業革命這樣的一個交匯點上,如果說第三次工業革命就是信息化和數位化,(那麼)在這個過程中它為我們積累了豐富的數字、數據的資源,從而為我們進行第四次的工業革命,也就是智能化的變革提供了豐富的燃料。
  • SDCC 2017進駐上海共話架構、數據和運維
    成長固然沒有絕對的公式可循,但可以通過別人處事之道來啟發自己,而技術人也理應時刻為自己充電,從而有效地為自己的發展保駕護航。由CSDN主辦的內容型技術峰會中國軟體開發者大會(SDCC)將於2017年3月17日-19日進駐上海,包含三大主題技術峰會:網際網路運維開發實戰峰會、資料庫核心技術與應用實戰峰會、網際網路應用架構實戰峰會。
  • 基於中臺架構的「新」國土空間基礎信息平臺——六大關鍵技術能力
    引子:習近平總書記近日在浙江考察時指出,運用大數據、雲計算、區塊鏈、人工智慧等前沿技術推動城市管理手段、管理模式、管理理念創新,從數位化到智能化再到智慧化,讓城市更聰明一些、更智慧一些,是推動城市治理體系和治理能力現代化的必由之路。
  • 數據產品必備技術知識(1):數據倉庫之基本架構及ETL
    前言:元旦這兩天梳理了下之前數據倉庫的知識,發現對於理清自己的思路很有幫助。雖然是技術的範疇,但多了解這些對了解技術架構和產品基礎還是很有好處的。尤其到了新公司之後,對技術理解要求更高,Hadoop,Spark等一系列新興技術的原理和區別也需要有些初步概念。故整理出來和大家分享。
  • 技術中臺之移動平臺安全架構設計
    界面劫持界面劫持通俗點講就是做了一個和目標App完全一樣的頁面,通過技術手段讓目標app閃退,啟動木馬頁面,一旦用戶輸入帳號密碼,你的信息就會被竊取。1.3移動安全問題之開發工具攻擊大家還記得2015年的Xcode Ghost病毒嗎?該病毒波及眾多產品,其中不乏大公司的知名應用,也有不少金融類應用,還有諸多民生類應用。
  • 災備數據中心基礎設施與基礎網絡架構的思考
    從數據中心的重要性與影響範圍來看,金融業中的銀行,保險公司及公共服務領域的政府機關及IT運營商,能源交通領域等用戶將更關注災備數據中心的建設,此類行業的日常運作很大程度上依靠信息平臺,數據的安全性將成為企業生命。為了應對各種自然災難(火災、水災、地震等)和人為災難(誤操作、病毒等)對企業數據安全帶來的衝擊,災備數據中心的建設將是十分的必要。
  • 網易雲信流媒體首席架構師:新一代音視頻技術架構如何構建?
    前言5G 與 AI 時代已來,音視頻技術持續迭代升級,網易雲信推出了全新一代音視頻技術架構。新一代音視頻架構有哪些核心技術?各技術在線上場景又有哪些落地實踐方案?(3) 大數據與配置服務架構圖的右側是雲信的大數據與配置服務系統,其中全局大數據分析和挖掘系統,負責全鏈路採集的數據處理、告警和質量透明,並利用大數據挖掘的結果指導全鏈路各模塊算法和策略的制定。
  • 大數據關鍵技術淺談之大數據採集
    在前幾篇文章中,企通查為大家介紹了大數據處理的基本流程。從大數據的一系列處理過程中(抽取、集成、分析、解釋),我們可以發現這一整套流程中涵蓋了數據存儲、處理、應用等多方面的技術。 大數據價值的完美體現需要多種技術的協同。
  • 數字賦能生活服務業交流會成功舉辦,有桐科技迎來眾多企業數位化...
    來源標題:數字賦能生活服務業交流會成功舉辦,有桐科技迎來眾多企業數位化轉型急迫需求 11月27日,2020北京信息消費節「數字賦能生活服務業交流會」,在值得買科技總部成功舉辦。
  • Web後端伺服器架構原理及技術詳解
    第三點主要是指客戶端與資料庫之間的中間人,我們現在的客戶端與服務端的技術是使用標準的三層架構,分別為:客戶端、服務端、資料庫。多層架構主要針對伺服器端和資料庫端,Web伺服器:web伺服器一般只負責HTTP請求和轉發請求,不負責直接與資料庫交互,也不負責業務數據邏輯的處理過程。
  • 規模化機器學習崛起、「零信任」架構出現,2021九大技術趨勢
    企業的核心在於戰略工程化、激活核心系統、解放供應鏈,從而確保組織戰略和技術戰略協同、一致,方可成功。 二、 在人機互動方面,報告著眼於未來工作場所、數位化體驗趨勢以及支持多樣性、公平和包容的新技術。
  • 專業篇:數據科學與大數據技術——萬物分析的大數據
    大數據技術的意義不在於掌握龐大的數據信息,而在於對這些數據進行專業化處理,通過『加工』實現數據的『增值』,更好地輔助決策。」二、專業設置2015年9月國務院印發《促進大數據發展行動綱要》,系統部署大數據發展工作。當年,教育部公布在本科階段新增「數據科學與大數據技術」專業。
  • 愛數AnyRobot創新開放架構,釋放機器數據價值
    數位化時代,機器數據無處不在。在今天的在線研討會上,愛數AnyRobot推出創新開放的Hub架構,統一納管多源機器數據,助力IT運營化解機器數據管理難題,賦能數據驅動型組織業務創新發展。IT運營的機器數據分析場景需求也更為多樣。
  • 大數據架構變革進行時:為什麼騰訊看好開源 Apache Iceberg?
    隨著大數據存儲和處理需求越來越多樣化,如何構建一個統一的數據湖存儲,並在其上進行多種形式的數據分析,成了企業構建大數據生態的一個重要方向。如何快速、一致、原子性地在數據湖存儲上構建起 Data Pipeline,成了亟待解決的問題。