百度實時計算平臺的實現和應用

2021-01-10 CSDN技術社區

「大數據」在網際網路行業中已是普遍現象,一家公司每天累積的用戶行為數據甚至已不能用TB來衡量。海量數據對實時分析和計算提出了更高的要求,實時處理程序必須確保在嚴格的時間內響應,通常以秒為單位,甚至是毫秒。傳統的批量計算模型已無法滿足這些要求,必須用專門的實時計算系統替代。當前,業界知名的實時計算系統有Google的MillWheel、Twitter開源的Storm、Spark Streaming等。

百度自主研發了國內規模最大的實時計算平臺——Dstream和TM。它們各有千秋,適用於不同的業務場景。Dstream旨在面向有向無環的數據處理流,滿足高時效性要求的計算業務場景(如實時CTR計算),可達到毫秒級的響應。TM則是queue-worker模式的準實時workflow計算系統,可滿足秒級到分鐘級響應,並具備transaction語義,流入平臺的數據即使在平臺發生故障的情況下,也能做到不重不丟。這一系統主要應用於低時延、高吞吐及對數據完整性要求極高的場景,如報表生成系統、計費流計算等。

百度實時計算平臺介紹

Dstream立項之初,業界還沒有類似的開源系統(Storm尚未正式推出),只能依靠研發團隊自己摸索。目前Dstream平臺的集群規模已超千臺,單集群最大處理數據量超過50TB/天,集群峰值QPS 193W/S,系統穩定性、計算能力已完全滿足海量數據時效性處理需求。即使與Storm相比,Dstream在系統成熟度、性能、穩定性等方面仍然優勢明顯,具體對比數據如表1所示。

TM平臺從2013年開始研發,目前集群規模為百臺級,單集群最大處理數據量超過30TB/天,最大QPS 20W/S。基於TM平臺實現的多路數據流式join解決方案,已具備超大時間窗流式join計算能力,時間窗可到「天」級別,保證數據不丟不重,達到了業界先進水平,並已應用於百度多條業務線的點擊日誌、展現日誌的join計算。

在TM平臺上,用戶構造一個作業描述文件來闡述各種worker之間的數據流向關係和每個worker所需的資源,通過client將作業提交給TM平臺,然後由TM調度並運行。TM平臺可利用公司空閒伺服器資源進行計算。系統具有以下幾個特性。

保證數據完整和時效。數據在處理過程中,保證不會出現重複和丟失,在保證join比例的情況下,最短時間內輸出給下遊使用。

容忍數據流的長時間跨度。不限制輸入數據流的時間延遲和跨度,通過引入可靠存儲系統來「存儲一種數據流,其餘數據流查詢」的方式,解決長時間跨度下數據join問題;對於時間跨度小的數據流,提供基於滑動窗口的內存join方式。

通用性。可以同時應對不同時間跨度的join,一般應用既需要時效性較高,又要求數據join比例不同,時效性也有所不同。通過引入多級重試join機制,系統同時滿足了這兩個需求。

高可靠性和高可運維。通過支持多集群備份、多機房備份等方案,保證系統的高可靠性。另外通過TM平臺管理應用拓撲、集群配置,支持配置動態更新、故障自動檢測等,增強系統的高可運維性。

實時計算平臺應用案例 日誌實時ETL

百度內部有統一的用戶數據倉庫,數據入庫的方式有兩種:一是通過基於Hadoop的ETL平臺批量定期入庫,二是直接通過實時計算系統實時入庫。其中實時入庫系統名為UDW–RT,它基於底層實時計算平臺二次開發,致力於為百度提供一個面向流的、實時的數據ETL平臺;通過設計和實現一個類SQL、可擴展的流運算系統,UDW–RT系統能為實時數據處理提供基礎設施和數據供給。

UDW-RT系統邏輯上可分為以下三層(如圖1)。

第一層為RT-importer,其職責是清洗、歸併、結構化從pipe系統導入的數據並映射成流,每個流可以被想像成是一個無限長的數據表。

第二層是RT-PE,負責執行流算子。通過應用流類SQL算子(目前只支持部分SQL操作,如union、filtering和projection等),可以生成一個或多個邏輯流;每個邏輯流都可被下遊零個或多個數據使用方訂閱。

第三層是RT系統的應用程式,被稱為RT-EXPORTER;數據使用方通過掛載RT-EXPORTER來進行數據消費。

實時競價RTB

TM平臺對RTB實時競價產生的兩路日誌進行join計算,以確定競價成功的廣告,計算後的輸出數據成為百度反作弊、CTR計算、計費等多個後端系統的入口。TM流式join架構支撐了RTB競價模式落地,滿足了廣告主對於內容投放提出的更精準、實時和程序化的要求。同時,通過TM平臺,百度網盟業務實現了前後端架構解耦,提升了系統健壯性和可擴展性,它由以下幾個主要部分組成(如圖2所示)。

Bigpipe:百度內部分布式消息發送訂閱系統,延遲低,並且能保證數據在傳輸過程中不重不丟。

Bundler:TM平臺訂閱Bigpipe數據的通用模塊,A_bundler和B_bundler表示訂閱不同的數據流。

Parser:數據解析模塊,主要將目前數據格式從文本轉化成PB。

Aggregator:文件聚合模塊,主要是將Parser產生的小文件聚合成大文件,減少文件個數。

Joiner:核心模塊,負責兩種數據流的join。採用基於滑動窗口的方式,保證數據流的流動和延遲,同時數據在窗口內部有序,使得單個joiner在輸出數據時有序。另外通過aggregator流控策略,可以保證各個joiner輸出數據時間戳相差不大,從而保證整體數據輸出亂序有限。

Appender:TM平臺向Bigpipe發布數據的模塊。這裡分了三路,分別表示A、B兩種數據流沒有join上的結果,以及join上的結果。

總結

基於實時計算平臺,百度已具備多種高時效性的數據處理解決方案,這些技術已在越來越多的應用場景中發揮出重要作用。未來,百度將繼續投入,深化對大數據實時計算架構及其關鍵技術的研究,進一步推動大數據實時計算理論、方法、技術與系統的應用與發展,以滿足更廣泛的市場需求和應用前景。

相關焦點

  • 百度框計算推出航班實時動態查詢
    首頁 > 動態 > 關鍵詞 > 航班最新資訊 > 正文 百度框計算推出航班實時動態查詢
  • 百度攜手新思科技實現「讓計算更加智能」
    新思科技(Synopsys, Inc.)近日宣布,將與百度持續深化合作,助力實現其「讓計算更加智能」的願景。百度人工智慧晶片「崑崙」已採用新思科技全流程解決方案。
  • 百度地圖再發新品:全國實時路況一目了然
    近日,百度地圖推出「實時路況平臺」,一方面支持實時查看全國高速擁堵趨勢變化和擁堵路段排行,另一方面,還提供熱門交通樞紐的人流指數分析和周邊擁堵情況,共同為返程期間公眾平安出行、政府及交通運輸單位提供大數據決策支持。
  • 打破量子計算"玄學"印象 百度加速量子科技實踐應用
    值得注意的是,今年八月InvestorPlace評選的全球未來十年值得買入的七大量子計算股票,百度同樣位列其中,可見全球資本與行業對百度量子計算市場前景十分看好,尤其在量子計算進入國家政策視野的特殊時期,百度無疑是重要的一枚"先手棋"。InvestorPlace也強調稱,百度在量子計算領域扮演著重要角色,是量子計算應用商業化的先驅企業。
  • 免費計算資源,百度一站式開發平臺:AI Studio零門檻實現AI能力
    2018 年 7 月 4 日-5 日,百度在國家會議中心舉辦第二屆 AI 開發者大會。在今年的開發者大會上,百度發布了 PaddlePaddle3.0,既升級了核心框架,又提供了 EasyDL 快速應用平臺、AutoDL 網絡結構自動化設計,以及 AI Studio 在線實訓平臺。
  • 百度祝恆書:百度智能招聘技術和應用實踐
    2020年8月29日,第18期「AI未來說·青年學術論壇」(「AI+X」領域專場)以「線上平臺直播+微信社群圖文直播」形式舉行。百度祝恆書帶來報告《百度智能招聘技術和應用實踐》。百度智能招聘技術和應用實踐首先,祝恆書博士向大家介紹了百度人才智庫團隊TIC,該團隊是專注於人才管理計算方向的AI和數據科學團隊,它通過人工智慧大數據的方法幫助企業實現人才管理模式的轉型,能夠幫助企業人才管理從經驗導向向大數據智能化導向變革。
  • 百度智能雲時空數據管理平臺亮相 打造一體化數據中臺
    產品架構圖  隨著5G時代的到來,物聯網技術極大地促進了智慧城市的建設與發展,伴隨而來的實時物聯數據的爆發增長以及地理空間的二維表達向三維精細化的展示轉化,BIM、CIM的發展與建設要求帶來了對空間數據顆粒度的提升以及覆蓋範圍的擴大,對海量、多源、異構的時空數據進行高效的管理、分析和挖掘成為了智慧城市的痛點問題。
  • 人民日報創作大腦背後的AI支撐:百度大腦智能創作平臺技術解密
    人民日報"創作大腦"具備直播智能拆條、在線視頻快編、圖片智能處理、智能字幕製作、可視化大數據、智能寫作、新聞轉視頻、實時新聞監測等18項重點功能,是集輕應用平臺、智慧媒體雲、知識社區、開放生態於一身的一站式智能創作平臺,能夠為媒體機構提供全媒體生態智能解決方案。人民日報"創作大腦"背後,是百度智能雲提供領先的雲+AI技術支持,尤其是來自百度大腦智能創作平臺的支持。
  • 百度智能雲推14款ABC新產品 覆蓋多應用最高降價50%
    4月11日,2019ABC INSPIRE百度雲智峰會上,百度副總裁、百度智能雲總經理尹世明宣布,「百度雲」品牌升級為「百度智能雲」,並發布了14款ABC新產品,升級百度智能視頻平臺和3大視頻行業解決方案。
  • 百度新首頁讓實時熱點更聚焦
    而與風雲榜同樣火熱的還有百度9月份上線的新首頁,尤其是在首頁醒目位置呈現的實時熱點,讓熱點事件第一時間呈現給網民。數據顯示,百度新首頁上線後,實時熱點的相關熱詞搜索量增長了接近90%。這一現象充分表明,實時熱點在新首頁的匯聚不但方便了網民了解每日熱點事件,同時也促進了熱點話題的傳播影響和擴散效率。
  • 生物計算平臺破殼而出,百度為生命科技發展提供新動能
    人工智慧在眾多領域得到廣泛應用,而生命科技與人工智慧、大數據融合成為醫學領域新方向與發展趨勢,這將為生物計算平臺公司釋放巨大機遇。因在人工智慧技術推動下,生命大數據將是醫學領域中的一個巨大飛躍,也使得「精準醫療」變為可能。近年來,我國也在積極推進精準醫學發展,使得精準醫療成為新風口。
  • 百度雲引領ABC+農業時代 實現「中國糧食、中國飯碗」
    ABC+農業時代,百度雲 引領農業轉型升級  網際網路+農業浪潮中,依託網際網路的信息技術和通信平臺,使農業減輕傳統行業中消息閉塞、流通受限制,農民分散經營,服務體系滯後等困難。百度雲ABC深入賦能農業,在網絡層、數據層、雲能力層、應用層等方面建立了完整的智慧農業解決方案體系。攜手中化農業,建設智能化農業生產過程管理平臺,推動智慧農業體系建立,深挖數據價值,加速傳統農業由經驗主導向數據主導的產業智變,共同打造智慧農業的實踐範本。  中化農業的"MAP智農」在百度雲的作用下,將先進的智能技術落地越來越多的應用場景。
  • 紅外圖像處理中平臺實時直方圖均衡器的SoC實現
    直方圖均衡器在增強目標的同時也放大了背景和噪聲信號,因此有人提出了平臺直方圖均衡算法,該算法能達到增強目標且較好地抑制背景和噪聲的目的[2,5],具有很大的應用價值。  傳統直方圖均衡和平臺直方圖均衡算法都具有計算量和存儲量大的缺點,不利於實時圖像處理應用。
  • 攜手國際AI領袖制定AI硬體全球標準OAI,百度發布超級AI計算平臺
    歐洲時間9月27日,在荷蘭阿姆斯特丹舉辦的2019 OCP Regional Summit 會議上,百度發布了業界首款支持 OAI(OpenAccelerator Infrastructure)標準和液冷散熱的超級 AI 計算平臺 X-MAN4.0。
  • 拯救手機內存 百度地圖公交查詢快應用獨家上線
    如果有不必安裝、一點即用的應用,為用戶提供高效便捷的使用體驗,那可真是值得打call。「快應用」就正在打響這樣一場「戰役」,百度地圖也是其中的參與者之一。近日,百度地圖正式與快應用聯盟達成合作,不僅成為獨家與其合作的地圖組件能力方,更率先推出首個地圖類快應用——公交查詢服務。
  • 【BDTC先睹為快】百度沈國龍:BML百度大規模機器學習雲平臺實踐
    在推薦系統論壇,本次大會邀請到了百度基礎架構部高級架構師沈國龍擔任演講嘉賓,進行題為「 BML百度大規模機器學習雲平臺實踐」的主題演講,分享百度機器學習平臺BML的底層框架實現,包括框架演進、算法研究過程等,以及在不同的業務場景下是如何應用這些算法。沈國龍在接受CSDN的會前採訪中表示,大數據其實是一個綜合學科,開發者需要具備多方面的知識儲備才能勝任。
  • 百度地圖遷徙大數據、全國實時路況平臺化身抗疫...
    近日,國際數據調研機構IDC發布《新冠肺炎疫情刺激數據智能市場跨越式前進》報告(以下簡稱「報告」),復盤2019-2020年COVID-19新冠肺炎疫情發展過程,並分析數據智能技術在疫情類重大公共應急事件中的全景應用。針對百度地圖的相關戰「疫」舉措,報告從時空大數據、POI數據及出行服務三個方面,解析其如何基於數據智能技術助力新冠肺炎疫情防控。
  • 實時精準!百度地圖推出實時公交功能,不怕加班錯過末班車
    近日,百度地圖與北京市交通委達成深度合作,在官方權威數據的支持下,百度地圖實時公交功能將提供更加精準的公交信息,大幅提高出行效率,避免乘客在冬日寒風中苦苦等待。  百度地圖可定位公交車的實時位置,精準計算到站時間,為用戶提供全面、精確的實時公交車信息。
  • 容器生態再進一步,百度智能雲正式支持Rancher Kubernetes平臺
    2019年8月21日,技術領先的雲計算服務平臺百度智能雲與全球領先的容器管理軟體提供商Rancher Labs正式宣布達成官方戰略合作,在Rancher開源版(v2.2.5及以上版本)和企業版中正式集成百度智能雲集群驅動。
  • 2021年計算行業機遇在「邊緣」:浪潮與百度聯手樹標杆
    據悉,該產品在硬體方面擁有數據中心級高可靠設計、環境適應力強且實現模塊化算力擴展,能夠滿足零售、旅遊、交通等行業應用場景的需求。在邊緣平臺方面,該產品部署了百度邊緣計算平臺及百度邊緣AI平臺,實現對分布在全國各地計算力的統一調度、管理,及資源的動態監控。看到浪潮與百度聯合發布百度邊緣計算盒子,許多人都感到疑惑,浪潮在伺服器領域深耕多年,目前已做到全球領先,中國第一。