揭秘騰訊大數據十年發展歷程:從關係型資料庫到分布式機器學習

2021-01-17 TechWeb

【TechWeb】10月18日消息,近日,騰訊大數據團隊詳細披露了騰訊大數據十年發展歷程,並全面展示了騰訊第三代全棧機器學習平臺Angel在大模型數據訓練、深度學習、圖計算等方面的技術能力。

據騰訊大數據負責人劉煜宏介紹,騰訊大數據從2009年開始, 經歷離線計算、實時計算與機器學習三個階段,2009年之前,騰訊主要使用傳統的關係型資料庫。2009年開始,傳統的單機資料庫所提供的服務,在系統可擴展性、性價比方面已不再適用騰訊業務爆發式的增長。面對這種變化,騰訊大數據轉向分布式,基於開源的Hadoop體系,構建了騰訊第一代大數據平臺,並建設離線計算平臺,主要發力規模化。騰訊大數據由此進入第一階段。三年裡,騰訊實現了從關係型資料庫到自建大數據平臺的全面遷移,到2012年,騰訊大數據的單集群規模突破了4400臺。

2012年,移動網際網路爆發,應對業務數據統計及時性、快速性的需求,騰訊大數據從Hadoop轉向Spark和Storm體系,在吸收開源技術的基礎上,結合騰訊自身的需求進行重寫,探索流式計算、秒級採集系統的建設,構建企業級的實時數據分析體系,騰訊大數據發展進入第二階段。

2015年至今,騰訊大數據邁入了第三階段。隨著數據挖掘、數據應用的深入,騰訊大數據再次自我迭代,於2016年推出了自研機器學習平臺Angel,專攻複雜計算場景,可進行大規模的數據訓練,支撐內容推薦、廣告推薦等AI應用場景。它由騰訊與北京大學聯合研發,兼顧了工業界的高可用性和學術界的創新性。

據騰訊Angel開發負責人肖品介紹,騰訊Angel從騰訊海量業務場景中而來,是超大樣本和超高維度的機器學習平臺。如今,Angel已在QQ、微信支付、騰訊廣告、騰訊視頻等騰訊旗下產品中廣泛應用,並向微眾銀行等行業合作夥伴全面開放,普遍適用於智能推薦、金融風險評估等圖計算業務場景。

2017年,騰訊Angel就正式開源。2018年8月,騰訊將Angel捐贈給Linux旗下專注人工智慧的LF AI基金會,結合基金會成熟的運營,全面升級的 Angel與國際開源社區深入互動,致力於讓機器學習技術更易於上手研究及應用。

相關焦點

  • 國產資料庫的春天已經來臨,騰訊雲資料庫展示「雲+數據」成果
    11月20日,2020數據技術嘉年華(DTC)十周年慶典在京舉辦,圍繞 「開源自研、智能運維、智能自治、新基建、用戶實踐」五大模塊展開探討。會上,騰訊雲資料庫副總經理王義成回顧並展示了騰訊雲資料庫過往十年的發展歷程與成績,進一步揭示了未來十年資料庫的發展趨勢與目標。
  • 騰訊披露大數據平臺技術演進歷程:14次升級 每日數據計算量超30萬億
    11月6日消息,在Techo開發者大會上,騰訊雲副總裁、騰訊數據平臺部總經理蔣傑正式對外披露騰訊大數據平臺10年技術演進歷程。騰訊雲副總裁、騰訊數據平臺部總經理蔣傑蔣傑指出,經過10年的積累,騰訊大數據平臺的算力資源池目前已有超過20萬臺的規模,每天實時數據計算量超過30萬億條。並且每天數據接入條數達35萬億條數據。此外,騰訊雲的分布式機器學習平臺,能支撐1萬億維度的數據訓練。
  • 青雲QingCloud上線分布式關係型資料庫PolonDB
    來源:TechWeb.com.cn【TechWeb】5月27日消息,企業級混合雲服務商青雲QingCloud近日宣布,分布式關係型資料庫PolonDB正式上線,全面無縫兼容PostgreSQL生態。PolonDB上線後,將從雲端發力,助力企業快速、高效面對未來數據處理需求。
  • 首發丨PingCAP獲5000萬美元C輪,破新型分布式關係型資料庫融資紀錄
    9月12日,分布式關係型資料庫公司PingCAP宣布獲得C輪5000萬美元融資,據悉這是目前新型分布式關係型資料庫領域的最大筆融資。本輪融資由復星、晨興資本領投,華創資本、雲啟資本、經緯中國等多家投資機構跟投,融資將主要用於技術研發和全球化生態建設。
  • 大數據概念解析:分布式存儲與資料庫
    大數據技術當中,在海量數據的存儲環節,涉及到兩個重要的概念,就是分布式數據存儲與資料庫,穩定高效安全的數據存儲,才能為後續的計算分析環節,提供穩固的支持。今天的大數據概念解析,我們來講講分布式存儲與資料庫。
  • 大數據概念解析:分布式存儲與資料庫
    大數據技術當中,在海量數據的存儲環節,涉及到兩個重要的概念,就是分布式數據存儲與資料庫,穩定高效安全的數據存儲,才能為後續的計算分析環節,提供穩固的支持。今天的大數據概念解析,我們來講講分布式存儲與資料庫。進入大數據時代,數據特徵發生了明顯的變化,數據規模大、非結構化/半結構化的數據多,使得大數據存儲本身也需要克服很多的問題。
  • 騰訊雲資料庫品牌重磅升級背後,是國產資料庫的十年崛起之路
    近日,騰訊雲對外宣布,將原有的TDSQL、TBase、CynosDB三大產品線統一升級為「騰訊雲企業級分布式資料庫TDSQL」,全新升級後的騰訊雲TDSQL將涵蓋分布式、分析型、雲原生等多引擎融合的完整資料庫產品體系。而這,也是騰訊雲資料庫產品發布以來,最大的一次調整。
  • 張雁飛:新一代分布式關係型資料庫RadonDB
    2.剛才您的演講題目是《RadonDB:新一代分布式關係型資料庫》,那您可以給我們解釋一下什麼是新一代分布式關係型資料庫嗎?  張雁飛:「新」主要體現在:我們把NewSQL領域的技術與MySQL資料庫融合起來,目前看還沒有人這樣嘗試過,所以我們叫它「新一代」。這是一個非常有挑戰,也非常有意思的一個方向。
  • 大數據常見問題,HBase vs 傳統關係型資料庫
    一、存儲的量級在傳統的關係型資料庫中,隨著數據量的增大,查詢速度會越來越慢,一張有上百個欄位的數據表在有千萬級別的數據量時,響應速度會變的非常緩慢。而HBase是一個分布式的數據存儲系統,他的建立是基於HDFS的。其設計的初衷就是為了解決傳統關係型資料庫在處理海量數據時,速度太慢的問題。
  • 引領數據創新,星環分布式資料庫KunDB亮相數據技術嘉年華
    2020年11月20-21日,一年一度的數據技術嘉年華在北京順利召開,此次大會以「自研·智能·新基建——雲和數據促創新 生態融合新十年」為主題,打造 「開源自研、智能運維、智能自治、新基建、用戶實踐」五大模塊,設置1個主會場、12個分會場,匯聚學術精英、資料庫技術大咖、數據行業專家、網際網路卓越產品,帶來超過60場主題演講。
  • 騰訊雲胡利明:金融機構分布式資料庫轉型的要點和路徑
    近日,《金融科技時代》(2020年第5期)刊發了騰訊金融雲總經理胡利明的專題文章——《分布式資料庫在金融行業的應用和展望》,文章全面回顧了資料庫技術的形成過程、分布式資料庫的分類以及雲原生資料庫對分布式資料庫發展的影響,深入分析了金融機構分布式資料庫轉型需關注的要點和轉型的主要路徑,詳細闡述了分布式資料庫應用於金融行業的主要發展方向
  • 十年磨礪,四代大數據平臺演進,騰訊云為什麼能夠踩對歷史進程?
    從關係型資料庫到自建大數據平臺的全面遷移,騰訊用了三年。實時計算階段(2012 年 - 2014 年):這一階段的背景是 PC 網際網路向移動網際網路的進化,對業務計算能力也提出了更高的要求。之後,騰訊研發了分布式的機器學習引擎 Angel 和一站式 AI 開發平臺智能鈦 TI,專攻複雜計算場景,可進行大規模的數據訓練,支撐內容推薦、廣告推薦等 AI 應用場景。目前,騰訊雲正在研究以批流融合、ABC 融合以及數據湖和聯邦學習為方向的下一代大數據平臺的研究,該平臺將具備混合部署、跨域數據共享和邊緣計算等能力。
  • 引領數據創新,星環科技分布式資料庫KunDB亮相數據技術嘉年華
    2020年11月20-21日,一年一度的數據技術嘉年華在北京順利召開,此次大會以「自研·智能·新基建——雲和數據促創新 生態融合新十年」為主題,打造 「開源自研、智能運維、智能自治、新基建、用戶實踐」五大模塊,設置1個主會場、12個分會場,匯聚學術精英、資料庫技術大咖、數據行業專家、網際網路卓越產品,帶來超過60場主題演講。
  • 巨杉亮相 DTCC2019,引領分布式資料庫未來發展
    2019年5月8日,DTCC第十屆資料庫大會在北京隆重召開,SequoiaDB巨杉資料庫作為領先的金融級分布式關係型資料庫,為大家帶來了兩場精彩紛呈的分享和發布。王濤提到:「分布式資料庫的存在目標,是要解決兩個問題。第一,是解決數據的彈性擴張,使每個微服務不受底層數據存儲限制。第二,就是微服務應用架構中數據嚴重碎片化的問題。」
  • 雲和恩墨蓋國強:2020,這是資料庫最好的時代
    2020年11月20日,一年一度的數據技術嘉年華(DTC)如約而至,今年正值DTC舉辦的第十個年頭,大會以「自研·智能·新基建——雲和數據促創新 生態融合新十年」 為主題,打造「開源自研、智能運維、智能自治、新基建、用戶實踐」五大模塊,總結過往十年曆程與成績,展望未來十年趨勢與目標!
  • 雲和恩墨蓋國強:2020,這是資料庫最好的時代!
    2020年11月20日,一年一度的數據技術嘉年華(DTC)如約而至,今年正值DTC舉辦的第十個年頭,大會以「自研·智能·新基建——雲和數據促創新 生態融合新十年」 為主題,打造「開源自研、智能運維、智能自治、新基建、用戶實踐」五大模塊,總結過往十年曆程與成績,展望未來十年趨勢與目標!
  • 國產開源分布式關係型HTAP資料庫TiDB介紹
    TiDB 是一款由國內 PingCAP 公司自主設計、研發的開源分布式關係型資料庫,同時支持在線事務處理與在線分析處理 (Hybrid Transactional and Analytical Processing, HTAP)的融合型分布式資料庫產品,具備水平擴容或者縮容、金融級高可用、實時 HTAP、雲原生的分布式資料庫、兼容 MySQL 5.7 協議和 MySQL 生態等重要特性。
  • Oracle等關係型資料庫是否沒落了
    大家都在想Oracle這個商業巨頭都在裁員,說明關係型資料庫肯定是沒落了。其實這個問題,我之前讀研時學的是大數據分析,接觸分布式計算時,就想到這個問題了,但是那個時候沒有深入的去考慮這個問題。後來出來上班後發現,企業裡面的業務應用、數據倉庫、還是BI分析庫大部分使用Oracle或其它關係型資料庫去搭建的,那時候覺得存在即是合理。
  • 資料庫從集中式架構到分布式架構發生了哪些改變?
    2000年伊始,隨著網際網路的發展,並發訪問量驟增,達到百萬至千萬的級別,而傳統商業資料庫越來越難容納和處理這麼大的數據量和訪問量。從2006年開始,大量新的非關係型資料庫如雨後春筍般湧出,在整個資料庫行業掀起了一場空前盛大的NoSQL革命。
  • 2020資料庫行業大事件盤點和2020數據技術嘉年華集結號
    9月25日,中國工商銀行開始採用螞蟻集團自研資料庫OceanBase,其對公(法人)理財系統已完成從大型主機到OceanBase分布式架構的改造。6月1日,騰訊雲發布分布式圖資料庫TGDB,支持千億級節點、萬億級關聯關係數據實時查詢;同日,OceanBase的獨立經營實體——北京奧星貝斯科技有限公司在北京註冊成立。