那個分分鐘處理 10 億節點圖計算的 Plato,現在怎麼樣了?

2020-12-06 CSDN

受訪者 | 於東海

記者 | 夕顏

「AI 技術生態論」 人物訪談欄目是 CSDN 發起的百萬人學 AI 倡議下的重要組成部分。通過對 AI 生態頂級大咖、創業者、行業 KOL 的訪談,反映其對於行業的思考、未來趨勢的判斷、技術的實踐,以及成長的經歷。

本文為 「AI 技術生態論」系列訪談的第十八期,將對騰訊大規模開源圖計算框架Plato進行詳細解讀,並預測圖計算框架未來發展趨勢。

百萬人學 AI 你也有份!今日起點擊閱讀原文報名「2020 AI開發者萬人大會」,使用優惠碼「AIP211」,即可免費獲得價值299元的大會在線直播門票一張。限量100張,先到先得!

2019 年 11 月,騰訊一口氣宣布開源五個重磅項目,其中就包括圖計算框架 Plato。圖計算火了有一段時間了,隨著 5G、IoT 等技術的發展,圖計算的熱度預計將只增不減。今天,我們將以騰訊開源的這款圖計算框架 Plato為例,通過微信Plato高性能計算團隊負責人於東海,剖析圖計算框架構建的技術和未來發展趨勢,希望為相關開發者提供參考。

何為圖計算?

首先來了解一下圖計算的概念。實際上,圖計算與我們平常所說的圖像識別、圖像處理等技術不同,它所指並非普通的圖像和照片,而是用於表示對象之間關聯關係的一種抽象數據結構,使用頂點(Vertex)和邊(Edge)進行描述:頂點表示對象,邊表示對象之間的關係,可抽象成用圖描述的數據即為圖數據。圖計算,便是以圖作為數據模型來表達問題並予以解決的這一過程。

簡單來講,圖計算就是研究如何高效計算、存儲並管理大量圖數據等問題的方法。

由於傳統的關係型數據本身存在建模缺陷、水平伸縮等問題,而圖數據具有更強大的表達能力,且可以將不同來源、不同類型的數據融合到同一個圖裡進行分析,得到原本獨立分析難以發現的結果,因此,圖計算受到業界的重視,尤其是在社交網絡、推薦系統、網絡安全、文本檢索和生物醫療等領域,更是應用廣泛。

騰訊圖計算框架 Plato 誕生始末

圖計算開源框架其實不少,比如圖計算的鼻祖Pregel,Spark GraphX,Hadoop Giraph等,為什麼騰訊決定要造一個自己的圖計算框架呢?

於東海接受採訪時說到騰訊做 Plato 的初衷,原來,這是因為原有的主流圖計算開源框架的如果要完成騰訊數據量級的超大規模圖計算,需要花費超長的時間或者需要大量的計算資源,這都是無法接受的。騰訊的業務場景要求超大規模圖計算必須在有限時間和有限資源內完成。於是,在來自加州大學、清華大學、北京大學等世界知名學府組成的高性能計算團隊的努力下,號稱能夠進行 10 億節點圖計算的 Plato 高性能分布式圖計算框架就此誕生,給國產圖計算框架又添一員「大將」。

關於 Plato 框架,這些你不一定知道

關於 Plato,早在發布之初就已經有過各種解讀,但 CSDN 今天將回顧並補充拓展一下 Plato 的技術解讀,查漏補缺。

Plato 是騰訊開源的高性能分布式圖計算框架,提供超大規模圖數據的離線圖計算和圖表示學習兩大核心能力。

圖計算引擎支持新的計算通信模式Plato 的核心是圖計算引擎,包含了圖劃分、圖表示以及多層級計算通信協同調度等模塊,並設計了多層次接口支持接入新的計算通信模式,從底層的 API,到圖算法庫,再到為具體業務量身打造的圖工具集。通過這些應用層的接口和工具,Plato 還可以把離線計算結果與其他機器學習算法相結合,共同支撐頂層的不同業務。

計算模型借鑑Gemini、KnightKing、Cyclops 等圖計算系統設計據於東海介紹,在計算模型上,Plato 借鑑了包括Gemini[1]、KnightKing[2]和Cyclops[3]在內的多個學術界提出的圖計算系統設計。Plato 圖計算引擎提供了稀疏稠密自適應計算模式、共享內存計算模式和流水線計算模式等。因為不同類型的圖算法,算法執行過程差別很大,單一計算模式不能使所有算法的性能達到最優,於是 Plato 對不同類型圖算法執行過程加以歸納和提煉,經過計算模式逐步增加和抽象,不斷迭代,得到一系列最優的計算模式。

10 億節點圖計算幾分鐘搞定的秘訣Plato 最吸引人特點之一,無非是可以處理 10 億節點圖計算,如此大的處理規模,正是業界所需要的。Plato是如何保證提升數據處理的吞吐量和規模的同時保持速度的?另外,與Giraph/GraphLab/GraphX/Gelly 等主流圖計算開源框架相比,Plato 的兩大核心能力是騰訊數據量級下的離線圖計算和騰訊數據量級下的圖表示學習,這兩大能力具體是如何實現的?

於東海解釋道,這是因為 Plato 作為高性能分布式圖計算框架,有著很好的平行擴展能力,也就是說,隨著數據規模的增加,Plato 計算集群可以平行加入更多的伺服器來分擔數據的存儲和計算。

在原有的主流圖計算開源框架下,如果要完成 10 億節點規模的圖計算,需要花費數天時間和大量計算資源。而 Plato 通過存儲、計算、通信和調度等各方面精巧的設計和優化,壓縮數據存儲、提升計算效率、優化通信調度,使得 Plato 內存消耗比 GraphX 降低了 1-2 個數量級,同時計算性能也提升了 1-2 個數量級,這意味著,只需中小規模的集群(10臺伺服器左右)即可在分鐘級完成騰訊數據量級的超大規模圖計算。

自適應圖計算引擎進行自動匹配算法的機制CSDN 好奇的另一個點,是 Plato 的自適應圖計算引擎是如何進行自動匹配算法的。

據於東海解釋,Plato 自適應圖計算引擎指的是稀疏稠密自適應的計算模式(該方法由 Ligra[4] 首次提出),Plato 會根據算法執行過程中活躍頂點的數量變化來自動選擇是執行稠密計算模式還是稀疏計算模式,由此完成自動匹配算法。

Plato 落地難點和痛點在哪?

圖計算作為一種表示和分析大數據的有效方法,已成為社交網絡、推薦系統、網絡安全、文本檢索、金融和醫療等領域至關重要的數據分析和挖掘工具。例如,定期對網頁進行影響力排序以提升用戶的搜索體驗;基於圖的認知分析用於提升金融風控能力;通過子圖匹配等方式了解蛋白質間的相互作用從而研製更有效的臨床醫藥,等等。

然而,任何新興的技術在落地時難免會遇到困境,圖計算也不例外,比如 Plato 離線圖計算作為整個數據處理鏈條的一部分,需要和其他框架結合在一起使用,這樣就需要數據銜接,由此會產生數據流轉效率的問題。

對於這個問題,Plato 有應對的辦法,通過分析各個上下遊框架的執行過程,優化它們和 Plato 之間的數據銜接,減少數據落地和拷貝,就可以實現高效的數據處理。

當然,圖計算落地的難點還有很多,需要在底層技術和應用、市場等各個層面繼續完善。

自 2019 年 11 月開源以來,Plato 已經集成到騰訊雲,通過騰訊雲大數據套件、智能鈦、騰訊雲知識圖譜等解決方案對外提供服務能力,已有很多業界著名的網際網路公司和高校在使用。

目前,Plato已支持圖特徵、圖表示學習等算法,未來將開源更多的算法,比如Network Embedding 和 GNN 算法,同時會持續進行維護和更新,探索和其他框架的結合使用。

關於 Plato 的講解到這裡就結束了,接下來是解答一下關於圖計算框架大家會有的幾個常見疑問,以及對圖計算技術發展趨勢做出預測。

圖計算框架與通用計算引擎一定要結合才好用嗎?

第一個疑問,是關於圖計算框架與計算引擎的結合問題,比如Giraph是基於Hadoop做的,GraphX基於Spark,那麼大家可能會有疑問,圖計算框架與通用計算引擎結合起來是否全是優點?未來是否所有的圖計算框架都這樣做才是最好的選擇?

於東海告訴 CSDN,圖計算框架與通用計算引擎的結合有好處,但也有劣勢,好處是方便和通用,可以在一處完成數據處理、數據挖掘、數據應用的整個過程,但是缺陷也很明顯,那就是通用計算引擎沒有針對圖算法做特定優化,超大規模圖數據處理的性能較差。

他認為,這其實這就是性能和通用的平衡問題,如果對性能要求不高,從通用的角度來看可以選擇通用計算引擎,如果對性能要求較高,那麼高性能圖計算框架才是最好的選擇。

圖計算技術熱點有哪些?圖計算框架有哪些發展趨勢?

第二個疑問,是在未來,整個圖計算領域有哪些值得期待和關注的技術點呢?以及就圖計算框架來說,未來還有有哪些發展趨勢?

他表示,GNN 目前是圖計算領域的熱點方向,業界著名的網際網路企業和高校都相繼推出了自研的 GNN 計算框架經網絡框架 TF-GNN,阿里開源的 Graph-Learn 等。

GNN 即圖神經網絡(Graph Neural Network),這是一種直接在圖結構上運行的神經網絡,因為在對圖形中節點間的依賴關係進行建模方面能力強大,使得圖分析相關的研究領域取得了突破性進展,為學界和業界關注的重點技術。

另外,當前已經有些框架可以與深度學習框架結合使用,這也許是圖深度學習框架的一個發展方向。

【End】

相關焦點

  • 10億個電晶體/mm!1nm節點可以這樣做
    儘管後FinFET節點的大批量製造(HVM)的日期有些不確定,但是可以預料,這些不斷發展的納米片/forksheet拓撲將在2024-25年間出現。目前正在積極進行工藝開發和設備研究,以尋找無數納米片的替代品。假設「納米」設備拓撲將至少用於兩個進程節點,如果任何新設備要在2028-30年達到HVM,現在就需要積極地進行研究。
  • 未來計算機:比現在快億倍 隨時變身抵禦攻擊(圖)
    未來計算機:比現在快億倍 隨時變身抵禦攻擊(圖) 2015-12-23 15:22:58來源:中國國防報作者:${中新記者姓名}責任編輯:高辰   生物計算機,有思維能判斷  生物計算機是受人腦具有強大信息處理能力的啟發,模擬人腦的生物功能,實現數字計算的一類高性能計算設備。通俗來講,人們知道,生物組織體是由無數個細胞組成,細胞又由水、鹽、蛋白質和核酸等有機物組成,這些有機物中的蛋白質分子就如同開關一樣,具有類似電子計算機中電子元件的「開」與「關」的功能,可以看成一個開關。
  • 10分鐘了解圖嵌入
    這種快速反應甚至可能沒有經過毛克利新大腦皮層的高階邏輯處理,我們已經在大腦中進化出了數據結構,通過在1/10秒內分析來自眼睛視網膜的數以百萬計的輸入信息來促進我們的生存。現在你可能會問,這和圖的嵌入有什麼關係?圖嵌入是一種小型的數據結構,可以幫助我們的EKG中實時的相似性排序功能。它們的工作原理就像毛克利大腦中的分類部分。
  • 中美量子較量勝負已分?我國量子計算原型機問世,超谷歌100億倍
    介紹稱,根據現有理論,該量子計算系統處理高斯玻色取樣的速度比目前最快的超級計算機快100萬億倍,通俗來講,「九章」一分鐘完成的任務,超級計算機需要一億年。根據目前最優的經典算法,「九章」對於處理高斯玻色取樣的速度比目前世界排名第一的超級計算機「富嶽」快100萬億倍。
  • 《作繭自縛》:你當時放棄的那個人,現在你們怎麼樣了
    《作繭自縛》:你當時放棄的那個人,現在你們怎麼樣了編輯:悅讀有書在你的青春裡,你有沒有一種愛情是兩人從小青梅竹馬,但是兩人都沒有互相說愛,但其實是愛著對方,就是因為怕打破這份美好而選擇不說當時你放棄的那個人,現在你們怎麼樣了,是找了和對方很像的人還是一直愛著對方。下面來看一下這部小說是怎麼樣的吧!這部小說是由飄阿兮創作的,《作繭自縛》這本小說出版於2013年。這部小說的評分達7.1分,好評達90%。這部小說的作者是一個隨緣的人,作者是一個特別相信緣分,愛情隨緣的,嚮往那種詩意的生活,作者就是一個佛系創作者。這部小說講述的是一個美好的愛情故事。
  • 愛因斯坦說光速不可超越,138億光年外的地方,現在怎麼樣了?
    都說宇宙廣袤達到了138億光年,光從如此遙遠的地方到達這裡,早就過去了138億年,那麼現在那宇宙的邊緣,怎麼樣了呢?465億光年的宇宙有了宇宙誕生的模型、參數和時間,那麼科學家計算出了宇宙的大小,大約930億光年直徑!
  • UED科技:UCloud優刻得邊緣計算節點UEDN上線
    據UED科技消息稱,到2020年將有超過500億的終端與設備聯網,而有50%的物聯網網絡將面臨網絡帶寬的限制,40%的數據需要在網絡邊緣分析、處理與儲存。  UCloud優刻得邊緣計算節點UED科技基於全國200+自建CDN邊緣節點構建,覆蓋移動、聯通、電信等主要運營商網絡,用戶可根據位置就近選擇邊緣節點,有針對性的部署業務,通過分布式網絡架構來減輕高並發、大帶寬業務對中心的壓力,並針對終端請求的本地化處理,縮短多級轉發的時延消耗,做到真正的低延時、高性能。
  • 節點法快速計算雙代號網絡圖的總時差——節點法
    (2)在我們的考試教材中一般講解的方法是「六時標註法」,這個方法計算公式很多,計算過程繁瑣,而且需要佔用很長時間,最要命的是稍不留神就會出現錯誤,所以,我們要給到大家一個非常簡便的方法——節點法,以確保計算過程簡單、計算結果準確無誤,而且還可以節約時間。
  • 1分鐘=1億年!中國科學家構建76光子量子計算原型機
    根據現有理論,「九章」一分鐘完成的任務,目前最快的超級計算機「富嶽」需要一億年,即「九章」處理高斯玻色取樣的速度比「富嶽」快一百萬億倍,等效地比谷歌去年發布的53個超導比特量子計算原型機「懸鈴木」快一百億倍。相關成果12月4日在線發表在《科學》上。
  • 【理論基礎】五分鐘學會有限差分之(4)
    本文接上一次的討論【理論基礎】五分鐘學會有限差分之(3)
  • 用圖計算做黑名單測試 京東金融準確率超90%
    而對於金融科技公司而言,不管是輸出風控、用戶運營,都是基於海量、多維、動態的大數據,而要處理這些數據,人工智慧是一個必需品。」  京東金融通過自營業務場景,積累了海量、多維、動態的數據,並通過不斷迭代的模型與算法,形成了十分強大的風控能力和風控經驗,包括信用風險評估、反欺詐、反洗錢等等。
  • 如果地球發生了10級大地震,那會怎麼樣
    年5月22日19時11分發生在的大地震2、厄瓜多到哥倫比亞邊界附近的海中在1906年1月13日發生的那次大地震。然而對於10級地震來說它已經超出我們人類現有的認知了,那的確是非常非常可怕的了,但是如果說我們的地球在發生了10級地震的情況下最多能撐5分鐘那就有些誇大其實了。
  • 倪新威10分鐘超級記憶怎麼樣 倪新威超級記憶法是真的嗎
    10分鐘超級記憶法怎麼樣,到底應該如何提高孩子的學習成績?很多家長提出這樣的問題。10分鐘超級記憶法,是一種科學,有效的學習方法,讓孩子在輕鬆中掌握學習方法從而達到提高成績的目的。那麼到底10分鐘超級記憶法怎麼樣呢?
  • 數易軒:圖資料庫的定義是什麼?圖資料庫如何設計
    圖理論和圖算法不是新科學,很早就有,只是最近 20 年大數據,網絡零售和社交網絡的發展, big data、social networks、e-commerce 、Web 2.0讓圖計算有了新的用武之地,而且硬體計算力的提高和分布式計算日益成熟的支持也使圖計算在高效處理海量數據成為可能。
  • 那個被韓國巨頭收購的Path 現在活的怎麼樣?
    (原標題:那個被韓國巨頭收購的Path,現在活的怎麼樣?)
  • 管網各節點水壓標高和自由水壓計算
    起點水壓未知的管網進行水壓計算時,應首先選擇管網的控制點,由控制點所要求的水壓標高依次推出各節點的水壓標高和自由水壓,計算方法同枝狀管網。由於存在閉合差,即⊿h≠0,利用不同管線水頭損失所求得的同一節點的水壓值常不同,但差異較小,不影響選泵,可不必調整。
  • 如何設計一個太陽能LED路燈狀態傳感器節點
    3.2 傳感器及調理電路模塊 蓄電池電流和電壓檢測電路的設計原理圖如圖2所示。電流檢測電路由霍爾電流傳感器TBC10SY和取樣電阻、電平調整電路、跟隨器電路、濾波電路等組成;電壓檢測電路由取樣電路、跟隨器電路、濾波電路等組成。需要注意的是電流檢測電路中充電電流和放電電流方向相反,需要通過電壓提升電路將負電壓值轉換為正值,並在程序中予以處理。
  • 量子計算機九章:6億年計算,它只需200秒,超谷歌100億倍
    在傳統計算機的一個比特就是一個與非門,不是0就是1,但在量子計算機中一個量子比特除了表示0和1以外,還有「0和1疊加態」,簡單的說如果只有2個比特,那麼傳統計算機的處理方法辦法是只能處理00/01/10/11四個二進位數中的一個。
  • 網絡拓撲結構-節點和邊特徵的簡介和R計算
    前述網絡基礎概述中提到,在數學中,「網絡」(networks)通常被稱為「圖」(graphs),一個圖G=(V,E)是一種包含「節點」集合V與「邊」集合E的數學結構,其中E的元素是不同節點的無序組合{u,v},u,v∈V。同時,對網絡的基礎要點做了簡介。網絡圖中的基本元素是節點和邊。當元素存在於網絡結構中時,會被賦予一些重要的「節點特徵」或「邊特徵」,可幫助進一步分析網絡的拓撲結構。