騰訊首個 AI 開源項目 Angel 發布 3.0 版本:邁向全棧機器學習平臺

2020-12-03 開源中國

2019年8月22日，騰訊首個 AI 開源項目 Angel 正式發布 3.0 版本。Angel 3.0 嘗試打造一個全棧的機器學習平臺，功能特性涵蓋了機器學習的各個階段：特徵工程、模型訓練、超參數調節和模型服務。

概述

Angel(https://github.com/Angel-ML) 是騰訊開源的基於參數伺服器架構的分布式機器學習平臺，致力於解決稀疏數據大模型訓練以及大規模圖數據分析問題，它由騰訊與北京大學聯合研發，兼顧了工業界的高可用性和學術界的創新性。目前是 Linux 深度學習基金會孵化項目，相比於 TensorFlow, PyTorch 和 Spark 等業界同類平臺，她有如下特點：

Angel 是一個基於參數伺服器（PS）理念開發的高性能分布式機器學習平臺，它具有靈活的可定製函數 PS Function（PSF），可以將部分計算下推至 PS 端。PS 架構良好的橫向擴展能力讓 Angel 能高效處理千億級別的模型。
Angel 具有專門為處理高維稀疏特徵特別優化的數學庫，性能可達 breeze 數學庫的 10 倍以上。Angel 的 PS 和內置的算法內核均構建在該數學庫之上。
Angel 擅長推薦模型和圖網絡模型相關領域（如社交網絡分析）。下圖是 Angel 和幾個業界主流平臺在稀疏數據、模型維度、性能表現、深度模型和生態建設幾個維度的對比。Tensorflow 和 PyTouch 在深度學習領域和生態建設方面優勢明顯，但在稀疏數據和高維模型方面的處理能力相對不足，而 Angel 正好與它們形成互補，3.0 版本推出的 PyTorch On Angel 嘗試將 PyTorch 和 Angel 的優勢結合在一起。

▲ Angel 與業界主流平臺的對比

自2016年年初在騰訊內部上線以來，Angel 已應用於微信支付、QQ、騰訊視頻、騰訊社交廣告及用戶畫像挖掘等業務。

2017年6月， Angel 在 GitHub 上低調開源。開源兩周，這個項目在 GitHub 上已收穫 183 Watch，1693 Star，389 Fork，也吸引了許多業界工程師關注與貢獻。

2018年9月，Angel 2.0 版本發布，支持千億級模型維度訓練，同時算法庫也更加豐富，首次引入了深度學習算法和圖算法。同年，Angel 加入 Linux 旗下深度學習基金會（現已更名為 LF AI 基金會(LF AI Foundation)），結合基金會成熟的運營，全面升級的 Angel 2.0 與國際開源社區繼續深入互動，致力於讓機器學習技術更易於上手研究及應用落地的目標。

下面繼續看看 Angel 3.0 裡程碑版本值得關注的新特性。

Angel 系統架構

Angel 3.0 系統架構如下圖所示：

▲ Angel 3.0 架構

Angel 自研的高性能數學庫是整個系統的基礎，Angel 的 PS 功能和內置的算法內核均是在這個數學庫基礎之上實現的。

Angel PS 提供了高效、穩定和靈活的參數存儲和交換服務。在 3.0 版本中，我們對 Angel PS 功能進行了擴展，使得它可以存儲任意類型的對象，一個典型的例子是在圖算法的實現過程中，我們使用 Angel PS 來存儲了大量複雜的對象。

MLcore 是 Angel 自研的一套算法內核，它支持自動求導，可以使用 JSON 配置文件定義和運行算法。除此之外，在 3.0 版本中，Angel 還集成了 PyTorch 作為計算引擎。在計算引擎層之上是計算框架，它們可以看作計算引擎的容器，目前支持 3 種計算框架：原生的 Angel、Spark On Angel（SONA）和 PyTorch On Angel（PyTONA），這些計算框架可以使得 Spark 和 PyTorch 用戶無縫切換到 Angel 平臺。最上層是兩個公共組件：AutoML 和模型服務。

Angel 3.0 新特性

▲ Angel 3.0 概覽（紅色的表示新增特性，白色的表示已有的但在持續改進的特性）

上圖提供了一個 Angel 3.0 特性的整體視圖。Angel 3.0 試圖打造一個全棧的機器學習平臺，它的功能特性涵蓋了機器學習的各個階段：特徵工程，模型訓練，超參數調節和模型服務。

Angel 的特徵工程模塊基於 Spark 開發，增強了 Spark 的特徵選擇功能，同時使用特徵交叉和重索引實現了自動特徵生成。這些組件可以無縫地整合進 Spark 的流水線。為了讓整個系統更加的智能，Angel 3.0 新增了超參數調節的功能，目前支持 3 種算法：隨機搜索、網格搜索和貝葉斯優化。在模型服務方面，Angel 3.0 提供了一個跨平臺的組件 Angel Serving， Angel Serving 不僅可以滿足 Angel 自身的需求，還可以為其他平臺提供模型服務。

在生態方面，Angel 也嘗試將參數伺服器（PS，Parameter Server）能力賦能給其他的計算平臺，目前已經完成了 Spark On Angel 和 PyTorch On Angel 兩個平臺的建設。這兩個平臺各有優勢和側重， Spark On Angel 使用的是 Angel 內置的算法核心，主要負責常見推薦領域的機器學習算法和基礎圖算法。 PyTorch On Angel 使用 PyTorch 作為計算核心，主要負責推薦領域深度學習算法和圖深度學習算法。

自動特徵工程

特徵工程，例如特徵交叉和選擇，對於工業界的機器學習應用具有重要意義。Spark 提供了一些特徵選擇算子，但是仍有一些局限性。Angel 基於 Spark 提供了更多的特徵選擇算子：

基於統計的運算符，包括 VarianceSelector 和 FtestSelector
基於模型的運算符，包括 LassoSelector 和 RandomForestSelector

大多數在線推薦系統經常選擇線性算法，例如邏輯回歸作為機器學習模型，但邏輯回歸需要複雜的特徵工程才能實現較高的精度，這使得自動特徵合成至關重要。但是，現有的自動化的高階特徵合成方法帶來了維度災難。為了解決這個問題，Angel 實現了一種迭代生成高階合成特徵的方法。每次迭代由兩個階段組成：

擴增階段：任意特徵的笛卡爾積
縮約階段：特徵選擇和特徵重索引

以下是迭代步驟：

首先任意的輸入特徵之間通過笛卡爾積生成合成特徵。該步驟後，特徵數量將以二次方式增加
接下來，從合成特徵中選擇最重要的特徵子集（使用例如 VarianceSelector 和 RandomForestSelector）
然後，重新索引所選擇的特徵以減少特徵空間

最後，合成特徵與原始特徵拼接在一起。

▲ 自動特徵工程流程

如上圖所示，這種特徵合成方法線性地增加特徵數量，避免了維度災難。在 Higgs 數據集上的實驗表明合成的特徵能有效地提高模型精度（如表1所示）。

	LR	FM	Ours
AUC	0.68	0.69	0.70

▲ 表 1 特徵合成效果

Spark On Angel (SONA)

在 Angel 3.0 中，我們對 Spark On Angel 做了大幅度的優化，添加了下面這些新的特性：

Spark On Angel 中集成了特徵工程。在集成的過程中並不是簡單地借用 Spark 的特徵工程，我們為所有的運算支持了長整型索引的向量使其能夠訓練高維稀疏模型
與自動調參無縫連接
Spark 用戶能夠通過 Spark-fashion API 毫不費力地將 Spark 轉換成 Angel
支持兩種新的數據格式：LibFFM 和 Dummy

▲ Spark On Angel 架構

除了這些大的特徵，我們也在持續完善 Spark On Angel 的算法庫：添加了一些新的算法，如：Deep & Cross Network (DCN) 和 Attention Factorization Machines (AFM)等；同時對已有的算法做了大量的優化，例如對 LINE 和 K-Core 算法進行了重構，重構後的算法性能和穩定性都有大幅度提升。

從下圖可以看出，Spark On Angel 中的算法與 Spark 中的算法存在顯著的不同，如：基於 Spark On Angel 的算法主要是針對推薦和圖領域，然而 Spark 中的算法更通用。

▲ Spark 與 Spark On Angel 算法比較

▲ Spark On Angel 算法示例

上圖提供了一個基於 Spark On Angel 的分布式算法示例，主要包含以下步驟：

在程序開始時啟動參數伺服器，程序結束時關閉參數伺服器
將訓練集和測試集以 Spark DataFrame 形式加載
定義一個 Angel 模型並以 Spark 的參數設置方式為其設置參數。在這個示例中，算法是一個通過 JSON 定義的計算圖
使用「fit」方法來訓練模型
使用「evaluate」方法來評估已訓練的模型

在訓練完成後，Spark On Angel 將會展示多種模型指標，如：準確率、ROC 曲線和 AUC 等。用戶可以保存訓練好的模型以便下次使用。

▲ Spark On Angel 和 TensorFlow 性能比較

我們在兩種流行的推薦算法 Deep & Wide 和 DeepFM 上使用了相同的資源和數據集比較了 Spark On Angel 和 TensorFlow 的性能。如上圖所示，在 Deep & Wide 算法上 Spark On Angel 比 TensorFlow 快 3 倍，而在 DeepFM 算法上 TensorFlow 運行稍快一些。

PyTorch On Angel（PyTONA）

PyTorch On Angel 是 Angel 3.0 新增的特性，它主要是為了解決大規模圖表示學習和深度學習模型訓練問題。

在過去幾年時間，圖卷積神經網絡（GNN）快速發展，一系列的研究論文以及相關的算法問世：例如 GCN、GraphSAGE 和 GAT 等，研究和測試結果表明，它們能夠比傳統圖表示學習更好的抽取圖特徵。騰訊擁有龐大的社交網絡（QQ和微信），同時擁有大量對圖數據進行分析的需求，而圖表示學習正是這些分析的基礎，因此騰訊內部對 GNN 有著強烈的需求，這也是我們開發 PyTorch On Angel 的主要原因之一。

大規模圖的表示學習面臨著兩個主要的挑戰：第一個挑戰來自於超大規模圖結構的存儲以及訪問，這要求系統不僅能存得下，還需要提供高效的訪問接口，例如需要提供高效的訪問任意節點的兩跳鄰居的接口；第二個挑戰來自於 GNN 計算過程，它需要有高效的自動求導模塊。

通過對 Angel 自身狀況以及對業界已有系統的分析，我們得到如下結論：

TensorFlow 和 PyTorch 擁有高效的自動求導模塊，但是它們不擅長處理高維度模型和稀疏數據
Angel 擅長處理高維度模型和稀疏數據，雖然 Angel 自研的計算圖框架（MLcore）也可以自動求導，但是在效率和功能完整性上卻不及 TensorFlow 和 PyTorch，無法滿足 GNN 的要求

為了將兩者的優勢結合起來，我們基於 Angel PS 開發了 PyTorch On Angel 平臺，基本思路是使用 Angel PS 來存儲大模型，使用 Spark 來作為 PyTorch 的分布式調度平臺，也就是在 Spark 的 Executor 中調用 PyTorch 來完成計算。

PyTorch On Angel 的架構如下圖所示：

▲ PyTorch On Angel 系統架構

PyTorch On Angel 擁有 3 個主要的組件：

Angel PS：存儲模型參數，圖結構信息和節點特徵等，並且提供模型參數和圖相關數據結構的訪問接口，例如需要提供兩跳鄰接訪問接口
Spark Driver：中央控制節點，負責計算任務的調度和一些全局的控制功能，例如發起創建矩陣，初始化模型，保存模型，寫 checkpoint 以及恢復模型命令
Spark Worker：讀取計算數據，同時從 PS 上拉取模型參數和網絡結構等信息，然後將這些訓練數據參數和網絡結構傳給 PyTorch，PyTorch 負責具體的計算並且返回梯度，最後 Spark Worker 將梯度推送到 PS 更新模型

當然，這些細節都是封裝好的，算法開發人員和用戶並不需要了解。在 PyTorch On Angel 平臺上開發新算法，只需要關注算法邏輯即可，與開發單機的 PyTorch 算法並沒有太大區別。下面給出一個 2 層 GCN 算法的實現例子：

▲ 在 PyTorch On Angel 上實現 GCN 的例子

算法開發完成後，將代碼保存為 pt 文件，然後將 pt 文件提交給 PyTorch On Angel 平臺就可以實現分布式訓練了。

我們已經在 PyTorch On Angel 上實現了許多算法：包括推薦領域常見的算法（FM，DeepFM，Wide & Deep，xDeepFM，AttentionFM， DCN 和 PNN 等）和 GNN 算法（GCN 和 GraphSAGE）。在後續的版本迭代中，我們將會進一步豐富 PyTorch On Angel 的算法庫。

由於結合了 PyTorch 和 Angel 的優點，PyTorch On Angel 在算法性能方面有很大的優勢：對於推薦領域常見的深度學習算法，性能可以達到 TensorFlow 的 4 倍以上；對於 GNN 算法，性能也遠好於目前業界開源的同類型平臺（具體的性能數據會在開源社區陸續公開）。下圖是在公開的數據集 criteo kaggle2014（4500 萬訓練樣本，100 萬特徵）上做的對比測試：

▲ PyTorch On Angel 和 TensorFlow 性能對比測試

除了性能方面的優勢，PyTorch On Angel 還有一個比較大的優勢就是易用性好。如<圖 PyTorch On Angel系統架構>所示：PyTorch 運行在 Spark 的 Executor 中，可以實現 Spark 圖數據預處理和 PyTorch 模型訓練的無縫對接，在一個程序中完成整個計算過程。

自動超參數調節

傳統超參數調節的方式有兩種（如下圖所示）：

網格搜索：網格搜索將整個搜索空間切分為網格，假設超參數是同等重要的。這種方式雖然直觀，但有兩個明顯的缺點：1）計算代價隨參數數量的增長而呈指數增長；2）超參數的重要程度常常是不同的，網格搜索可能會花費太多精力來優化不太重要的超參數
隨機搜索：隨機採樣超參數組合，並評估抽樣組合。雖然這種方法有可能關注更重要的超參數，但是仍無法保證找到最佳組合

▲ 網格搜索和隨機搜索

貝葉斯優化與傳統的無模型方法不同，使用計算成本較低的代理函數（surrogate function）來近似原始目標函數。在貝葉斯優化中，代理函數生成超參數組合的概率均值和方差。然後，效用函數（acquisition function）將評估超參數組合的預期損失或改進。這樣的概率解釋方法使貝葉斯優化能夠使用少得多的開銷找到目標函數的較優解。

Angel 3.0 包括傳統的兩種方法和貝葉斯算法優化。對貝葉斯優化，Angel 實現了以下的功能：

代理函數。除了常用的兩種模型（高斯過程和隨機森林），也實現了 EM + LBFGS 優化高斯過程內核函數中的超參數
效用函數：實現了 PI（Probability of improvement），EI（Expected Improvement）和 UCB（Upper Confidence Bound）

由於每次評估目標函數的計算開銷可能較大，如果觀察到候選的超參數組合在開始的若干輪迭代中表現不佳，可以提前停止這些候選超參數組合。Angel 3.0 版本中實現了這種早停策略。

表2是在邏輯回歸算法的實驗，調節的超參數是學習速度和學習速度衰減率，結果顯示貝葉斯優化的性能優於隨機搜索和網格搜索，而隨機搜索的結果略優於網格搜索

	Random	Grid	GP
AUC	0.926	0.924	0.933

▲ 表 2 不同超參數自動條件方法的效果對比

Angel Serving

為了滿足在生產環境中高效地進行模型服務的需求，我們在 Angel 3.0 中實現了 Angel Serving 子系統，它是一個可拓展性強、高性能的機器學習模型服務系統，是全棧式機器學習平臺 Angel 的上層服務入口，使 Angel 生態能夠形成閉環。下圖展示了 Angel Serving 的架構設計。

▲ Angel Serving 架構

Angel Serving 主要特徵包括：

支持多種類型的 API 訪問服務，包括 gRPC 和 Restful 接口
Angel Serving 是一個通用的機器學習服務框架，可插拔機制設計使得來自其他第三方機器學習平臺的模型可以很容易使用 Angel Serving 來服務，目前已經支持三種平臺的模型：Angel，PyTorch 和支持 PMML 模型格式的平臺（Spark 和 XGBoost 等）
受 TensorFlow Serving 的啟發，Angel Serving 還提供細粒度版本控制策略：包括使用模型的最早，最新以及指定版本進行服務
Angel Serving 還提供豐富的的模型服務監控指標，包括：每秒請求數QPS、總的請求數以及成功請求總數、請求的響應時間分布和平均響應時間。

	Angel Serving	TensorFlow Serving
總耗時(s)	56	59
最小響應時間(ms)	1	1
平均響應時間(ms)	2	2
99% 分位響應時間(ms)	2	3
QPS	1900	1800

▲ 表 3 Angel Serving 和 TensorFlow Serving 性能對比

表3展示了 Angel Serving 和 TensorFlow Serving 性能對比結果，我們使用具有 100 萬個特徵的 DeepFM 模型，向服務發送 100,000 個預測請求。Angel Serving 和 TensorFlow Serving 的總耗時分別為 56 秒和 59 秒。兩個服務系統的平均響應時間都為 2 毫秒。Angel Serving 的 QPS 是 1,900，而 TensorFlow Serving 的 QPS 是 1,800。上述結果表明 Angel Serving 與 TensorFlow Serving 性能相當，甚至更好。

支持 Kubernetes

Angel 3.0 支持 Kubernetes，從而可以在雲上運行

Angel 使用情況

如下圖所示，在過去 12 個月，Angel 在騰訊內部的任務數量有了非常明顯的增長，增幅達到 150%。值得一提的是，Spark On Angel 的任務數增長了10倍，為了讓 Spark On Angel 更加的易用，3.0 版本對 Spark On Angel 做了大幅度升級。在騰訊內部，使用 Angel 的業務包括騰訊視頻，騰訊新聞和微信等。

▲ 騰訊內部 Angel 任務數

Angel 官方維護了一個QQ群與外部開發者進行交流，對群用戶的統計表明：

Angel 的絕大部分用戶來自中國，主要分布在北京、上海、杭州、成都和深圳等網際網路行業比較發達的城市。
有超過 100 家的公司和科研機構在使用或測試 Angel，其中包括了中國最頂級的IT公司：微博、華為和百度等。

▲ Angel 開源用戶

Angel 開源

▲ GitHub 上 Angel 的統計信息以及 Angel 發表的論文

從2017年6月開源以來，Angel 受到了較多的關注。截至目前，Angel 在 GitHub 上 Star 數已超過 4200，Fork 數超過 1000。Angel 項目目前總共有 38 位代碼貢獻者，其他包括 8 位 committer，他們總共提交了超過 2000 個 commit。而騰訊開源在 GitHub 上整體的項目數也已突破 80 個，涵蓋 AI、雲計算、安全等多個領域，累計獲得了超過 23 萬 Star。

從 1.0 到 3.0，Angel 發生了巨大的變化，它從一個單一的模型訓練平臺發展到涵蓋機器學習各個流程，包含自己生態的通用計算平臺，代碼量也超過了 50 萬行。為了後續維護和使用的方便，Angel 拆分成 8 個子項目，統一放在 Angel-ML 目錄下（https://github.com/Angel-ML）：angel，PyTorch On Angel，sona（Spark On Angel），serving，automl，mlcore，math2 和 format，這些子項目均已在上文進行詳細介紹。

應用案例

騰訊短視頻推薦

▲ 短視頻推薦數據處理流程

上圖所示是騰訊短視頻部門的一個使用案例。用戶的視頻播放日誌和上下文信息被實時轉發給 Kafka，流數據引擎 Storm 訂閱 Kafka 的數據。Storm 是一個實時的特徵生成器，它從一個離線的 key-value 存儲中獲得用戶畫像和視頻信息，將兩者拼接起來生成特徵。生成的特徵被傳輸到在線訓練系統中來更新在線模型；同時，這些特徵也被轉存到 HDFS 作為離線訓練的輸入。離線模型通常用來初始化在線訓練系統，當出現異常時，離線模型還可以用來重置在線系統。

本案例用到的推薦算法是 FM，訓練樣本 24 億條，特徵維度為 63611，在 Spark 上訓練耗時 10 多個小時，應用 Angel 後減少至 1 小時。

金融反欺詐

▲ 金融反欺詐數據處理流程

金融欺詐檢測是大規模圖學習的常見案例，其網絡數據是異構的，包含幾種不同類型的邊：

交易關係: 用戶A和用戶B之間如存在交易關係表明他們之間曾出現過交易行為
設備關係：用戶A和用戶B之間如存在設備關係表明他們曾共享過同一個設備
Wi-Fi 關係：用戶A和用戶B之間如存在 Wi-Fi 關係表明他們曾通過一個 Wi-Fi 連接到網際網路

金融詐騙者通常共享設備和 Wi-Fi，通過擴展邊緣關係生成社區。Angel 上的 fast unfolding 算法可以有效地發現這些社區。下遊的欺詐風險模型可以將這些社區的用戶畫像和網絡特徵作為輸入來學習和推到反欺詐策略。該圖數據包含 15 億個節點和 200 億條邊，基於 Spark GraphX 的實現耗時 20 小時，而 Angel 僅需 5 小時。

騰訊首個 AI 開源項目 Angel 發布 3.0 版本:邁向全棧機器學習平臺

概述

Angel 系統架構

Angel 3.0 新特性

自動特徵工程

Spark On Angel (SONA)

PyTorch On Angel（PyTONA）

自動超參數調節

Angel Serving

支持 Kubernetes

Angel 使用情況

Angel 開源

應用案例

騰訊短視頻推薦

金融反欺詐

相關焦點

與TensorFlow 功能互補的騰訊 angel 發布 3.0 :高效處理千億級別...

百度開源2020年度報告:兩大開源平臺、九個捐贈項目

PyTorch 1.0 預覽版發布:90% 的功能能經受住業界的考驗

攜手國際AI領袖制定AI硬體全球標準OAI,百度發布超級AI計算平臺

6月,機器學習最受歡迎的十大開源項目

2018 年度 GtiHub 開源項目 TOP 25:數據科學 & 機器學習

Forrester發布全棧公有雲開發平臺報告,騰訊雲再次入選領導者象限

騰訊AI Lab 2020 年度回顧

專訪騰訊雲機器學習平臺技術負責人:揭秘騰訊深度學習平臺DI-X背後...

企業級雲原生:TKEStack 騰訊雲原生開源實踐之路

開發者必備:基於Linux生態的十大AI開源框架盤點

開發者必備:基於 Linux 生態的十大AI開源框架盤

開源項目在GitHub上貢獻33.5W個Star!騰訊的十年「雲」答卷,請收好!

騰訊優圖開源深度學習推理框架TNN 助力AI開發降本增效

梧桐車聯對外發布TINNOVE OpenOS和TINNOVE 3.0 部分進行開源

騰訊安全雲鼎實驗室利用騰訊安全自主研發的系統到底是什麼

雲+社區技術沙龍丨解析騰訊最新開源項目背後的技術棧

便利蜂上線「蜂超市」功能;騰訊將發布應用寶8.0版本;中國移動回應...

中國工程院高文院士:為什麼中國要打造自己的 AI 開源開放生態?

...周報第72期:騰訊雲發布八款雲原生系列產品,阿里發布開源量子...