聯邦學習開源框架FATE新版本發布!配套引擎EggRoll煥新登場

2020-12-09 砍柴網

引文:

如何在保證本地訓練數據不公開的前提下,實現多個數據擁有者協同訓練一個共享的機器學習模型?傳統的機器學習方法需要將所有的數據集中到一個地方(例如數據中心),然後進行機器學習模型的訓練。但這種基於集中數據的做法無疑會嚴重侵害用戶隱私和數據安全。如今,世界上越來越多的人開始強烈要求科技公司必須根據用戶隱私法律法規妥善地處理用戶的數據,歐盟的《通用數據保護條例》是一個很好的例子。而聯邦學習這門技術,則可以將分布式機器學習、密碼學、基於金融規則的激勵機制和博弈論結合起來,從而解決分散數據的使用問題。FATE(Federated AI Technology Enabler)作為全球首個聯邦學習的工業級開源框架,實現了同態加密和多方計算(MPC)的安全計算協議,其支持聯邦學習架構,內置了多種機器學習算法的聯邦學習實現,FATE的每一次更新迭代,都在一定程度上代表著聯邦學習的前進方向。

正文:

近日,全球首個聯邦學習工業級開源框架FATE(Federated AI Technology Enabler)正式迎來了1.4新版本發布。在這一版本中,FATE著重提升了用戶在真實建模中的體驗,橫向聯邦增加了對Secureboost樹算法的支持,縱向聯邦廣義線性模型系列則增加了對基於AIC及BIC進行逐步回歸模型選擇的全面支持,縱向聯邦分箱也新增了最優分箱方法,支持iv\gini\chi-square\ks,同時,作為FATE計算/存儲/通信引擎的EggRoll也迎來了全新的2.0,穩定性、性能以及用戶體驗顯著提升。作為側重點在完善FATE可用性的這一版本,相信能為開發者帶來更為流暢的使用體驗。

主要更新點介紹:

1. 橫向聯邦新增對Secureboost樹算法的支持,開發者可以在用戶數據特徵相同的橫向場景下構建GBDT模型,自此,FATE框架中樹算法得以進一步完善,現在FATE的樹算法已可支持所有的聯邦場景;

2. 縱向聯邦廣義線性模型系列,現已全面支持基於AIC及BIC進行逐步回歸模型選擇,在平衡線性模型參數量與效果的場景中,將會自動選取特徵組合,減少選取模型過程中人工操作次數,提升開發者的使用體驗;

3. 縱向聯邦分箱支持最優分箱方法,支持iv\gini\chi-square\ks,開發者從這一版本起,就可以在縱向聯邦分箱中使用最優分箱方法了,特徵工程的分箱方法進一步豐富化,相信能讓開發者更直觀感受到FATE建模過程中的實用性;

4. AI生態互操作:橫向聯邦NN支持pytorch backend,FATE新增了pytorch backend,即支持使用pytorch引擎搭建nn網絡,換而言之,使用pytorch編寫的橫向nn模型,可相關使用配置文件將其通過pytorch backend進行轉化,加入多方橫向聯邦學習,作為重要的深度學習庫,支持pytorch的呼聲一直很高,橫向nn在支持使用tensorflow和keras的基礎上,增加了pytorch backend,進一步豐富了FATE的功能性。

FederatedML:新增橫向secureboost算法,廣義線性模型的逐步回歸模型選擇以及最優分箱功能支持

在上一個版本中,FATE對訓練稀疏數據效率進行了提升,內存消耗也再度優化。而在1.4版本中,FederatedML的更新也延續了這一想法,主要集中提高了FATE的可用性。首當其衝的,便是完善了更多的常見功能。比如1.4中新增的橫向secureboost算法,廣義線性模型的逐步回歸模型選擇以及最優分箱功能支持等,都是在建模過程中用戶迫切希望得以實現的功能。除此以外,FATE 1.4也在努力提升原有算法的體驗和應用範圍。比如本次更新進一步完善了橫向nn的功能,新增pytorch框架支持,提升建模效率的同時,增強了易用性,開發者不必同時掌握多種深度學習庫,即可滿足聯邦場景中的建模需求。最後,新版本還通過優化部分算法的實現,大大提升了建模過程中的穩定性和效率,使得開發者能更順暢地使用FATE來實現自己的業務目標。

FATEBoard:新增Pearson相關性可視化矩陣圖,支持GLMstepwise方法、橫向Secureboost等可視化輸出

FATEBoard是聯邦學習建模的可視化工具,為終端用戶可視化和度量模型訓練的全過程,能夠幫助開發更簡單、高效地進行模型探索和模型理解。FATEBoard由任務儀錶盤、任務可視化、任務管理與日誌管理等模塊組成,支持模型訓練過程全流程的跟蹤、統計和監控等,並為模型運行狀態、模型輸出、日誌追蹤等提供了豐富的可視化呈現。

在FATE 1.4版本中,FATEBoard新增了Pearson相關性的可視化矩陣圖,可幫助開發者查看guest特徵之間,以及guest與host特徵之間的相關性大小。而對GLM(縱向LR、縱向線性回歸、縱向poisson回歸)的stepwise方法的結果可視化輸出的支持,則能夠幫助開發者準確地觀察每一步的模型擬合統計、特徵分析、最大似然分析、待進入特徵分析等情況。對橫向Secureboost的可視化樹模型輸出,LR、localbaseline在one_vs_rest下的可視化輸出的支持,也進一步豐富了FATEBoard在更多場景下的適用性。

最後,新版本對FATEBoard的視覺和交互體驗上也做了重大提升,支持大數據量下圖表的可視化,優化頁面視覺效果及交互細節。通過嘗試,建模人員可以明顯感受到FATEBoard的可用性與易用性在這一版本中所呈現的全方位提升,必將幫助建模人員更好地理解與分析模型。

支持EggRoll2.0:穩定性、性能以及用戶體驗顯著提升

作為FATE 1.4版本的一個重點,EggRoll也迎來了巨大提升,在穩定性方面,FATE採用了全新的資源管理組件及session機制。從這一版本起,即使session出錯,也只需要一個簡單函數調用,臨時拉起的計算進程即可被清理。此外,此版本也移除了storage service,無需C++/native庫的編譯,開發者從下載代碼到運行起來的步驟進一步減少,編譯與環境依賴也更加簡化,基本上已可實現開箱即用。最後,面對在任意網絡下傳輸都會產生的丟包現象,新版本也做了適配,聯邦學習算法在28%的丟包率之下依然可以實現正常運行。

在性能方面,在實踐中相信開發者能夠感受到,運行於Eggroll 2的聯邦學習算法性能顯著提升,部分算法甚至可以達到超過10倍的性能提升,此外,Join接口在聯邦學習場景下,也實現了比pyspark快16倍的速度,開發者的計算/建模將更為高效。

而在用戶體驗方面,新版本已可快速部署,只需Maven編譯、pip安裝依賴、修改配置,即可運行。此外,這一版本也變得更加易於調試,新版本中不僅提供了必要的運行上下文信息,還將調試的關鍵系統狀態保存在日誌文件及資料庫中,當開發者遇到報錯信息時,排查將變得更加快捷。最後,常駐進程在這一版本中也進行了大幅度削減,現在的常駐進程僅三個:

ClusterManager (CM):管理集群的物理資源,管理session信息

NodeManager (NM):管理一個機器節點上的物理資源

RollSite:管理跨站點通信,等同以前的proxy + federation

其中,CM和NM都是無狀態的,非常輕量級,易於管理。開發者在使用過程中,可以直觀感受到這些提升帶來的更優質體驗。

總而言之,FATE 1.4版本是一次回望,對過往開發者們提到的一些問題進行了整合與思考,然後加入了迭代中。無論是FederatedML對常用功能、及原有算法的體驗和應用範圍的提升,還是FATEBoard對適用場景的豐富、及視覺和交互體驗上的大力優化,又或者是FATEFlow針對實際生產應用,從模型、數據、日誌三個方面增強系統易管理、易擴展、易審計的能力,都能看到FATE對開發者使用體驗的思索與重視。FATE官方歡迎對聯邦學習有興趣的同仁一起貢獻代碼,提交 Issues 或者 Pull Requests。詳情可查閱FATE官網項目貢獻者指南。

另,FATE官方也在開展針對1.4版本的圓桌討論會,詳情可添加FATE助手:FATEZS001,進一步交流及了解。

相關焦點

  • 中國AI開源的新生力量!曠視「天元」深度學習框架全解讀
    中國AI開源陣營再添一軍!3月25日,曠視宣布正式開源工業級深度學習框架「天元(MegEngine)」,成為國內第一家開源AI框架的AI企業。而天元深度學習框架的誕生,不僅為曠視AI業務的開拓和成熟提供強有力的底層技術支持,其本身的開源,在豐富國內AI開源生態的同時,也為近年來全國火熱的新基建中AI領域的發展,提供了重要的創新力和生產動力。那麼,「天元」深度學習框架究竟是什麼?它的背後隱藏了哪些曠視的AI布局野心?
  • 重磅發布開源框架、生物計算平臺螺旋槳,百度飛槳交了年終成績單
    本屆峰會,百度飛槳帶來八大全新發布與升級,有支持前沿技術探索和應用的生物計算平臺 PaddleHelix 螺旋槳,開發更加便捷的飛槳開源框架 2.0 RC 版,端雲協同的 AI 集成開發環境 BML CodeLab,支持更強大分布式訓練的業界首個通用異構參數伺服器架構,開源算法庫增至 200+,飛槳企業版 EasyDL 智能數據服務升級,飛槳硬體生態路線圖以及攜手全球開發者開啟
  • 剛剛,曠視重磅開源深度學習框架天元 MegEngine
    發布會上,天元項目的負責人,曠視研究院高級技術總監田忠博對天元 MegEngine 深度學習框架作了詳細介紹。另一方面,曠視看到了 2 個無限性,一是場景的無限性,二是算法的無限性,開源框架是實施這個長期戰略的一個關鍵過程,去年初曠視發布了河圖 AIoT 作業系統,布局智慧供應鏈,旨在解決場景無限性,而現在天元(MegEngine)開源則對應算法的無限性。
  • Unity 在 GitHub 發布 Unity 引擎和編輯器的 C# 原始碼
    3月23日我們在GitHub上發布了Unity引擎和編輯器的C#原始碼,僅供Unity學習參考使用。
  • 飛槳開源框架2.0四大亮點搶先看:全新升級的API體系,成熟完備的...
    5月20日的「WAVE SUMMIT」峰會上,飛槳開源框架發布了1.8版本。如今飛槳即將進入了2.0時代。飛槳2.0的四大創新帶來體驗變革,助力 AI 產業應用和科研創新再次升級!1.全新升級的 API 體系,讓深度學習技術的創新和應用更簡單 深度學習框架可以說是開發者們在人工智慧的海洋中乘風破浪的動力引擎,而 API 就是這個引擎的控制面板上的按鈕。
  • 天才黑客George Hotz開源了一個小型深度學習框架tinygrad
    天才黑客George Hotz開源了一個小型深度學習框架tinygrad 人工智慧與大數據 發表於 2020-12-16 09:36:56 最近,天才黑客
  • Google發布「多巴胺」開源強化學習框架,三大特性全滿足
    麻煩的是,強化學習框架需要花費大量時間來掌握一個目標,而且框架往往是不靈活和不總是穩定的。但不用擔心,Google 近日發布了一個替代方案:基於 TensorFlow 的開源強化學習框架 Dopamine(多巴胺)。
  • 曠視落子天元:深度學習框架開源,是成為偉大AI企業的第一步
    不過曠視沒有給聽眾太多考慮的時間,而是一遞上奇招:先開源,再開放。3月25日,曠視按計劃正式開源其自研、自用了6年的工業級深度學習框架「天元」(MegEngine)。在開源框架的同時,曠視還將開放Brain++的算力和數據平臺,其目的是降低AI算法的研發門檻,讓「深度學習,簡單開發」——「降低開發者的門檻,讓 AI 變得平凡,才能真正的釋放 AI 生產力。」曠視表示。
  • ArXiv最受歡迎開源深度學習框架榜單:TensorFlow第一,PyTorch第四
    針對近三個月來arXiv的深度學習框架排名結果,有人評論,他很遺憾Theano排名如此靠後,Theano是他的第一個框架。深度學習的圖景總是在不斷變化,Theano是第一個被廣泛採用的深度學習框架,由Yoshua Bengio領導的MILA創建和維護。但2017年9月,MILA宣布將在2018年終止Theano的開發和維護。
  • 鬥魚發布首個開源框架Jupiter
    鬥魚首個開源項目來了。2020年6月1日,鬥魚將基於Go語言的微服務框架Jupiter正式開源,這也奠定了鬥魚在國內GO語言開發領域的技術領先地位。據悉,Jupiter脫胎於鬥魚內部的Golang微服務框架,歷經多機房建設、雲化、容器化等多次基礎架構演進,基本涵蓋了內部框架的主要功能。經過了三年打磨,超過30名鬥魚技術人員的不斷優化下,Jupiter已經完成了10個大版本和99個小版本的迭代。而在超過500個業務場景的實際驗證後,鬥魚最終決定將這套微服務框架正式開源。
  • 長期主義者曠視:開源人工智慧算法框架,能為中國帶來什麼?
    二、深度學習框架開源,曠視按下產業加速鍵曠視科技,就是中國人工智慧產業中少之又少的精英玩家。2015年,馬雲在德國漢諾瓦首秀的支付寶刷臉支付,其背後的技術支撐就是曠視。在現代化、自動化的中央廚房裡工作的大廚(開發者),他將擁有標準化、流水線管理的配菜間(數據管理中心)和智能化的爐灶(計算平臺)和廚具(深度學習框架)等配套設施(開發環境),這樣,他不僅能大幅提高菜品的供應效率,還有了研發和創新的空間和時間。但是,也不是所有企業都有能力建設自己的中央廚房(深度學習框架等AI基礎設施),因為研發成本非常高。
  • 百度飛槳推出開源框架V2.0RC版本,帶來「編程一致、動靜統一」全新...
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVE SUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • 開源遊戲引擎 Godot 3.2 穩定版發布:改進文檔、支持 Android 和...
    開源遊戲引擎 Godot 3.2 已按計劃在今年 1 月發布了穩定版本,Godot 3.2 基於此前的 3.1 版本進行了重大改進
  • 開源遊戲引擎Godot 3.2穩定版發布 支持Android和WebAssembly
    開源遊戲引擎Godot 3.2已按計劃在今年1月發布了穩定版本,Godot 3.2基於此前的3.1版本進行了重大改進,帶來了數十個新的重要功能以及數百個錯誤修復和功能增強。Godot團隊也希望通過這個擁有更高可用性的版本幫助遊戲開發者不斷改進他們的作品。
  • 「開源好物」基於Go語言Gin框架的開源工單系統
    Gin 是一款 Golang 的微框架,憑藉著其封裝優雅,API友好,源碼注釋明確的優勢,在 Golang 開發者群體中受到了較多的歡迎,今天介紹的就是一款使用 Gin 框架的開源工單系統,供大家學習和使用。
  • WAVE SUMMIT+2020深度學習開發者峰會召開,飛槳開源生態繁榮成勢
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVESUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • 這家企業是馬雲的驕傲 3月底將開源深度學習框架 據說很厲害
    希望通過MegEngine,逐步將Brain++的生產力賦能給學術界和產業界。過去6年裡,這套深度學習框架被曠視全員使用,支撐著整個曠視的科研及產品化。在框架的基礎之上,曠視研究院還提出了「三位一體」概念。將數據和算力平臺融合,構建了集「算法、數據和算力」於一體的AI生產力平臺 Brain++。
  • 國產開源這一年,好生熱鬧
    在人工智慧備受關注的領域——深度學習中,開源同樣發揮著至關重要的作用。深度學習框架秉持著承上啟下的作用,上承應用,下接晶片,堪稱智能時代的核心支柱,它幫助開發者直接使用成熟的工具,大幅提高開發效率。開源深度學習框架之所以能夠成為各企業布局AI的重要選擇,也就不難理解了。
  • 網頁3D展示-WebGL開源框架的選擇
    從網上搜集資料找到以下幾個WebGL框架(Three.js、babylon.js),基本能滿足需求。babylonJs: 是由微軟發布,其官網的介紹是:WebGL. Simple. Powerful.babylon.Js 與 Three.js比較:綜合比較babylon.Js/Three.js 最終選擇了Three.js,首先2個框架的功能基本相似,從功能上來說個人感覺babylon.Js還要強大些,比如模型碰撞檢測、WebVR、模型滑鼠點擊事件(射線拾取方面),另外還支持TypeScript在大型JS項目維護很有優勢。
  • 米筐開源量化交易框架 —— RQAlpha 2.0 發布
    封閉 vs 開源 半年前,RQAlpha 作為 Ricequant 的開源框架1.0在 Github 上發布,得到了許多的關注以及反饋,同時我們也十分感謝開發者的貢獻與支持Goldman Sachs在15年對外真正開源了部分的功能,這對於金融行業來說無疑是一個重大的裡程碑。在Ricequant的不懈努力下,我們終於迎來這一次的開源更新,開源整套底層 Python 回測框架,這便是如今RQAlpha 2.0。