清華大學發布全球首個開源自動圖學習工具包:AutoGL

2020-12-27 電子發燒友

清華大學發布全球首個開源自動圖學習工具包:AutoGL

機器之心 發表於 2020-12-26 10:38:26

如何應用自動機器學習 (AutoML) 加速圖機器學習任務的處理?清華大學發布全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning),支持在圖數據上全自動進行機器學習。

人工智慧的蓬勃發展離不開數據、算力、算法這三大要素。而在浩瀚的數據中,有一種數據結構既普遍又複雜,它就是圖(graph)。  

圖是一種用於描述事物之間關係的結構,其基本構成元素為節點和連接節點的邊。   很多不同領域的研究問題都可以很自然地建模成圖機器學習,例如蛋白質建模、物理系統模擬、組合優化等基礎研究;社交媒體分析、推薦系統、虛假新聞檢測等網際網路應用;以及金融風控、知識表徵、交通流量預測、新藥發現等。  

社交網絡圖示例。   圖結構豐富且具有與生俱來的導向能力,因此非常適合機器學習模型。同時,它又無比複雜,難以進行大規模擴展應用。而且不同的圖數據在結構、內容和任務上千差萬別,所需要的圖機器學習模型也可能相差甚遠,這就導致不同任務的模型自動化面臨巨大挑戰。如何設計最優的圖自動機器學習模型,是一個尚未解決的難題。  

        圖 + AutoML = ?  自動機器學習 (AutoML) 旨在將機器學習的過程自動化,在降低機器學習使用門檻的同時,提升機器學習的效果。但現有的自動機器學習工具,無法考慮圖數據的特殊性,因此無法應用在圖機器學習模型中。   為了解決該問題,清華大學朱文武教授帶領的網絡與媒體實驗室發布了全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning)。該工具支持在圖數據上全自動進行機器學習,並且支持圖機器學習中最常見的兩個任務:節點分類任務(node classification)與圖分類任務(graph classification)。  

AutoGL 流程圖。   AutoGL 工具包首先使用 AutoGL Dataset 維護圖機器學習任務所需數據集。AutoGL Dataset 導入了大規模圖表示學習工具包 CogDL 和圖神經網絡庫 PyTorch Geometric (PyG) 中的數據集模塊,並添加對 OGB 數據集的支持,同時還添加了一些支持以便集成 auto solver 框架。   不同的圖機器學習任務可以通過不同的 AutoGL Solver 得到解決。AutoGL Solver 使用四個主要模塊自動化解決給定任務,分別是特徵工程(Feature Engineering)、圖學習模型(Graph Learning Model)、超參數優化(HPO),以及模型自動集成(Auto Ensemble)。每個部分在設計時都引入了對圖數據特殊性的考慮。

       模塊 1:特徵工程  AutoGL 特徵工程模塊包含了圖機器學習過程中常用的特徵工程方法,包括節點 / 邊 / 子圖特徵提取、變換和篩選,如節點度數、節點 ID、特徵向量等。這些方法顯著豐富了目標圖數據上的信息,提高了圖學習的效果。同時,用戶還可以非常方便地擴展特徵工程模塊,以實現個性化的需求。

       模塊 2:圖學習模型  AutoGL 目前支持 GCN、GAT、GIN 等常見圖學習模型,可以完成包括點分類、圖分類在內的多種常見任務,使用方式簡單,上手方便。同時,AutoGL 主頁還提供了詳細的說明文檔,支持用戶自定義模型,可擴展性良好。

       模塊 3:超參數優化  AutoGL 目前集成了多種通用超參數優化方法, 如網格搜索、隨機搜索、貝葉斯優化、模擬退火、TPE 等算法,同時還包含專門針對圖學習優化的自動機器學習算法 AutoNE。該模塊省去了圖學習中繁雜的手動調參過程,極大地提高了工程效率。同時,該模塊易於使用,用戶只需給出各個超參數的類型和搜索空間、指定超參數優化方法,即可快速上手運行若干自動圖學習模型。   AutoGL 會在給定的資源預算(時間、搜索次數等)內給出最優的超參數組合。該模塊同樣支持擴展,用戶可以自定義新的超參數優化算法。

       模塊 4:模型自動集成  自動集成模塊目前支持兩類常用的集成學習方法:voting 和 stacking。該模塊通過組合多個基模型得到一個博採眾長的集成模型,從而進一步提升圖學習的效果。   AutoGL 工具包目前支持多種算法,如下表所示:  

AutoGL 工具包四個不同模塊所支持的算法。   AutoGL 工具包極大地方便了開發人員進行對應的圖學習算法設計和調優。用戶只需按照 AutoGL 的數據集標準提供目標數據集,AutoGL 就會自動尋找最優的模型和對應的超參數,從而簡化圖學習算法開發與應用的流程,極大提升圖學習相關的科研和應用效率。

       此外,AutoGL 工具包還提供了一個供使用者公平地測試與對比算法的平臺。AutoGL 在設計時遵循模塊化思想,每個模塊均可擴展,用戶只需實現對應模塊類的接口,即可方便地測試自己的算法,為快速獲得 baseline 效果、公平對比不同模型性能提供方便。  未來展望  據 AutoGL 研發團隊透露,他們將進一步深入研發,以方便其他研究者、業界使用者和初學者快速上手 AutoGL,解決學術界、產業界遇到的圖學習相關問題。   AutoGL 網站顯示,該工具包將在近期支持以下功能:  

神經架構搜索;

大規模圖數據集支持;

更多圖任務(如連結預測、異構圖任務、時空任務);

Graph Boosting & Bagging;

對更多圖模型庫提供後端支持(如 DGL)。

AutoGL 研發團隊期待得到各類使用反饋,以更好地完善 AutoGL 的各項功能。「我們的最終目的是推動自動圖機器學習在學術界與工業界的深層次探索和應用。」AutoGL 研發者談及之後的計劃時表示。  相關連結

AutoGL 網站地址:http://mn.cs.tsinghua.edu.cn/autogl/

AutoGL 代碼連結:https://github.com/THUMNLab/AutoGL

AutoGL 說明文檔:https://autogl.readthedocs.io/en/latest/index.html

圖深度學習模型綜述:https://arxiv.org/abs/1812.04202

責任編輯:xj

原文標題:清華大學發布首個自動圖機器學習工具包AutoGL,開源易用可擴展,支持自定義模型

文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請註明出處。

 

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 百度開源2020年度報告:兩大開源平臺、九個捐贈項目
    二、飛槳(PaddlePaddle)、Apollo已快速成長為行業領先者1、飛槳(PaddlePaddle)飛槳(PaddlePaddle)以百度多年的深度學習技術研究和業務應用為基礎,是中國首個自主研發、功能完備、開源開放的產業級深度學習平臺,集深度學習核心訓練和推理框架、基礎模型庫、端到端開發套件和豐富的工具組件於一體。
  • 百度開源進行時
    今年 6 月 24 日,BFE 開源項目被雲原生計算基金會正式接納為 Sandbox Project。百度完全自主研發的超級鏈技術將依託於開源基金會以全新的組織形態進行運作。此項目將作為開放原子基金會區塊鏈領域首個捐贈項目進行孵化,並在全球開展開源技術和生態的運營及推廣活動。
  • 百度開源2020:二十個技術領域持續開源 飛槳、阿波羅成行業領先者...
    二、飛槳(PaddlePaddle)、Apollo已快速成長為行業領先者  1、飛槳(PaddlePaddle)  飛槳(PaddlePaddle)以百度多年的深度學習技術研究和業務應用為基礎,是中國首個自主研發、功能完備、開源開放的產業級深度學習平臺,集深度學習核心訓練和推理框架、基礎模型庫
  • R語言數據科學工具包:creditmodel-1.3版本發布
    2 開源creditmodel包的動機和意義creditmodel是一個免費開源的R語言數據科學工具包,旨在幫助沒有數據科學背景的人能夠在短時間內完成建模和數據分析工作,讓他們更多地關注業務問題本身,並將更多的時間分配給制定決策。
  • 重磅發布開源框架、生物計算平臺螺旋槳,百度飛槳交了年終成績單
    本屆峰會,百度飛槳帶來八大全新發布與升級,有支持前沿技術探索和應用的生物計算平臺 PaddleHelix 螺旋槳,開發更加便捷的飛槳開源框架 2.0 RC 版,端雲協同的 AI 集成開發環境 BML CodeLab,支持更強大分布式訓練的業界首個通用異構參數伺服器架構,開源算法庫增至 200+,飛槳企業版 EasyDL 智能數據服務升級,飛槳硬體生態路線圖以及攜手全球開發者開啟
  • 「開源」江湖前景廣闊,百度一馬當先推動人工智慧共同發展進步
    經過 4 年的發展,飛槳在 GitHub 上已經有 62 個 Repositories,共收穫 47000+ Star,成為國產開源項目的佼佼者。飛槳在 GitHub收穫了超過47000個Star  作為我國首個開源開放、功能完備的產業級深度學習平臺,飛槳能夠做到這樣的地位,當然少不了要有自己獨特的優勢。總的來說,飛槳有以下 4 大領先技術。
  • WAVE SUMMIT+2020深度學習開發者峰會召開,飛槳開源生態繁榮成勢
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVESUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • ...開源實驗室發布全球首個全開源可運行Linux的RISC-V平臺:PicoRio
    7月21日深圳消息,2017年圖靈獎得主大衛·帕特森教授(David Patterson)領銜的RISC-V國際開源實驗室(RIOS:RISC-V International Open Source Lab)日前發布了全球首個可運行Linux的全開源RISC-V微型電腦系統PicoRio
  • 奇安信開源衛士率先通過可信開源治理工具評估
    為規範和提高開源治理工具服務商能力,幫助用戶企業採購工具選型做參考,2019年下半年,中國信通院牽頭起草《開源治理工具能力要求 第1部分:開源組成和安全性分析》標準,並聯合國內30餘家開源治理工具服務商、銀行、科技企業等,完成標準編寫工作。
  • 10 個頂尖的 Linux 開源人工智慧工具
    在這篇文章中,我們將介紹幾個頂級的開源 Linux 生態系統的人工智慧(AI)工具。
  • 銀河麒麟發布全球首個 ARM 架構下雲平臺 SPEC 測試報告
    2020年6月30日,國際權威的標準性能評測組織SPEC(Standard Performance Evaluation Corporation)在其官網發布了由鵬城實驗室作為SPEC會員提交的全球首個基於麒麟作業系統的ARM架構SPEC CPU2017測試報告。
  • 基於銀河麒麟作業系統的全球首個ARM架構SPEC測試報告發布
    2020年6月30日,國際權威的標準性能評測組織SPEC(Standard Performance Evaluation Corporation)在其官網發布了由鵬城實驗室作為SPEC會員提交的全球首個基於麒麟作業系統的ARM架構SPEC CPU2017測試報告。
  • 聯邦學習開源框架FATE新版本發布!配套引擎EggRoll煥新登場
    FATE(Federated AI Technology Enabler)作為全球首個聯邦學習的工業級開源框架,實現了同態加密和多方計算(MPC)的安全計算協議,其支持聯邦學習架構,內置了多種機器學習算法的聯邦學習實現,FATE的每一次更新迭代,都在一定程度上代表著聯邦學習的前進方向。
  • Facebook 開源 Instagram 安全工具 Pysa
    Facebook 宣布開源靜態分析工具 Pysa。這是 Instagram 上用於檢測和修復應用程式龐大 Python 代碼庫中錯誤的一個內部工具,可以自動識別 Facebook 工程師編寫的易受攻擊的代碼段,然後再將其集成到社交網絡的系統中。
  • 一文速覽百度飛漿八大全新發布與升級 | WAVE SUMMIT2020
    從今年5月飛槳發布全新全景圖,再到螺旋槳這一重磅工具組件的「加盟」,可見,飛槳平臺在不斷迭代拓新,持續提升核心能力同時,進一步夯實了人工智慧開源開放與創新發展的底座。開源框架V2.0RC版峰會上,更讓開發者們驚豔的是飛漿開源框架V2.0RC版的重磅發布。
  • 2020啟智開發者大會開幕 百度飛槳正式發布「OpenI-星辰PPSIG共建...
    百度牽頭的"OpenI-飛槳",正式發布了"OpenI-星辰PPSIG共建計劃",號召全球有志於生物計算、量子計算、貝葉斯概率網絡等十大前沿領域奮勇探索的開發者攜手創新。百度飛槳是我國首個自主研發、開源開放、功能完備的產業級深度學習平臺,實現了最全面的開源開放。
  • 百度飛槳秀出最新成績單,產業應用、人才培養、開源生態全面繁榮
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVE SUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • smart-doc 2.0.1 發布,Java 零註解 API 文檔生成工具
    如果你已經厭倦了swagger等文檔工具的無數註解和強侵入汙染,那請擁抱smart-doc吧!功能特性 支持接口debug。 零註解、零學習成本、只需要寫標準java注釋。 基於原始碼接口定義自動推導,強大的返回結構推導。
  • 一文速覽百度飛槳八大全新發布與升級 | WAVE SUMMIT+2020
    從今年5月飛槳發布全新全景圖,再到螺旋槳這一重磅工具組件的「加盟」,可見,飛槳平臺在不斷迭代拓新,持續提升核心能力同時,進一步夯實了人工智慧開源開放與創新發展的底座。開源框架V2.0RC版峰會上,更讓開發者們驚豔的是飛槳開源框架V2.0RC版的重磅發布。