清華大學發布全球首個開源自動圖學習工具包:AutoGL

2020-12-27 電子發燒友

清華大學發布全球首個開源自動圖學習工具包:AutoGL

機器之心 發表於 2020-12-26 10:38:26

如何應用自動機器學習 (AutoML) 加速圖機器學習任務的處理?清華大學發布全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning),支持在圖數據上全自動進行機器學習。

人工智慧的蓬勃發展離不開數據、算力、算法這三大要素。而在浩瀚的數據中,有一種數據結構既普遍又複雜,它就是圖(graph)。  

圖是一種用於描述事物之間關係的結構,其基本構成元素為節點和連接節點的邊。   很多不同領域的研究問題都可以很自然地建模成圖機器學習,例如蛋白質建模、物理系統模擬、組合優化等基礎研究;社交媒體分析、推薦系統、虛假新聞檢測等網際網路應用;以及金融風控、知識表徵、交通流量預測、新藥發現等。  

社交網絡圖示例。   圖結構豐富且具有與生俱來的導向能力,因此非常適合機器學習模型。同時,它又無比複雜,難以進行大規模擴展應用。而且不同的圖數據在結構、內容和任務上千差萬別,所需要的圖機器學習模型也可能相差甚遠,這就導致不同任務的模型自動化面臨巨大挑戰。如何設計最優的圖自動機器學習模型,是一個尚未解決的難題。  

        圖 + AutoML = ?  自動機器學習 (AutoML) 旨在將機器學習的過程自動化,在降低機器學習使用門檻的同時,提升機器學習的效果。但現有的自動機器學習工具,無法考慮圖數據的特殊性,因此無法應用在圖機器學習模型中。   為了解決該問題,清華大學朱文武教授帶領的網絡與媒體實驗室發布了全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning)。該工具支持在圖數據上全自動進行機器學習,並且支持圖機器學習中最常見的兩個任務:節點分類任務(node classification)與圖分類任務(graph classification)。  

AutoGL 流程圖。   AutoGL 工具包首先使用 AutoGL Dataset 維護圖機器學習任務所需數據集。AutoGL Dataset 導入了大規模圖表示學習工具包 CogDL 和圖神經網絡庫 PyTorch Geometric (PyG) 中的數據集模塊,並添加對 OGB 數據集的支持,同時還添加了一些支持以便集成 auto solver 框架。   不同的圖機器學習任務可以通過不同的 AutoGL Solver 得到解決。AutoGL Solver 使用四個主要模塊自動化解決給定任務,分別是特徵工程(Feature Engineering)、圖學習模型(Graph Learning Model)、超參數優化(HPO),以及模型自動集成(Auto Ensemble)。每個部分在設計時都引入了對圖數據特殊性的考慮。

       模塊 1:特徵工程  AutoGL 特徵工程模塊包含了圖機器學習過程中常用的特徵工程方法,包括節點 / 邊 / 子圖特徵提取、變換和篩選,如節點度數、節點 ID、特徵向量等。這些方法顯著豐富了目標圖數據上的信息,提高了圖學習的效果。同時,用戶還可以非常方便地擴展特徵工程模塊,以實現個性化的需求。

       模塊 2:圖學習模型  AutoGL 目前支持 GCN、GAT、GIN 等常見圖學習模型,可以完成包括點分類、圖分類在內的多種常見任務,使用方式簡單,上手方便。同時,AutoGL 主頁還提供了詳細的說明文檔,支持用戶自定義模型,可擴展性良好。

       模塊 3:超參數優化  AutoGL 目前集成了多種通用超參數優化方法, 如網格搜索、隨機搜索、貝葉斯優化、模擬退火、TPE 等算法,同時還包含專門針對圖學習優化的自動機器學習算法 AutoNE。該模塊省去了圖學習中繁雜的手動調參過程,極大地提高了工程效率。同時,該模塊易於使用,用戶只需給出各個超參數的類型和搜索空間、指定超參數優化方法,即可快速上手運行若干自動圖學習模型。   AutoGL 會在給定的資源預算(時間、搜索次數等)內給出最優的超參數組合。該模塊同樣支持擴展,用戶可以自定義新的超參數優化算法。

       模塊 4:模型自動集成  自動集成模塊目前支持兩類常用的集成學習方法:voting 和 stacking。該模塊通過組合多個基模型得到一個博採眾長的集成模型,從而進一步提升圖學習的效果。   AutoGL 工具包目前支持多種算法,如下表所示:  

AutoGL 工具包四個不同模塊所支持的算法。   AutoGL 工具包極大地方便了開發人員進行對應的圖學習算法設計和調優。用戶只需按照 AutoGL 的數據集標準提供目標數據集,AutoGL 就會自動尋找最優的模型和對應的超參數,從而簡化圖學習算法開發與應用的流程,極大提升圖學習相關的科研和應用效率。

       此外,AutoGL 工具包還提供了一個供使用者公平地測試與對比算法的平臺。AutoGL 在設計時遵循模塊化思想,每個模塊均可擴展,用戶只需實現對應模塊類的接口,即可方便地測試自己的算法,為快速獲得 baseline 效果、公平對比不同模型性能提供方便。  未來展望  據 AutoGL 研發團隊透露,他們將進一步深入研發,以方便其他研究者、業界使用者和初學者快速上手 AutoGL,解決學術界、產業界遇到的圖學習相關問題。   AutoGL 網站顯示,該工具包將在近期支持以下功能:  

神經架構搜索;

大規模圖數據集支持;

更多圖任務(如連結預測、異構圖任務、時空任務);

Graph Boosting & Bagging;

對更多圖模型庫提供後端支持(如 DGL)。

AutoGL 研發團隊期待得到各類使用反饋,以更好地完善 AutoGL 的各項功能。「我們的最終目的是推動自動圖機器學習在學術界與工業界的深層次探索和應用。」AutoGL 研發者談及之後的計劃時表示。  相關連結

AutoGL 網站地址:http://mn.cs.tsinghua.edu.cn/autogl/

AutoGL 代碼連結:https://github.com/THUMNLab/AutoGL

AutoGL 說明文檔:https://autogl.readthedocs.io/en/latest/index.html

圖深度學習模型綜述:https://arxiv.org/abs/1812.04202

責任編輯:xj

原文標題:清華大學發布首個自動圖機器學習工具包AutoGL,開源易用可擴展,支持自定義模型

文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請註明出處。

 

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 清華大學發布首個自動圖機器學習工具包,開源易用可擴展
    機器之心報導機器之心編輯部如何應用自動機器學習 (AutoML) 加速圖機器學習任務的處理?清華大學發布全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning),支持在圖數據上全自動進行機器學習。人工智慧的蓬勃發展離不開數據、算力、算法這三大要素。
  • ...首個自動圖機器學習工具包AutoGL,開源易用可擴展,支持自定義模型
    機器之心報導機器之心編輯部如何應用自動機器學習 (AutoML) 加速圖機器學習任務的處理?清華大學發布全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning),支持在圖數據上全自動進行機器學習。
  • 清華發布首個自動圖學習框架,或有助於蛋白質建模和新藥發現
    當前,人工智慧領域的自動圖機器學習研究悄然興起,小到蛋白質分子結構,大到城市交通網絡,都有自動圖機器學習的用武之地。澎湃新聞(www.thepaper.cn)記者從清華大學計算機系朱文武教授領導的網絡與媒體實驗室獲悉,該實驗室於2020年12月21日發布了世界首個自動圖學習框架與開源工具包AutoGL。
  • 微眾銀行開發的全球首個工業級聯邦學習開源框架 FATE 升級 v1.1...
    雷鋒網(公眾號:雷鋒網) AI 開發者按:作為聯邦學習全球首個工業級開源框架FATE 作為聯邦學習全球首個工業級開源框架,支持聯邦學習架構體系,為機器學習、深度學習、遷移學習提供了高性能聯邦學習機制,FATE 本身還支持多種多方安全計算協議,如同態加密、秘密共享、哈希散列等,具有友好的跨域交互信息管理方案
  • 百度開源2020:二十個技術領域持續開源 飛槳、阿波羅成行業領先者
    二、飛槳(PaddlePaddle)、Apollo已快速成長為行業領先者  1、飛槳(PaddlePaddle)  飛槳(PaddlePaddle)以百度多年的深度學習技術研究和業務應用為基礎,是中國首個自主研發、功能完備、開源開放的產業級深度學習平臺,集深度學習核心訓練和推理框架、基礎模型庫
  • 10 款程式設計師必備的免費開源安全工具,助你成為極客
    事實上,無論是學習,試驗,還是在生產基礎上進行部署,安全專業人員長期以來都將開源軟體視為其工具包的重要組成部分。本文我們將盤點10個你應該知道的IT安全工具包:1、NessusSnort最大的價值在於有三種工作模式:嗅探器、數據包記錄器、網絡入侵檢測系統模式。因此,它可以是自動化安全系統的核心,也可以是一系列商業產品的組件。Snort目前歸思科所有,Snort有一個活躍的社區,開源安全工具名單中如果沒有Snort,那這個名單一定不完整。3、Nagios
  • 阿里巴巴開源GraphScope,有望解決全球圖計算研發瓶頸
    11月9日,阿里巴巴宣布將開源一站式超大規模分布式圖計算平臺GraphScope。GraphScope項目組告訴DeepTech,12月將開源1.0版本,希望在易編程、高性能和一站式三個方面,解決全球圖計算領域主要研發瓶頸。
  • N 個免費 DevOps 開源工具,沒用過,至少應該了解!
    在DevOps環境中,開發人員和系統管理員會構建一些關係、流程和工具,從而更好的與客戶互動,最終提供更好的服務。簡單了解了Devops是個啥之後,一起來看看下面這60多款最棒的開源工具,可以幫助你很好的實行 DevOps。
  • 重磅發布開源框架、生物計算平臺螺旋槳,百度飛槳交了年終成績單
    本屆峰會,百度飛槳帶來八大全新發布與升級,有支持前沿技術探索和應用的生物計算平臺 PaddleHelix 螺旋槳,開發更加便捷的飛槳開源框架 2.0 RC 版,端雲協同的 AI 集成開發環境 BML CodeLab,支持更強大分布式訓練的業界首個通用異構參數伺服器架構,開源算法庫增至 200+,飛槳企業版 EasyDL 智能數據服務升級,飛槳硬體生態路線圖以及攜手全球開發者開啟
  • 簡化公有雲K3s部署體驗,Rancher開源自動化工具AutoK3s
    2020年10月26日,業界應用最為廣泛的Kubernetes管理平臺創建者Rancher Labs(以下簡稱Rancher)正式發布並開源K3s自動化工具項目AutoK3s, 一款用於幫助用戶在多個雲供應商上快速創建和管理K8S集群的輕量級工具,可以極大地簡化並提升公有雲用戶的部署體驗
  • GTK 4.0開源工具包現已正式發布
    趕在周五的發布會之前,GTK 開發博客已經搶先宣布了 GTK 4.0 開源工具包的正式到來。雖然沒有與 GNOME 保持同步,但這至少可讓開發團隊在年底前騰出更多時間,為明年春季的 GNOME 40 的發布和移植做好準備。
  • 阿里開源MNNKit:基於MNN的移動端深度學習SDK,支持安卓和iOS
    機器之心報導參與:一鳴、Jamin近來,有越來越多的深度學習框架開始面向移動端進行發展。近日,阿里也基於其 MNN 推理引擎開源了最新的 MNNKit 深度學習 SDK,安卓和 iOS 開發者都可以方便地進行調用。
  • 專注E2E語音識別,騰訊AILab開源語音處理工具包PIKA
    機器之心報導作者:魔王、杜偉PyTorch + Kaldi,騰訊 AI Lab 開源輕量級語音處理工具包 PIKA,專注於端到端語音識別任務。Kaldi 是一個開源的語音識別系統,由 Daniel Povey 主導開發,在很多語音識別測試和應用中廣泛使用。
  • 10 個頂尖的 Linux 開源人工智慧工具
    在這篇文章中,我們將介紹幾個頂級的開源 Linux 生態系統的人工智慧(AI)工具。
  • 曠視開源深度學習框架「天元」!孫劍:COCO三連冠背後的秘密武器
    剛剛,深度學習驅動之下最早創業的中國AI獨角獸曠視,宣布開源自研深度學習框架MegEngine(Brain++核心組件之一),中文名天元——取自圍棋棋盤中心點的名稱。在發布會上,曠視聯合創始人、CTO唐文斌透露,這也是向AlphaGO致敬。與之前開源的「前輩」框架們不同,曠視開源的AI框架,是其創業、壯大和屢屢刷新業內紀錄的核心驅動引擎。
  • 聯邦學習開源框架FATE新版本發布!配套引擎EggRoll煥新登場
    FATE(Federated AI Technology Enabler)作為全球首個聯邦學習的工業級開源框架,實現了同態加密和多方計算(MPC)的安全計算協議,其支持聯邦學習架構,內置了多種機器學習算法的聯邦學習實現,FATE的每一次更新迭代,都在一定程度上代表著聯邦學習的前進方向。
  • 鬥魚發布首個開源框架Jupiter
    鬥魚首個開源項目來了。2020年6月1日,鬥魚將基於Go語言的微服務框架Jupiter正式開源,這也奠定了鬥魚在國內GO語言開發領域的技術領先地位。經過了三年打磨,超過30名鬥魚技術人員的不斷優化下,Jupiter已經完成了10個大版本和99個小版本的迭代。而在超過500個業務場景的實際驗證後,鬥魚最終決定將這套微服務框架正式開源。
  • 從曠視開源自研深度學習框架 看曠視商業進化的底層邏輯
    作為全球最早用深度學習方法開展人工智慧商業化探索的科技企業,曠視成立於AI 開發工具匱乏的早期人工智慧時代,於是曠視靠自主研發,從0到1地解決了算法生產的問題。自公司創辦以來,曠視一直奔跑在AI的主流賽道上,並形成了眾多基於核心AI算法的硬體、軟體、解決方案。但曠視唐文斌認為,真正影響產業跑速的不是算法、不是軟體和硬體,也不是解決方案,而是AI的基礎設施。
  • Facebook 開源 Instagram 安全工具 Pysa
    Facebook 宣布開源靜態分析工具 Pysa。