清華大學發布首個自動圖機器學習工具包,開源易用可擴展

2021-01-10 機器之心Pro

機器之心報導

機器之心編輯部

如何應用自動機器學習 (AutoML) 加速圖機器學習任務的處理?清華大學發布全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning),支持在圖數據上全自動進行機器學習。

人工智慧的蓬勃發展離不開數據、算力、算法這三大要素。而在浩瀚的數據中,有一種數據結構既普遍又複雜,它就是圖(graph)。

圖是一種用於描述事物之間關係的結構,其基本構成元素為節點和連接節點的邊。

很多不同領域的研究問題都可以很自然地建模成圖機器學習,例如蛋白質建模、物理系統模擬、組合優化等基礎研究;社交媒體分析、推薦系統、虛假新聞檢測等網際網路應用;以及金融風控、知識表徵、交通流量預測、新藥發現等。

社交網絡圖示例。

圖結構豐富且具有與生俱來的導向能力,因此非常適合機器學習模型。同時,它又無比複雜,難以進行大規模擴展應用。而且不同的圖數據在結構、內容和任務上千差萬別,所需要的圖機器學習模型也可能相差甚遠,這就導致不同任務的模型自動化面臨巨大挑戰。如何設計最優的圖自動機器學習模型,是一個尚未解決的難題。

圖 + AutoML = ?

自動機器學習 (AutoML) 旨在將機器學習的過程自動化,在降低機器學習使用門檻的同時,提升機器學習的效果。但現有的自動機器學習工具,無法考慮圖數據的特殊性,因此無法應用在圖機器學習模型中。

為了解決該問題,清華大學朱文武教授帶領的網絡與媒體實驗室發布了全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning)。該工具支持在圖數據上全自動進行機器學習,並且支持圖機器學習中最常見的兩個任務:節點分類任務(node classification)與圖分類任務(graph classification)。

AutoGL 流程圖。

AutoGL 工具包首先使用 AutoGL Dataset 維護圖機器學習任務所需數據集。AutoGL Dataset 導入了大規模圖表示學習工具包 CogDL 和圖神經網絡庫 PyTorch Geometric (PyG) 中的數據集模塊,並添加對 OGB 數據集的支持,同時還添加了一些支持以便集成 auto solver 框架。

不同的圖機器學習任務可以通過不同的 AutoGL Solver 得到解決。AutoGL Solver 使用四個主要模塊自動化解決給定任務,分別是特徵工程(Feature Engineering)、圖學習模型(Graph Learning Model)、超參數優化(HPO),以及模型自動集成(Auto Ensemble)。每個部分在設計時都引入了對圖數據特殊性的考慮。

模塊 1:特徵工程

AutoGL 特徵工程模塊包含了圖機器學習過程中常用的特徵工程方法,包括節點 / 邊 / 子圖特徵提取、變換和篩選,如節點度數、節點 ID、特徵向量等。這些方法顯著豐富了目標圖數據上的信息,提高了圖學習的效果。同時,用戶還可以非常方便地擴展特徵工程模塊,以實現個性化的需求。

模塊 2:圖學習模型

AutoGL 目前支持 GCN、GAT、GIN 等常見圖學習模型,可以完成包括點分類、圖分類在內的多種常見任務,使用方式簡單,上手方便。同時,AutoGL 主頁還提供了詳細的說明文檔,支持用戶自定義模型,可擴展性良好。

模塊 3:超參數優化

AutoGL 目前集成了多種通用超參數優化方法, 如網格搜索、隨機搜索、貝葉斯優化、模擬退火、TPE 等算法,同時還包含專門針對圖學習優化的自動機器學習算法 AutoNE。該模塊省去了圖學習中繁雜的手動調參過程,極大地提高了工程效率。同時,該模塊易於使用,用戶只需給出各個超參數的類型和搜索空間、指定超參數優化方法,即可快速上手運行若干自動圖學習模型。

AutoGL 會在給定的資源預算(時間、搜索次數等)內給出最優的超參數組合。該模塊同樣支持擴展,用戶可以自定義新的超參數優化算法。

模塊 4:模型自動集成

自動集成模塊目前支持兩類常用的集成學習方法:voting 和 stacking。該模塊通過組合多個基模型得到一個博採眾長的集成模型,從而進一步提升圖學習的效果。

AutoGL 工具包目前支持多種算法,如下表所示:

AutoGL 工具包四個不同模塊所支持的算法。

AutoGL 工具包極大地方便了開發人員進行對應的圖學習算法設計和調優。用戶只需按照 AutoGL 的數據集標準提供目標數據集,AutoGL 就會自動尋找最優的模型和對應的超參數,從而簡化圖學習算法開發與應用的流程,極大提升圖學習相關的科研和應用效率。

此外,AutoGL 工具包還提供了一個供使用者公平地測試與對比算法的平臺。AutoGL 在設計時遵循模塊化思想,每個模塊均可擴展,用戶只需實現對應模塊類的接口,即可方便地測試自己的算法,為快速獲得 baseline 效果、公平對比不同模型性能提供方便。

未來展望

據 AutoGL 研發團隊透露,他們將進一步深入研發,以方便其他研究者、業界使用者和初學者快速上手 AutoGL,解決學術界、產業界遇到的圖學習相關問題。

AutoGL 網站顯示,該工具包將在近期支持以下功能:

神經架構搜索;

大規模圖數據集支持;

更多圖任務(如連結預測、異構圖任務、時空任務);

Graph Boosting & Bagging;

對更多圖模型庫提供後端支持(如 DGL)。

AutoGL 研發團隊期待得到各類使用反饋,以更好地完善 AutoGL 的各項功能。「我們的最終目的是推動自動圖機器學習在學術界與工業界的深層次探索和應用。」AutoGL 研發者談及之後的計劃時表示。

相關連結

AutoGL 網站地址:http://mn.cs.tsinghua.edu.cn/autogl/

AutoGL 代碼連結:https://github.com/THUMNLab/AutoGL

AutoGL 說明文檔:https://autogl.readthedocs.io/en/latest/index.html

圖深度學習模型綜述:https://arxiv.org/abs/1812.04202

相關焦點

  • ...首個自動圖機器學習工具包AutoGL,開源易用可擴展,支持自定義模型
    機器之心報導機器之心編輯部如何應用自動機器學習 (AutoML) 加速圖機器學習任務的處理?清華大學發布全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning),支持在圖數據上全自動進行機器學習。
  • 清華大學發布全球首個開源自動圖學習工具包:AutoGL
    打開APP 清華大學發布全球首個開源自動圖學習工具包:AutoGL 機器之心 發表於 2020-12-26 10:38:26
  • 清華發布首個自動圖學習框架,或有助於蛋白質建模和新藥發現
    當前,人工智慧領域的自動圖機器學習研究悄然興起,小到蛋白質分子結構,大到城市交通網絡,都有自動圖機器學習的用武之地。澎湃新聞(www.thepaper.cn)記者從清華大學計算機系朱文武教授領導的網絡與媒體實驗室獲悉,該實驗室於2020年12月21日發布了世界首個自動圖學習框架與開源工具包AutoGL。
  • 快訊:首爾科學家3D列印多功能軟體傳感器可實現人機互動
    2.首爾科學家3D列印多功能軟體傳感器可實現人機互動 據內閤府說,有34個都道府縣將支持AI婚介,其中15個使用AI和大數據。內閤府官員田村響解釋說:「AI只提供選項,做決定的是當事人,並不是要強加特定的價值觀。」 4.YuMi機器人幫助完成樣本處理工作
  • 百度用量脈+量槳+量易伏賦能新基建 追逐「人人皆可量子」願景
    在此次分論壇上,百度研究院量子計算研究所所長段潤堯重點講解了百度量子平臺,展示了百度用量脈+量槳+量易伏賦能新基建、追逐「人人皆可量子」的願景。他介紹,「百度全新發布國內首個雲原生量子計算平臺量易伏,並全面升級量子脈衝雲計算服務系統量脈和量子機器學習開發工具集量槳,通過構建以百度量子平臺為核心的量子生態,開啟量子時代的大門。」
  • 10 個頂尖的 Linux 開源人工智慧工具
    它在 BSD 2-Clause 許可下發布,並且已經在諸如研究,啟動原型,以及視覺、語音及多媒體等工業應用領域支持了若干社區項目。官方網站:http://caffe.berkeleyvision.org/H20 是一個開源的,快速的,可擴展和分布式的機器學習框架,還有框架配備的算法。它支持更智能的應用程式,如深度學習,梯度 boosting,隨機森林,廣義線性模型(即邏輯回歸,彈性網絡)等等。
  • 微眾銀行開發的全球首個工業級聯邦學習開源框架 FATE 升級 v1.1...
    FATE 作為聯邦學習全球首個工業級開源框架,支持聯邦學習架構體系,為機器學習、深度學習、遷移學習提供了高性能聯邦學習機制,FATE 本身還支持多種多方安全計算協議,如同態加密、秘密共享、哈希散列等,具有友好的跨域交互信息管理方案
  • 百度開源2020:二十個技術領域持續開源 飛槳、阿波羅成行業領先者
    2.0版本為開發者提供了「編程一致、動靜統一」的全新開發體驗,動態圖功能走向成熟、API進行了全面升級,同時動靜統一的編程體驗將為深度概率編程、量子機器學習等前沿學術研究提供更好的支持。  12月20日,在WAVE SUMMIT+2020深度學習開發者峰會上,飛槳全新發布PaddleHelix螺旋槳生物計算平臺;推出業內首個通用異構參數伺服器架構;開源算法庫全面升級,官方算法數量從140+擴展至200+;飛槳硬體生態夥伴達到20家,適配或者正在適配的晶片/IP型號29種。飛槳提供了開源深度學習平臺自主可控的堅實底座,加速AI產業生態構建。
  • N 個免費 DevOps 開源工具,沒用過,至少應該了解!
    在DevOps環境中,開發人員和系統管理員會構建一些關係、流程和工具,從而更好的與客戶互動,最終提供更好的服務。簡單了解了Devops是個啥之後,一起來看看下面這60多款最棒的開源工具,可以幫助你很好的實行 DevOps。
  • 百度世界2020啟動,百度量子平臺用技術開啟量子時代大門
    在此次分論壇上,百度研究院量子計算研究所所長段潤堯重點講解了百度量子平臺,展示了百度用量脈+量槳+量易伏賦能新基建、追逐「人人皆可量子」的願景。他介紹,「百度全新發布國內首個雲原生量子計算平臺量易伏,並全面升級量子脈衝雲計算服務系統量脈和量子機器學習開發工具集量槳,通過構建以百度量子平臺為核心的量子生態,開啟量子時代的大門。」
  • 重磅發布開源框架、生物計算平臺螺旋槳,百度飛槳交了年終成績單
    在動態圖編程調試的過程中,開發者僅需添加一個小小的裝飾器,就可以無縫平滑地自動轉靜態圖訓練部署。同時,2.0RC 版本的飛槳還做到了模型存儲和加載的接口統一,保證動轉靜之後保存的模型文件能夠被純動態圖加載和使用。
  • 微軟推人人可用的機器學習,打通windows應用程式任督二脈,惠及5000...
    WhiteNoise:人人可用的差分隱私機器學習工具包  今年的大會,微軟著重強調了機器學習領域的進展。  Build大會上微軟宣布將開源多個機器學習工具包,這些工具跟以往的相比,更關注機器學習的隱私和公平性。
  • Uber開源神經進化算法開發的交互式可視化工具VINE
    近日,Uber 開源了神經進化算法開發的交互式可視化工具 VINE,該工具可以輕鬆實現神經網絡群體的各種特定指標以及適應度分數的可視化和隨時間的變化,用戶可對其進行實時評估。此外,VINE 還支持默認功能之外的高級選項和自定義可視化。
  • 聯邦學習開源框架FATE新版本發布!配套引擎EggRoll煥新登場
    FATE(Federated AI Technology Enabler)作為全球首個聯邦學習的工業級開源框架,實現了同態加密和多方計算(MPC)的安全計算協議,其支持聯邦學習架構,內置了多種機器學習算法的聯邦學習實現,FATE的每一次更新迭代,都在一定程度上代表著聯邦學習的前進方向。
  • 重磅發布!亞馬遜機器學習服務Amazon SageMaker又添九項新功能
    以下是Swami的演講內容和新功能介紹,雷鋒網進行了不改變原意的整理:今天的發布匯集了多項強大的新功能,包括更易用的數據預處理、專用的特徵存儲、自動化工作流、更多的訓練數據可見性以減少數據傾斜和更好的預測解釋
  • 盤點四大民間機器學習開源框架:Theano、Caffe、Torch和SciKit-learn
    在上期的,我們盤點了 TensorFlow,CNTK,SystemML,DeepMind Lab 等各大網際網路巨頭的開源平臺。本期,雷鋒網將帶領大家來看看誕生於民間(學界)的另外四大開源項目:谷歌、微軟、OpenAI 等巨頭的七大機器學習開源項目 看這篇就夠了1. TheanoTheano 在深度學習框架中是祖師級的存在。
  • 幾行代碼搞定ML模型,低代碼機器學習Python庫正式開源
    想提高機器學習實驗的效率,把更多精力放在解決業務問題而不是寫代碼上?低代碼平臺或許是個不錯的選擇。最近,機器之心發現了一個開源低代碼機器學習 Python 庫 PyCaret,它支持在「低代碼」環境中訓練和部署有監督以及無監督的機器學習模型。
  • 清華系RealAI發布首個企業級隱私保護機器學習平臺與升級版AI模型...
    刷臉認證、自動駕駛、大數據推送、智能音箱、手術機器人……人工智慧被廣泛應用於金融、電商、醫療、安防、教育等各個領域,但隨著技術的發展應用,由此引起的數據偽造、算法瓶頸、隱私安全、倫理困境等問題也日益凸顯。尤其是隨著全球多個國家都將發展新一代人工智慧提升為國家戰略,產業需求呈井噴之勢,人工智慧也亟需發展出安全、可信、可靠與可擴展的第三代人工智慧技術。什麼是第三代人工智慧?
  • 上傳三組表格即可分析AI模型,可視化工具Manifold開源,來自Uber...
    AI平臺TensorFlow已經有了可視化工具Tensorboard,但是如果你用的不是TensorFlow怎麼辦?最近,Uber也推出了一款ML可視化調試工具Manifold(流形),可以幫助開發者發現讓模型不能準確預測的數據子集,通過不同子集之間的特徵分布差異來解釋模型性能不佳的可能原因。
  • GTK 4.0開源工具包現已正式發布
    趕在周五的發布會之前,GTK 開發博客已經搶先宣布了 GTK 4.0 開源工具包的正式到來。雖然沒有與 GNOME 保持同步,但這至少可讓開發團隊在年底前騰出更多時間,為明年春季的 GNOME 40 的發布和移植做好準備。