MIT、浙大等打造AutoML可視化工具:模型自選、超參數自調

2021-01-11 新智元

新智元報導

來源:TechXplore

編輯:大明

【新智元導讀】MIT、香港科技大學和浙江大學的研究人員開發了一種交互式工具,首次實現讓用戶對自動化機器學習(AutoML)系統的工作方式和流程進行查看和控制,提高系統定製化程度,向打開機器學習「黑盒子」的目標邁進了一大步。

為特定任務設計機器學習模型(如圖像分類,疾病診斷和股市預測等)是一個艱巨而耗時的過程。研究人員首先要從多種不同的算法中進行選擇來構建模型。然後在模型開始訓練之前,手動調整「超參數」,確定模型的整體結構。

近期出現的自動機器學習(AutoML)系統可以對算法和超參數進行迭代式的測試和修改,並在此過程中選擇最適合的模型。但系統的運行機制是不透明的,相當於一個「黑盒子」,也就是說系統選擇了什麼技術、什麼模型,用戶是看不見的。因此,用戶就可能不信任模型給出的結果,而且很難根據自己的搜索需求來對系統進行定製。

定製化AutoML工具:模型自選,超參數自調

近日,在ACM CHI計算系統中人的因素會議上,麻省理工學院,香港科技大學和浙江大學的研究人員共同研發出一種工具,將AutoML方法的分析和控制權給到用戶手中。

該工具名為ATMSeer,它將AutoML系統、數據集和有關用戶任務的一些信息作為輸入,然後在用戶友好型的界面內實現可視化搜索過程,界面中還能提供更多關於模型性能的深入信息。

「使用ATMSeer,用戶可以自己選擇和觀察AutoML系統是如何工作的,」該研究論文的共同作者之一Kalyan Veeramachaneni說道,他是麻省理工學院信息與決策系統實驗室(LIDS)的首席研究科學家,負責將數據引入AI團隊。 「用戶可以只選擇一些性能最好的模型,或者結合其他因素或某些領域的專業知識,來指導AutoML系統去搜索某些特定模型。」

在對AutoML新手的案例研究中,研究人員發現大約85%使用ATMSeer的人對系統選擇的模型充滿信心。幾乎所有參與者都表示,該工具讓使用AutoML系統變得更舒服了。

ATMSeer會生成一個用戶友好的界面,顯示有關所選模型性能的深入信息,以及可調整的算法和參數的選項。

ATMSeer自動機器學習定製化工具的用戶友好型交互界面

「數據可視化是實現人與機器之間更好協作的有效方法。ATMSeer體現了這一理念,」論文合作者之一、香港科技大學的Wang Qianwen說。 「ATMSeer主要會讓機器學習從業者受益,無論他們從事什麼領域,專業水平如何,都能獲益。ATMSeer可以緩解手動選擇機器學習算法和調整超參數的不便。」

下面請看一段視頻演示和介紹:

便捷可視化工具實現「可視即可調」

ATMSeer工具的核心是一款定製的AutoML系統,名為「自動調整模型」(ATM),由Veeramachaneni等研究人員在2017年開發。與傳統的AutoML系統不同的是,ATM在嘗試擬合模型時會對所有搜索結果進行完整的編目。

ATM將任何數據集和編碼預測任務作為輸入。系統隨機選擇算法類別,比如神經網絡,決策樹、隨機森林和邏輯回歸,並選擇模型的超參數,如決策樹的大小或神經網絡層數等。

然後,系統針對數據集運行模型,迭代式調整超參數,並衡量模型性能。ATM利用掌握到了模型性能來選擇另一個模型。最後,由系統針對任務輸出幾個表現最理想的模型。

訣竅在於,每個模型基本上可以被視為帶有一系列變量的數據點:這裡說的變量包含算法,超參數和性能。在此基礎上,研究人員設計了一套系統,在指定的圖形和圖表上繪製數據點和變量。以此為起點,開發了一系列新技術,能夠實時重新配置數據。 「亮點在於,使用這些工具,你能夠可視化的任何東西,都可以修改。」史密斯說。

類似的可視化工具專門用於分析一種特定的機器學習模型,並能夠在有限的搜索空間內實現定製化。「因此,這些工具可以為分析和觀察AutoML的運行流程提供了有限的支持,還需要對許多搜索模型的配置進行分析。相比之下,ATMSeer支持分析使用各種算法生成的機器學習模型。」

將AutoML控制權交給用戶,使用體驗和信心明顯提升

ATMSeer的可視化界面由三部分組成。用戶可以通過控制面板上傳數據集和AutoML系統,並啟動或暫停搜索過程。下圖是一個概覽面板,顯示了基本統計數據,如搜索的算法和超參數的數量,還有按降序排列的最佳模型的「排行榜」。Veeramachaneni表示:「如果你不是特別在意技術細節的專家,這可能是你最感興趣的點。」

ATMSeer包含一個「AutoML Profiler」,其中的面板包含有關算法和超參數的深入信息,這些信息都可以進行調整。面板可以將所有算法類別表示為直方圖形式,用條形圖顯示算法性能分數的分布,範圍為0到10,具體取決於其超參數。用一個單獨的面板呈現散點圖,顯示不同超參數和算法類型的性能折衷。

對沒有AutoML經驗的機器學習專家的案例研究表明,讓用戶掌握控制權確實有助於提高AutoML應用的性能和效率。對生物學、金融等不同科學領域的13位研究生的研究也表明,確定用戶對AutoML的搜索的自定義關鍵有三點:搜索的算法數量、系統運行時間以及查找表現最好的模型。研究人員表示,這些信息可用來為用戶量身定製系統。

研究人員表示,目前對AutoML的應用缺乏足夠的靈活性。「現在所有這些信息都集中在一個地方,如果人們能夠清楚看到幕後發生的事情,有能力控制這些流程,未來對AutoML的應用將跨入一個嶄新的階段。」

參考連結:

https://techxplore.com/news/2019-06-black-automated-machine.html

論文連結:

https://arxiv.org/pdf/1902.05009.pdf

相關焦點

  • 百聞不如一練:可視化調試模型超參數!
    如果選用隨機森林作為最終的模型,那麼找出它的最佳參數可能有1000多種組合的可能,你可以使用使用窮盡的網格搜索(Exhaustive Grid Seaarch)方法,但時間成本將會很高(運行很久……),或者使用隨機搜索(Randomized Search)方法,僅分析超參數集合中的子集合。
  • PyTorch模型訓練特徵圖可視化(TensorboardX)
    大家都知道Tensorflow有一款非常優秀的可視化工具Tensorboard,而PyTorch自身沒有可視化功能,但是我們可以尋找替代品,即TensorBoardX。安裝過程不多介紹,詳見下面的參考連結,裡面相應有比較豐富的介紹。
  • 如何高效快速準確地完成ML任務,這4個AutoML庫了解一下
    auto-sklearnauto-sklearn 是一個自動機器學習工具包,它與標準 sklearn 接口無縫集成,因此社區中很多人都很熟悉該工具。通過使用最近的一些方法,比如貝葉斯優化,該庫被用來導航模型的可能空間,並學習推理特定配置是否能很好地完成給定任務。
  • 飛槳可視化分析工具VisualDL改版升級!幫助開發者擊破「黑盒煉丹」
    深度學習模型訓練過程盯log頭暈眼花?複雜模型結構全靠腦補?網絡各層效果無法評估?模型評估指標難以綜合權衡?近日,VisualDL 2.0 ——飛槳可視化分析工具全面改版升級,幫眾位開發者們從」煉丹萌新」變身「太上老君」。
  • 基於VAR模型的人民幣匯率的超調分析
    摘 要:通過建立VAR模型,運用脈衝響應函數和預測方差分解的方法對人民幣匯率的超調效應進行實證分析。結果表明,1990年以來,我國實際匯率與經濟增長GDP之間存在一種單向的因果關係,並且方差分解結果表明來自上期價格的衝擊對實際匯率的變化貢獻率較大。最後,對匯率超調模型在我國的適用性進行了分析。
  • 百度數據可視化實驗室正式成立,發布深度學習可視化平臺 Visual DL
    除了宣布品牌升級,此次涉及到的多個產品更新如下:全新 ECharts 4.0從 ECharts 官網可以看到,升級為 4.0 版本之後,ECharts 的特性變得更加豐富:豐富的可視化類型多種數據格式無需轉換直接使用
  • CNN 模型的可視化
    大家都了解卷積神經網絡 CNN,但是對於它在每一層提取到的特徵以及訓練的過程可能還是不太明白,所以這篇主要通過模型的可視化來神經網絡在每一層中是如何訓練的。我們知道,神經網絡本身包含了一系列特徵提取器,理想的 feature map 應該是稀疏的以及包含典型的局部信息。
  • Uber 開源 AI 可視化調試工具 Manifold,2 個工作流讓計算性能提升...
    >為了讓模型迭代過程更加可操作,並能夠提供更多的信息,Manifold 應運而生,它是一個用於機器學習性能診斷和模型調試的可視化工具。此外,它還可以顯示對於每一個數據子集,一些候選模型將有怎樣的預測準確性差異,從而為一些高級處理(如模型集成)提供數據根據。可視化設計隨著機器學習越來越成為相關業務不可分割的部分,提供使模型更透明且易於理解工具就顯得更加重要,這一工具可以使得開發者能自信自如地使用機器學習生成的預測。但考慮到機器學習模型本質上是不透明的複雜性,則需要通過新興的機器學習可視化來解決這個問題。
  • MindSpore可視化工具使用指南
    5 月12 日,機器之心聯合華為昇騰學院開設的線上公開課《輕鬆上手開源框架MindSpore》第 6 課完成,王越講師為大家帶來了主題分享《MindSpore可視化工具使用指南
  • 機器學習模型評估和超參數調優實踐
    在這篇文章中,我們將詳細探討如何評估機器學習模型結果,以及優化超參數的最佳實踐。模型評估就像學生為考試複習一樣,機器學習模型在準備完成預期任務之前必須經過一個學習和訓練的過程。這種訓練將使它能夠從實際數據中歸納和派生模式,但是我們如何評估我們的模型是否提供了數據的良好表示呢?我們如何驗證模型,並預測它將如何處理以前沒有見過的數據呢?
  • 智慧氣象大屏可視化決策系統
    可視分析決策支持  支持接入氣象各部門既有海量氣象數據,基於柵格、聚簇、熱圖、活動規律等多種可視化分析手段進行可視化分析研判;支持與氣象管理細分領域的專業分析算法和數據模型相結合,助力用戶挖掘數據價值,提高氣象管理指揮決策的能力和效率。  2.5.5.
  • 可視化工具不知道怎麼選?深度評測5大Python數據可視化工具
    作者 | 劉早起來源 | 早起Python(ID: zaoqi-python)相信很多讀者學習Python就是希望作出各種酷炫的可視化圖表,當然你一定會聽說過Matplotlib、Pyecharts、Seaborn、Plotly、Bokeh這五大工具,本文就將通過真實繪圖來深度評測這五個Python數據可視化的庫,看看到底這幾種工具各有什麼優缺點
  • 《迷你世界》自定義模型攻略 讓我來告訴你自定義模型怎麼做
    川北在線核心提示:原標題:《迷你世界》自定義模型攻略 讓我來告訴你自定義模型怎麼做 《迷你世界》是一款高度自由的休閒類3D沙盒遊戲,有著非常方便快捷的多人聯機模式,在這裡,你能夠隨心所欲創造一切,那麼《迷你世界》自定義模型怎麼做?
  • 使用Unity感知工具大批量生成、分析合成數據,高效地訓練ML模型
    合成數據可降低獲取標註數據的難度,方便機器學習模型的訓練。本文屬於合成數據系列第二篇,我們將用一個對象檢測的例子,來介紹Unity生成和分析合成數據集的各種工具。 在系列首篇文章中(點擊回看),我們討論了搜集大量標籤圖像、訓練機器學習模型完成電腦視覺任務時遇到的各種挑戰。
  • 調參到脫髮?自動超參搜索帶著免費算力資源拯救你!_發現頻道_中國...
    在人工智慧領域,算法工程師在訓練神經網絡模型的過程中,完成網絡構建和準備好訓練數據後,往往需要對模型進行各種參數優化,以獲得更好的模型效果。但調參其實並不簡單,背後往往是通宵達旦的參數調試與效果驗證,並需要做大量的實驗,不僅耗時也耗費大量算力。  這個時候,往往想嘗試自動超參搜索,但又開始擔心算力要求所帶來的額外訓練成本。  莫慌!
  • .| 超逼真的 3D 人體解剖模型;AlphaGo 上線教學工具教人下棋...
    超逼真的 3D 人體解剖模型格拉斯哥大學虛擬可視化學院正在和一流的醫院和大學合作,完成目前最精確和詳細的頭頸模型。3D 虛擬模型具有超高的解析度,可以跟用戶完全互動,能在各種環境和平臺使用。學生可以在場景中和模型互動,這個場景像 IMAX 影院一樣;也能在平板電腦、筆記本電腦或行動裝置上進行單人學習。
  • Google Poly內置VR工具支持可視化3D對象
    開發人員Andy Bacon發布了一個概念驗證機制的VR工具,該工具使用戶可以在VR中拼出任意單詞,並實時將其可視化為Google Poly對象。據悉,這個概念性VR工具不僅可以實現在虛擬實境中構建虛擬空間,又可以用於遊戲機制開發。 Andy Bacon表示這款VR工具將是VR遊戲「Lexicon」的核心,經過多次的迭代,最新版本吸收了多方建議,只需少量的加載就能將Google Poly對象充分展示,並支持用戶在VR空間中拼寫單詞。
  • 數字冰雹智慧司法 大屏可視化決策系統產品白皮書
    行業模型算法集成支持與司法管理領域的專業分析算法和數據模型相結合,支持計算結果與其他來源數據的融合可視化分析,將現有信息資源與人工智慧計算結果進行串並分析,充分利用已有信息化建設成果,為用戶提高決策效率,提供智能化決策支持。2.7. 多維數據感知2.7.1.
  • 教程| 通過可視化隱藏表示,更好地理解神經網絡
    本文使用的工具是 Neural Embedding Animator,大家可以利用該工具更好地理解模型行為、理解訓練過程中數據表示的變化、對比模型、了解此詞嵌入的變化。為了生成這些可視化,我開發了基於 D3.js 的 Javascript 工具。它能產生靜態可視化圖和動圖。對於動態圖,我們需要上傳兩個我們想要進行對比的 csv 文件,這些文件包含隱藏表示。該工具能使文件中的點動起來。我們也可以控制動畫,以便觀察一組特定的點在訓練過程中的移動軌跡。本文開頭有一個例子,讀者可以去試一下。