提高建模效率,改變手工作坊式生產,AutoML的技術研究與應用進展...

2021-01-08 AI科技大本營

整理 | 王銀

【導讀】12 月 5-7 日,由中國計算機學會主辦,CCF 大數據專家委員會承辦,CSDN、中科天璣協辦的中國大數據技術大會(BDTC 2019)在北京長城飯店隆重舉行。100+ 頂尖技術專家、1000+ 大數據從業者齊聚於此,以「大數據驅動智能+」為主題,聚焦智能時代大數據技術的發展曲線,圍繞大數據與社會各行業相結合的最新實踐,進行了深度解讀和討論。

其中,熱門的「自動化機器化學習技術與系統」論壇於12月6日拉開帷幕,作為本次論壇的開場嘉賓,江蘇鴻程大數據研究院副總經理、南京大學PASA大數據實驗室博士朱光輝帶來了《自動化機器學習AutoML技術研究進展 》的主題演講。

核心觀點:改變人工智慧建模依賴專家的手工作坊式生產,打造人工智慧建模的「數控工具機」,利用機器替代人工實現AI模型的構建,大幅提升AI建模效率,降低AI技術門檻,加速AI應用落地。

眾所周知,機器學習與人工智慧技術目前已經成為國家重要發展戰略之一,各行各業都在積極向人工智慧轉型升級。著名計算機專家李開復曾預計,到2025年,AI將無處不在,「AI賦能行業」應用模式在未來將迎來高速成長。然而AI在行業應用落地時,卻存在著專業人才短缺、技術門檻高、建模周期長等痛點,導致很多中小企業對人工智慧望塵莫及。

打造AI行業的「數控工具機」

隨著人工智慧的普及,科技公司對人工智慧的要求越來越高,人才成本、準確度、效率都影響著人工智慧能否落地融入到日常的使用中。對人工智慧應用的快速增長也進而催生了對影響人工智慧水平的關鍵要素——機器學習方法的需求。正因此,自動化機器學習方法AutoML應運而生,利用機器替代人工完成AI建模,從AI for APP到AI for system最後到AI for AI,用人工智慧的方法自動化完成AI模型的構建,大幅降低AI的使用門檻,從而提升建模效率。

「自動化機器學習就好比構建一個AI行業的數控工具機,以前靠人現在靠機器,多快好省的以自動化的方式生產AI模型。「朱光輝說,傳統的AI模型訓練往往要經歷特徵分析、模型選擇、調參、評估等步驟,這些步驟需要經歷數月的時間,如果完全沒經驗,時間會更長。

而AutoML可以完全不用依賴人工專家經驗,它可以依靠數學方法,人工智慧算法理論由完整的數學推理的方式來證明,自動化完成模型自動選擇和參數調優,最終實現實現端到端機器學習流水線的自動化設計。具體來說,就是給定通過輸入數據集,在更短的時間內嘗試更多的算法模型,尋找到最優或者滿足應用精度需求的算法模型。而後針對特定模型,通過數據的分布和模型的性能,不斷評估最優解的分布區間,實現對參數進行優化的目的。

AutoML不僅可以解決傳統學習,還可以解決深度學習、終生學習。AutoML可以解決自動化特徵工程、自動化模型選擇、自動化參數優化等不同類型的任務,在類型和任務確定的前提下可以選擇針對特定任務的AutoML方法,比如語言元學習、強化學習、遺傳算法等等。

多緯度突破創新

南京大學PASA大數據實驗室從2017年開始研究自動化機器學習,談及具體取得了哪些進展,朱光輝從以下層面進行了介紹。

基於強化學習的三階段機器學習流水線,自動化設計算法框架。為了實現高效的機器學習流水線的自動化設計,提出基於強化學習的三階段機器學習流水線算法的框架,主要包括——元學習階段、強化學習階段和集成學習階段。針對強化學習階段,將機器學習流水線自動化設計的問題抽象成強化學習問題,即將從開始到數據預處理,再到特徵選擇、算法選擇的這樣一個流水線抽象成強化學習的問題,再利用強化學習Q-Learning或者DQN等強化學習的方法來解決問題,最終自動地設計出一個最優的機器學習流水線。

如下圖所示,每個狀態代表當前pipeline所處的階段及當前階段所選擇的算法,不同階段之間的算法可以跳轉,但分類算法選擇不可以跳過,因為只有先選擇一個分類算法才可以解對應的分類問題。在既定的計算時間內怎麼選擇最優的流水線,最終由強化學習來自動決定。

另外,元學習階段通過收集多個數據集進行預訓練,實現強化學習階段實現熱啟動。集成學習階段使用Stacking等集成學習方法對多個性能較好的機器學習流水線進行集成,進一步提升算法魯棒性。在PAKDD 2018 舉辦的第二屆AutoML國際競賽,朱光輝帶領團隊從全球285支隊伍中脫穎而出,取得了國際第三名的優異成績。另外,為了提升AutoML算法的運行效率,團隊研究實現了並行化的AutoML算法,支持分布式運行。基於集成學習階段,開發PASA-AutoML系統平臺實現端到端的機器學習流水線自動化設計。籠統來講,PASA-AutoML對在驗證集上表現良好的模型使用交叉驗證,得到訓練集以及測試集的預測作為新的訓練集和測試集的特徵;而後使用新的訓練集訓練一個高層分類器(邏輯回歸),然後用高層分類器類預測新的測試集來得到最終的預測結果。

朱光輝強調,為了實現AutoML的應用落地,將進一步將AutoML技術封裝成一個完整的系統,叫做PASA-AutoML。PASA-AutoML性能優於目前國際上最好的開源自動化機器學習系統Auto-sklearn。,它不僅簡單易用,而且支持更豐富的AutoML業務場景。,還支持超單優化的調優,而相比於單機算法,PASA-AutoML能夠在更短的時間內取得更好的預測性能。

基於自適應連續篩選的模型選擇/超參調優。現實的應用場景中算法和模型的超單數的組合空間非常巨大,但可用的AutoML時間資源卻是有限的,因此過濾出最有模型/超參數就顯得尤為重要。將模型選擇問題抽象成多臂賭博機(Multi-armed bandit)問題,將每個候選模型作為賭臂,並且為每個模型構建貝葉斯模型,而後在每一輪候選模型驗證過程中,根據貝葉斯超參優化結果選擇超參數,將表現較差的模型/超參數組合儘可能早地過濾掉,從而將更多的資源分配給表現較好的模型/超參數組合,從而提升AutoML計算效率。

基於終身學習場景,圍繞自動化特徵編碼、自動化特徵組合、自動化特徵選擇進行規範自動化特徵工程以及增量學習技術,提出基於時間窗口的自適應同時加權集成學習算法,最終實現能夠自動捕捉數據集特徵的變化,實現模型的動態更新自適應地設計出模型的目的。也正是通過這個技術實驗,南京大學PASA大數據實驗室在NIPS 2018舉辦的第三屆AutoML國際競賽中從全球348支參賽隊伍(包括清華大學、北京大學、麻省理工學院、UC Berkeley等國內外知名高校以及微軟、騰訊、阿里巴巴等科技巨頭公司)脫穎而出,取得國際第三名的優異成績。

基於時序多表關係型數據集,構建高效有效機器學習模型。在實際生產環境下,數據往往分布在多個關係數據表中,而多表自動關聯後,特徵維數急劇膨脹。這時,採用基於採樣的自動化特徵選擇方法可以有效降低內存開銷;除此之外,還可以採用基於多次採樣數據的集成學習方法,將LightGBM作為學習器,並利用貝葉斯優化進行超參數調優。而在KDD Cup 2019數據挖掘國際大賽中榮獲TOP10優勝獎(全球860多支參賽隊伍),體現了該技術在解決時序多表關係數據AutoML正是AutoML能夠高效利用關係型數據的有效性有力佐證。

基於多保真度優化,提出優化深度神經網絡超參算法。在多保真度優化層面,相比於傳統的機器學習,深度神經網絡訓練時間開銷較大,對應地,深度神經網絡超參調優的時間開銷也會大幅度提升。而為了提升深度神經網絡超參優化效率,團隊提出多保真度優化和early-stopping機制相結合的算法,在多組採樣數據集上高效評估超參數組合性能,同時具備良好的anytime performance和final performance。

AutoSpeech大賽顯身手

隨著AutoML越來越火,越來越多的人開始嘗試將AutoML和時間序列數據集、自然語言文本數據集以及語音數據集關聯起來,通過自動化的方式解決語音自動化分類或者文本的自動分類問題。朱光輝所在的團隊參加了在ACML 2019舉辦的第一屆AutoSpeech國際競賽,並獲得第一名,並獲邀至在加拿大舉辦的NIPS 2019做技術分享報告。AutoSpeech作為NIPS 2019 AutoDL自動化深度學習系列挑戰賽之一,吸引了廣泛的關注。

該賽事的指標是圖裡陰影的面積,它是性能和時間的積分,叫做性能的時間函數。這個指標不僅要考慮性能,而且要在更短的時間得到性能優異的模型內出結果。因為做AutoML算法要考慮其通用性的特點,比如音頻數據集可能涉及3個甚至100個類別,音頻時長不同,數據集的特徵不同,但是算法要涵蓋不同數據集的特點,做通用的解決方案。

首先,針對不同數據集,制定通用解決方案,語音特徵選取MFCC、梅爾頻譜,文本就是數據選取用TF-IDF特徵快速出結果,再用Embedding提升最終性能,從而構建的遞增式學習框架。

根據評價指標,團隊設計了一個比較個性化的框架,先用簡單的模型,邏輯回歸模型快速得出結果,再用複雜的模型,如神經網絡CRN或LSTM得到較高的性能。根據這樣一個評價指標先用簡單的模型快速得出結果,再用複雜的模型提出最終的性能,用增量的學習框架解決這個問題。

團隊還為該模型做了一個集成學習的方法,每個模型會一直維護 top3 的小集成,在通過求大集成和小集成的平均率得到最終的效能。

在一些數據集下用傳統的機器學習算法就已經達到了很好的性能,出結果很快,不到幾秒就能達到性能上限,說明做文本分析或語音分類解決實際問題時不一定上來就用神經網絡,可以選擇比較好的特徵,用傳統的機器學習模型探索,再逐漸應用深度學習網絡。

此外,朱光輝還表示南京大學PASA大數據實驗室下一步的重點是做自動化特徵組合的相關工作,他們發現,各種比賽的特徵組合對於提高最終的性能非常有幫助,所以其首要工作就是自動化的特徵組合。

第二,將聚焦於AutoML的效率方面,提高AutoML效率也是一個非常關鍵的問題,比如可以通過採樣提高性能,或通過減少迭代次數提升大數據的AutoML性能。

第三,深度森林為代表的深度集成學習的架構搜索。

在和華為的一項合作項目中發現,做自動化機器學習技術時不僅考慮模型性能,還要考慮模型的複雜度,比如華為很多算法部署在基站信號塔裡,所以要考慮模型的複雜度和性能優化的問題。

第四是AutoML+圖像、文本、語音、時間序列。PASA大數據實驗室也正在研究自動化半監督學習,讓用戶只需要部分標註數據就可以實現自動化建模。

「如今,我們的技術已經被華為、360廣泛使用,有非常廣闊的市場空間,我們的團隊成立了研究院江蘇鴻程大數據研究院,加快科技成果轉化。」談及未來,朱光輝說,「我們還將進一步開發完善AutoML平臺,面向細分行業提供定製化分析的AutoML產品或服務,以自動化和高效易用的方式,支持行業大數據智能化分析建模與應用的快速開發。「而我們也堅信,讓AI惠及更多的行業和企業,以此讓AI真正普及並賦能行業應用。」

相關焦點

  • 全新AutoML工具實現基因組全自動建模「寶藏技術」解讀生命天書
    隨著測序技術的發展,如今完成一個人全基因組測序已是普通家庭都可以負擔起費用的「平常」事,但是關於基因學組的研究卻仍處於起步階段。目前全世界科學家可以解讀的遺傳密碼不超過3%,還有97%的遺傳密碼猶如一座科學尚未突破的巨塔,而AI或許就是攀登這座巨塔的「寶藏技術」。
  • 兵馬俑製作非流水線生產 手工痕跡清晰可見(圖)
    兵馬俑製作非流水線生產 手工痕跡清晰可見(圖) 2014-08-06 13:12:17來源:西安晚報作者:責任編輯:上官雲   眾所周知,兵馬俑出土了上千件兵馬俑和4萬多件青銅兵器,當初如此大規模的製作生產,其工藝流程、管理組織、是否流水線等問題都引發好奇。秦陵博物院與英國倫敦大學於2006年開始了「秦時期手工業生產的標準化和勞動力組織模式研究」的合作項目。  在採用了多學科綜合分析後,最終研究表明,手工加工痕跡在顯微鏡下清晰可見。
  • 傾斜攝影和雷射掃描技術在城市三維建模中的融合應用研究
    摘 要: 基於提高傾斜攝影技術在城市三維建模效果目的,採用了地面雷射掃描技術在傾斜攝影建模基礎上進行匹配融合的方法,通過對某個小區建築物進行無人機傾斜攝影和地面擺站雷射掃描相結合的數據處理實驗,得出了通過兩者技術融合在城市建築三維模型建設中紋理效果有效提升的可行性結論,並在實驗結論中提出了改進意見。
  • 生物質固體成型燃料技術研究進展及應用效益分析
    生物質固體成型燃料技術研究進展及應用效益分析 李平,蔡鳴,陳正明,崔晉波(重慶市農業科學院,重慶401329)  摘要:闡述了生物質固體成型燃料技術的國內外研究現狀,對當前生物質成型燃料技術工藝、設備研究進展和生物質固化成型燃料應用狀況進行了總結,並分析了我國生物質成型燃料應用的經濟、社會和生態效益。
  • 自由基OLED研究出現重大進展,發光效率大大提高
    為了提高顯示器的亮度、對比度和解析度,同時降低生產成本和能源使用
  • 雷射焊接技術最新研究進展及應用現狀
    編者按本文對雷射焊接各加工技術的最新研究進展進行了全面地梳理和總結,綜述了雷射焊接從焊接工藝加工、雷射焊接中間過程的控制和雷射焊接缺陷處理的全流程的內涵、特點和研究新趨勢的國內外研究進展。介紹了雷射焊接系統的核心元器件的應用以及其在汽車、石油管道、電車設備等領域的裝備加工工程中的工程化應用。
  • 雷射焊接技術最新研究進展及應用現狀
    編者按本文對雷射焊接各加工技術的最新研究進展進行了全面地梳理和總結,綜述了雷射焊接從焊接工藝加工、雷射焊接中間過程的控制和雷射焊接缺陷處理的全流程的內涵、特點和研究新趨勢的國內外研究進展。介紹了雷射焊接系統的核心元器件的應用以及其在汽車、石油管道、電車設備等領域的裝備加工工程中的工程化應用。
  • 自由基OLED研究現新進展,發光效率大大提高
    、對比度和解析度,同時降低生產成本和能源使用,科學家開發了幾種類型的LED,包括OLED、基於量子點的LED(QLED)、基於鈣鈦礦的LED和Micro LED。日前,發表在《自然雜誌》上的一項新研究表明,使用自由基的OLED出現新進展。
  • 用於重組抗體生產的細胞構建技術研究進展
    近年來,工程細胞系構建技術的研究進展主要集中在以下三個方面:利用"細胞工程"技術提高宿主的生長、表達能力,新型載體功能元件和定點整合技術克服載體隨機整合時發生的"位置效應",以及應用流式細胞分選術和高通量篩選機器提高了重組細胞的篩選通量和效率。
  • 數據時代幾何處理與建模的研究進展與趨勢
    CCF於1月11日發布了最新一期《中國計算機科學技術發展報告》,對可群智協同計算、軟體智能化開發技術等11個方向的研究進展做了詳細介紹和討論。我們將分期分享報告中的精彩內容,加入CCF會員登錄CCF官網,可在數字圖書館欄目下載和瀏覽。
  • 通過光束整形提高雷射增材製造SLM生產效率
    江蘇雷射聯盟導讀:SLM是增材製造技術中最有前途的技術之一。SLM技術可以從3D原型採用粉末直接製造出3D形狀的金屬和合金。如今SLM技術的生產效率還比較低,從而限制了該技術更為廣泛的應用以及將該技術作為一種新技術來解決先進設計遇到的難題採用SLM技術進行解決的可能性。提高SLM生產效率的解決方案可以讓金屬3D列印在很短的時間內列印出複雜的3D形狀來。
  • 雷射焊接技術最新研究進展及應用現狀?
    2 國內外研究進展 近年來,國內外的研究團隊從雷射的移動方式、熱源組合等角度不斷探索研究最合適的工藝參數,提高了多種雷射焊接方式的技術,包括雷射深熔焊、雷射-電弧複合焊接等。,大多集中於改變雷射束的數量上而來對雷射焊接缺陷的研究。
  • 基因組實現自動AI建模,華為雲助力科研人員探索生命奧秘
    在華為開發者大會2020(Cloud)期間,華為雲發布全新AutoML工具AutoGenome,支持對基因組數據進行全自動AI建模,助力科研人員探索生命奧秘。目前,AI技術已經廣泛應用在圖像、語音等領域,然而在生物醫學領域,尤其是基因組學數據領域,AI的應用仍處於初期階段。
  • 雷射衝擊強化技術進展及應用
    為提高零部件的可靠性,延長材料的使用壽命,在不改變基體材料性能的前提下,表面強化技術與方法得到了廣泛應用,取得了良好的經濟效益。隨著航空航天、武器、核能、交通等高端設備的發展,對其零件表面性能要求也越來越高,傳統的噴丸、表面滾壓等強化技術漸漸難以滿足高性能設備的生產要求,而雷射衝擊強化技術很好地解決了這些問題。
  • 漫談熱脫附技術——研究進展與應用案例
    漫談熱脫附技術——研究進展與應用案例北極星環境修復網訊: 土壤修復技術中的熱脫附技術是指在真空條件下或通入載氣時,通過直接或間接熱交換,將土壤中的有機汙染物加熱到足夠的溫度,以使有機汙染物從汙染介質上得以揮發或分離,進入氣體處理系統的過程。
  • ...技術在鋰離子電池中的最新研究進展及其在高比能矽負極中的應用...
    水熱鋰化沒有改變材料的表面形貌和晶體結構,提高了α-MoO3的電子導電性(102 S/cm vs.104 S/cm)、首次庫侖效率以及循環穩定性。化學預鋰化在各種納米結構正負極材料中得到了廣泛的應用,如 V2O5、MnO2 。 中國科學院金屬研究所成會明院士課題組報導了LiF納米顆粒修飾的石墨烯負極材料在鋰離子電池中的應用。
  • 準諧振與諧振:兩種提高電源效率的技術
    不過,隨著對效率的要求不斷提高,這兩種拓撲將逐漸為三種新的拓撲所取代:準諧振反激式拓 撲、LLC 諧振轉換器拓撲和不對稱半橋拓撲。準諧振反激式拓撲已被成功用於最低功率級到 200W 以上的範圍。在 70W-100W 範圍,LLC 諧振轉換器比準諧振反激式拓撲更有效。而在這兩個功率 級之上,不對稱半橋轉換器也很有效。
  • 膜技術在多糖分離、濃縮中的應用研究進展
    膜分離作為一種新型的分離技術,用於多糖、酶等活性物質的分離與純化,收率高且極少破壞,目前已廣泛用於製藥工業,因其高效、節能的優勢也逐漸代替中藥生產中傳統的醇沉工藝,是當前天然多糖分離研究中十分活躍的領域以壓力差為推動力的膜分離過程包括微濾、超濾、納濾、反滲透,根據篩分原理使某些組分選擇性透過,實現提純、分離和濃縮。目前應用較多的是超濾和微濾技術。
  • 廉價電催化水分解研究領域取得重要進展催化效率大幅提高
    作為一種重要的可持續新能源技術,開發高效、廉價的水分解電催化劑受到廣泛關注。記者13日從中南大學獲悉,中南大學材料科學與工程學院劉小鶴教授團隊在廉價電催化材料領域取得了系列進展,《先進功能材料》《應用催化B:環境》等國際權威期刊連續發表了該團隊最新研究成果。   氫能是最具前景的清潔能源之一,電解水產氫是目前較為理想的制氫技術。然而,這項技術的廣泛應用一直被高價的貴金屬催化劑所制約,亟待尋找廉價的高性能電催化劑替代貴金屬催化劑。
  • 石化廢水深度處理技術的研究進展
    石化廢水深度處理技術的研究進展北極星水處理網訊:摘要:我國水資源貧乏,地表水汙染嚴重,近年來,隨著石油工業的迅猛發展,消耗了大量水資源,並向環境排放了大量廢水,更加劇了環境汙染和資源危機。石化廢水經過一定處理後,作為再生水回用,不僅可以提高水資源利用率、節約水資源,緩解水資源短缺的矛盾,更可以減少汙染物排放、控制水體汙染,進而改善生態環境,具有重要的社會經濟效益。關鍵詞:石化廢水;深度處理技術;研究進展 1導言近年來水資源短缺的現狀給石化行業的發展帶來了嚴峻的挑戰,大量的石化廢水排放也對環境造成了威脅。