IBM NeurIPS 2018 poster:把深度學習模型的表現遷移到傳統機器...

2020-12-18 雷鋒網

雷鋒網 AI 科技評論按:為了解釋深度神經網絡,研究人員們想了各種各樣的辦法。IBM 研究院的論文《Improving Simple Models with Confidence Profiles》也從一個角度研究了這個問題,並被 NeurIPS 2018 接收為 poster 論文。雷鋒網 AI 科技評論把論文主要內容介紹如下。

在許多機器學習系統中,系統的可解釋性和模型性能往往是不可兼得的。因為許多性能最好的模型(即深度神經網絡)本質上都是黑盒。在 IBM 研究院改進簡單模型的工作中(https://arxiv.org/abs/1807.07506 ),他們提出一種將信息從高性能的神經網絡遷移到另一個領域專家或應用程式可能需要的模型的方法,從而彌補性能和可解釋性之間的鴻溝。例如,在計算生物學和經濟學中,稀疏的線性模型往往是從業者的首選方案,而在半導體製造等複雜儀器領域中,工程師們可能更喜歡使用決策樹。這種更簡單的可解釋模型可以與專家建立信任,並提供有用的分析結果,從而發現新的、以前未知的事實。他們的目標如下圖所示,在這個例子中,他們試圖提升決策樹的性能。

假設網絡是一位表現出色的老師,我們可以將它的一些信息傳授給簡單、可解釋但通常性能不佳的學生模型。根據樣本建模的難易程度對樣本進行加權,可以幫助簡單的模型在訓練時專注於更容易建模的樣本,從而獲得更好的整體性能。他們的研究與 boost 集成學習方法不同:在 boosting 方法中,對於之前的一個「弱分類器」難以建模的示例會被重點關注,以便讓後續的訓練創建多樣性的訓練結果。在這裡,困難的示例指的是對於構建一個準確率很高的複雜模型而言的。這意味著這些標籤幾乎是隨機分布的。而且,如果一個複雜的模型不能解決這些問題,那麼複雜度被固定的簡單模型就沒有希望了。因此,在他們的研究中,重點關注簡單模型可以解決的簡單示例是非常重要的。

為此,他們根據網絡的難易程度為樣本分配權值從而對其進行分類,並通過引入「探針」來具體實現這樣的思路。每個探針從一個隱層獲取它的輸入。每個探針都含有一個全連接層,全連接層後還附有一個softmax層,該softmax層的維度與連接到該層的網絡輸出相同。第 i 層的探針相當於一個分類器,它只使用第 i 層之前的網絡的。假設即使對於第一層的探針來說,簡單的實例可以以高置信度被分類,那麼他們就可以通過所有探針得到每個實例的置信水平 p_i。他們使用所有的 p_i 來計算實例的難度 w_i ,例如 p_i 的 ROC 曲線下的面積(AUC)。下圖顯示了一個簡單示例和一個困難示例之間的區別。

現在他們可以使用權重在最終加權後的數據集上對簡單模型重新進行訓練。他們把這種方法稱為由「探針,獲取置信度權重,再訓練過程」組成的工作流。

對於如何計算數據集中示例的權重,他們提出了兩種備選方案。在上面所提到的 AUC 方法中,他們標註出了在原始訓練集上訓練時,簡單模型的驗證錯誤率/準確率。他們會選出一個準確率至少為 α(> 0,大於簡單的模型的準確率)的探針。每個示例都是基於真實標籤的平均置信度得分進行加權的,該得分是使用來自探針的 softmax 預測計算出來的。

第二種備選方案是使用神經網絡進行優化。這裡他們通過優化下面的目標函數來學習訓練集的最優權值:

其中,w 代表為每個實例計算出的權重,β 表示簡單模型 S 的參數空間,而 λ 是其損失函數。他們需要對權值進行約束,否則所有權值趨於 0 的平凡解(Ax=0 中的零解)將自然而然地成為上述目標函數的最優解。他們在論文中證明了,E[w]=1 的約束條件與尋找最優重要抽樣有關。

在更一般的情況下,ProfWeight 可以被用於將知識遷移到更簡單但不透明的模型(如較小的神經網絡),這些模型可能在內存和功率受限的領域中非常有用。實際上,當他們在物聯網系統、行動裝置或無人機的邊緣設備上部署模型時,就會遇到這種約束。

他們在兩個領域測試了我們的方法:公共圖像數據集 CIFAR-10和 IBM 專有的數據集。在第一個數據集上,他們的簡單模型是更小的神經網絡,它將遵守嚴格的內存和功率約束。他們看到,在這種情況下,新方法的性能得到了 3- 4% 的提升。在第二個數據集上,他們的簡單模型是一個決策樹,他們在該模型上取得了大約 13% 的顯著提升,從而得到了可以被工程師在實際項目中使用的結果。下面他們將 ProfWeight與在該數據集上使用的其它方法進行比較。如圖所示,他們比其它方法有相當大的優勢。

在未來,IBM 研究院希望找到在使用他們的策略進行知識遷移時所需要的必要/充分條件,從而提升簡單模型的性能。他們還想開發出比這個已經完成的方法的更精妙的信息遷移方法。

via IBM Research,雷鋒網 AI 科技評論編譯

KDD 2018 上也有一篇來自裴健團隊的研究可解釋性的論文,希望了解更多的讀者可以參見 《裴健團隊KDD新作:革命性的新方法,準確、一致地解釋深度神經網絡》。

相關焦點

  • 一文概述 2018 年深度學習 NLP 十大創新思路
    1)無監督的機器翻譯翻譯(Unsupervised MT)ICLR 2018 收錄的兩篇關於無監督機器翻譯翻譯的論文(https://arxiv.org/abs/1710.11041)中,無監督機器翻譯的整個過程的表現好得讓人感到驚訝,但結果卻不如監督系統。
  • 學界| 點內科技、華東醫院及上海交大合著論文:3D深度學習在CT影像...
    機器之心發布來源:點內科技本研究利用高效的、多任務的 3D 卷積神經網絡 DenseSharp,同時進行分類和分割,旨在研究從 CT 影像預測早期腫瘤病理浸潤深度學習和放射專家的準確度。通過建立醫療影像上的 taskonomy(任務譜),逐步使醫療影像的研究脫離西西弗斯式的悲劇(Sisyphean challenge),合理的任務配置將會極大降低模型的學習難度、遷移泛化能力、穩定性和可靠性。該模型基於 3D DenseNets,配合多任務學習,是參數高效(parameter-efficient)的 3D 卷積神經網絡。
  • IBM、哈佛聯合提出Seq2Seq-Vis:機器翻譯模型的可視化調試工具
    介紹基於神經網絡的深度學習方法在諸多人工智慧任務中都表現出了驚人的提升效果,但複雜的結構也令人們很難解釋其預測結果。基於注意力的 sequence-to-sequence models (seq2seq) [3, 49],通常也稱為編碼器-解碼器(encoder-decoder)模型,就是這一趨勢的範例。在很多諸如機器翻譯、自然語言生成、圖像描述以及總結的應用場景中,seq2Seq 模型都表現出了當前最優的效果。最新研究表明,這些模型能夠在特定的重要場景下,實現人類級別的機器翻譯效果。
  • 阿里的AI安全武功秘籍:遷移+元學習開路,小樣本數據能用跨模態
    廣泛使用遷移學習遷移學習近來取得了很多成果。從通用圖像表徵到自然語言處理,預訓練模型已成為解決一些任務的有效方法。在阿里的實踐中,很多任務都可以採用遷移學習來解決。一方面,模型可以在小樣本、低質量數據的條件下進行學習,同時還能夠利用遷移學習的能力,使模型具有一定的泛化能力。
  • 2小時演講,近140頁PPT,這個NeurIPS Tutorial真是超硬核的AI硬體教程
    來源:機器之心機器之心整理參與:一鳴NeurlPS 2019 大會正在加拿大溫哥華召開中。昨日,MIT 教授 Vivienne Sze 在大會上發表了一個關於深度神經網絡加速的演講,大會提供了視頻和同步的 PPT。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。
  • 「熊貓」變「長臂猿」,「烏龜」變「來復槍」,深度學習模型被攻擊...
    藉助符號AI,機器就可以使用關於世界如何運作的硬編碼規則進行推理,比如說這個世界涵蓋了離散目標,而這些離散目標又彼此以各種方式相互關聯。一些研究人員,例如紐約大學的心理學家 Gary Marcus 認為,混合 AI 模型才是深度學習未來發展的方向。「深度學習在短期內是如此有用,以至於人們對它的長期發展視而不見。」長期以來對當前深度學習方法持批判態度的 Marcus 如是說道。
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    機器之心整理參與:機器之心編輯部機器學習日益廣為人知,越來越多的計算機科學家和工程師投身其中。不幸的是,理論、算法、應用、論文、書籍、視頻等信息如此之多,很容易讓初學者迷失其中,不清楚如何才能提升技能。本文作者依據自身經驗給出了一套快速上手的可行方法及學習資源的分類匯總,機器之心在其基礎上做了增益,希望對讀者有所幫助。
  • 深度學習到頂,AI寒冬將至!
    然而,從12,13年甚囂塵上,到如今的塵埃落地,浪潮一再的退去。面對疲軟的風口,養肥的豬,人工智慧將何去何從?AI Winter Is Well On Its Way多年來,深度學習一直處於所謂的人工智慧革命的最前沿,許多人相信深度學習將帶領我們進入通用AI時代。
  • 從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...
    輸入:驅動機器學習的數據輸入指的是算法和訓練模型需要的數據集,從原始碼到統計數據,數據集可以包括任何東西:GSA/data GitHub 地址:https://github.com/GSA/data來自美國總務管理局的分類數據。
  • Socionext聯手大阪大學合作開發新型深度學習算法
    (以下「Socionext」,或「公司」)宣布,聯合大阪大學數據能力科學研究所長原教授研究小組共同開發新型深度學習算法,該算法無需製作龐大的數據集,只需通過融合多個模型便可在極度弱光的條件下進行精準檢測物體及圖像識別。Socionext笹川幸宏先生和大阪大學長原教授在8月23日至28日(英國夏令時間)舉辦的歐洲計算機視覺國際會議(ECCV 2020)上報告了這一研究成果。
  • 先看看這份2019機器學習與NLP年度盤點吧
    無監督訓練也開始滲透到過去監督學習統治的領域。在生物信息學領域中,Transformer 語言模型的預訓練也開始被應用在蛋白質序列預測上了(Rives et al., 2019)。., 2019)學習到的表徵都比最先進的模型表現要好,而且所需的訓練數據也更少。它為什麼重要?無監督預訓練使得我們在訓練模型時對已標註數據的需求量大大減少。這使得那些以前數據需求得不到滿足的領域開始有了煥發活力的可能性。接下來會怎麼發展?
  • 今日Paper | COVID-19;深度興趣網絡;COVIDX-NET;場景文本遷移等
    的深度學習分類器框架COVID-NET:一種用於從胸部X光圖像中檢測COVID-19病例的定製深度卷積神經網絡設計用於點擊率預測的深度興趣網絡CVPR 2020 | SwapText: 基於圖像的場景文本遷移論文名稱:Mapping the Landscape of Artificial Intelligence Applications against
  • 谷歌,DeepMind,微軟和Uber大規模訓練深度學習模型框架簡介
    大規模訓練是在現實世界中構建深度學習解決方案最具挑戰性的方面之一。從訓練到優化,深度學習程序的生命周期需要健壯的基礎設施構建塊,以便能夠並行化和擴展計算工作負載。儘管深度學習框架正在快速發展,但相應的基礎架構模型仍處於初期階段。
  • 金融中的三種深度學習用例及這些模型優劣的證據
    這些模型可用於定價、投資組合構建、風險管理甚至高頻交易等領域,讓我們來解決這些問題。收益預測以預測每日黃金價格的抽樣問題為例,我們首先看看傳統的方法。它擴充了只能使用一個變量的自回歸模型(簡稱:AR 模型),使容納大於 1 個變量,因此經常用在多變量時間序列模型的分析上。如果我們將相關的預測變量添加到我們的自回歸模型中並移動到向量自回歸模型,我們得到結果如下圖所示:
  • 優必選雪梨 AI 研究院博士生:混合比例估計在弱監督學習和遷移學習...
    弱監督學習方法往往能夠減輕對正確標籤的過度依賴,達到與監督學習相近的性能。然而,在設計弱監督學習方法時,我們需要理解無標籤樣本的分布情況(比如 semi-supervised learning),或者帶噪聲標籤樣本的噪聲大小(比如 learning with label noise),這些問題的本質就是混合比例估計。因此,混合比例估計在弱監督學習中佔有至關重要的作用。
  • 微博機器學習平臺雲上最佳實踐
    本文講述了微博機器學習平臺和深度學習平臺的業務功能和雲上實踐,剖析了阿里雲大數據在微博這兩大學習平臺的架構建設上所起到的作用。微博機器學習平臺(WML)優勢微博機器學習平臺的特點是樣本規模大,百億級樣本,實時性比較高,是分鐘級,然後模型規模是百億級,模型實時性根據不同場景有小時級、分鐘級和秒級。作業的穩定性的話要求是三個9,平臺業務多,場景豐富迭代快。
  • 神經網絡並不是尚方寶劍,我們需要正視深度 NLP 模型的泛化問題
    從這些新動向上我們似乎應該對深度學習 NLP 解決方案的表現充滿信心,但是當我們真的仔細討論 NLP 模型的泛化能力時候,狀況其實並不樂觀。The Gradient 博客近期的一篇文章就仔細討論了 NLP 領域的深度學習模型的泛化性問題,展現了對學習、語言、深度學習方法等方面的諸多深入思考。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    第二部分描述的是基於深度學習的 NLP,該論文首先描述了深度學習中的詞表徵,即從 one-hot 編碼、詞袋模型到詞嵌入和 word2vec 等,我們首先需要數字表徵詞彙才能進一步做自然語言處理。該論文回顧了 NLP 之中的深度學習重要模型與方法,比如卷積神經網絡、循環神經網絡、遞歸神經網絡;同時還討論了記憶增強策略、注意力機制以及無監督模型、強化學習模型、深度生成模型在語言相關任務上的應用;最後還討論了深度學習的各種框架,以期從深度學習的角度全面概述 NLP 發展近況。如今,深度學習架構、算法在計算機視覺、模式識別領域已經取得驚人的進展。
  • CNCC 2019 | 劉群:基於深度學習的自然語言處理,邊界在哪裡?
    近日,在北京語言大學舉辦的第四屆語言與智能高峰論壇上,華為諾亞方舟實驗室語音語義首席科學家劉群教授高屋建瓴,細緻分析了深度學習時代NLP的已知與未知。他從自然語言處理基於規則、統計到深度學習的範式遷移出發,探討了深度學習方法解決了自然語言處理的哪些問題以及尚未解決哪些問題。