深度學習未來三大範式:混合學習、成分學習和簡化學習

2021-02-16 圖靈小庫

這種學習範式試圖去跨越監督學習與無監督學習邊界。由於標籤數據的匱乏和收集有標註數據集的高昂成本,它經常被用於商業環境中。從本質上講,混合學習是這個問題的答案。

我們如何才能使用監督學習方法來解決或者連結無監督學習問題?

例如這樣一個例子,半監督學習在機器學習領域正日益流行,因為它能夠在很少標註數據的情況下對有監督的問題表現得異常出色。例如,一個設計良好的半監督生成對抗網絡(Generative antimarial Network)在MNIST數據集上僅使用25個訓練樣本,就達到了90%以上的準確率。

半監督學習學習專門為了那些有打大量無標註樣本和少量有標註樣本的數據集。傳統來說, 監督學習是使用有標註的那一部分數據集,而無監督學習則採用另外無標註的一部分數據集, 半監督學習模型可以將有標註數據和從無標註數據集中提取的信息結合起來。

半監督生成對抗網絡(簡稱SGAN), 是標準的生成對抗網絡的一種改進。判別器不僅輸出0和1去判別是否為生成的圖像,而且輸出樣本的類別(多輸出學習)。這是基於這樣的一個想法,通過判別器學習區分真實和生成的圖像, 能夠在沒有標籤的情況下學得具體的結構。通過從少量的標記數據中進行額外的增強,半監督模型可以在最少的監督數據量下獲得最佳性能。GAN也涉及了其他的混合學習的領域——自監督學習, 在自監督學習中無監督問題被明確地定義為有監督的問題。GANs通過引入生成器來人工創建監督數據;創建的標籤被用來來識別真實/生成的圖像。在無監督的前提下,創建了一個有監督的任務。另外,考慮使用進行壓縮的編碼器-解碼器模型。在它們最簡單的形式中,它們是中間有少量節點的神經網絡,用來表示某種bottleneck與壓縮形式,兩邊的兩個部分是編碼器和解碼器。訓練這個網絡生成與輸入向量相同的輸入(一個無監督數據手工設計的有監督任務)。由於中間有一個故意設計的bottleneck,因此網絡不能被動地傳輸信息。相反, 為了解碼器能夠更好的解碼, 它一定要找到最好的方式將輸入的信息保留至一個非常小的單元中。訓練之後, 編碼器與解碼器分離, 編碼器用在壓縮數據的接收端或編碼數據用來傳輸, 利用極少的數據格式來傳輸信息同時保證丟失最少的數據信息。也可以用來降低數據的維度。另一個例子是,考慮大量的文本集合(也許是來自數字平臺的評論)。通過某種聚類或流形學習方法,我們可以為文本集合生成聚類標籤,然後將其作為標籤處理(前提是聚類工作做得很好)。在對每個聚類簇進行解釋後(例如,聚類A代表抱怨產品的評論,聚類B代表積極反饋等),然後可以使用BERT這樣的深層NLP架構將新文本分類到這些聚類簇中,所有這些都是完全未標記的數據和最少的人工參與。這又是一個將無監督任務轉換為有監督任務的有趣應用程式。在一個絕大多數數據都是無監督數據的時代,通過混合學習建立創造性的橋梁,跨越有監督和無監督學習之間的界限,具有巨大的價值和潛力。

03 成分學習


成分學習不僅使用一個模型的知識,而且使用多個模型的知識。人們相信,通過獨特的信息組合或投入(包括靜態和動態的),深度學習可以比單一的模型在理解和性能上不斷深入。

遷移學習是一個非常明顯的成分學習的例子, 基於這樣的一個想法, 在相似問題上預訓練的模型權重可以用來在一個特定的問題上進行微調。構建像Inception或者VGG-16這樣的預訓練模型來區分不同類別的圖像。如果我打算訓練一個識別動物(例如貓和狗)的模型, 我不會從頭訓練一個卷積神經網絡,因為這樣會消耗太多的時間才能夠達到很好的結果。相反,我會採用一個像Inception的預訓練模型,這個模型已經存儲了圖像識別的基本信息, 然後在這個數據集(貓狗數據集)上訓練額外的迭代次數即可。類似地,在NLP神經網絡中的詞嵌入模型,它根據單詞之間的關係將單詞映射到嵌入空間中更接近其他單詞的位置(例如,蘋果和句子的距離比蘋果和卡車的距離要小)。像GloVe這樣的預訓練embedding可以被放入神經網絡中,從已經有效地將單詞映射到數值的, 有意義的實體開始。 不那麼明顯的是,競爭也能刺激知識增長。其一,生成性對抗性網絡借用了複合學習範式從根本上使兩個神經網絡相互對立。生成器的目標是欺騙鑑別器,而鑑別器的目標是不被欺騙。
模型之間的競爭將被稱為「對抗性學習」,不要與另一種類型的對抗性學習相混淆,那是設計惡意輸入並發現模型中的弱決策邊界。對抗性學習可以刺激模型,通常是不同類型的模型,其中模型的性能可以表示為與其他模型的性能相關。在對抗性學習領域還有很多研究要做,生成性對抗性網絡是對抗性學習的唯一突出創舉。另一方面,競爭學習類似於對抗性學習,但是在逐節點規模上進行的:節點競爭對輸入數據子集的響應權。競爭學習是在一個「競爭層」中實現的,在競爭層中,除了一些隨機分布的權值外,一組神經元都是相同的。將每個神經元的權重向量與輸入向量進行比較,並激活相似度最高的神經元也就是「贏家通吃」神經元(輸出=1)。其他的被「停用」(輸出=0)。這種無監督技術是自組織映射和特徵發現的核心部分。另一個成分學習的又去例子時神經架構搜索。簡單來說, 在強化學習環境中, 一個神經網絡(通常時遞歸神經網絡)學習生成對於這個數據集來說最好的網絡架構——算法為你找到最好的架構,你可以在這兒讀到更多的關於這個理論的知識,並且在這兒應用python代碼實現。集成的方法在成分學習中也時主要的, 深度集成的方法已經展示出了其高效性。並且模型端到端的堆疊, 例如編碼器與解碼器已經變得非常受歡迎。許多成分學習都在尋找在不同模型之間建立聯繫的獨特方法。它們都基於這個想法:單一的模型甚至一個非常大的模型,通常也比幾個小模型/組件表現的差,這些小模型每一個都被分配專門處理任務中的一部分我們可以將這個機器人分割為三個分離的部分:寒暄/閒聊,信息檢索和行動機器人,並為每一部分專門設計一個模型。或者,我們可以委託一個單一的模型來執行這三個任務。組合模型可以在佔用較少空間的同時表現更好,這一點也不奇怪。此外,這些類型的非線性拓撲可以用Keras functional API等工具輕鬆構建。為了處理像視頻和三維數據等形式日益多樣化的數據類型,研究人員必須構建創造性的組合模型

04 簡化學習


在深度學習領域, 特別是在NLP(深度學習領域研究最熱潮激動人心的領域)中,模型的規模正在不斷增長。最新的GPT-3模型有1750億個參數。把它和BERT比較就像把木星比作蚊子一樣(好吧,不是字面意思)。深度學習的未來會更大嗎?

按理來說,不會,GPT-3是非常有說服力的,但它在過去反覆表明,「成功的科學」是對人類影響最大的科學。學術界總是離現實太遠,太過模糊。在19世紀末,由於可用數據太少,神經網絡被遺忘了很短一段時間,所以這個想法,無論多麼巧妙,都毫無用處。GPT-3是另一種語言模型,它可以編寫令人信服的文本。它的應用在哪裡?是的,例如,它可以生成查詢的答案。然而,有更有效的方法來做到這一點(例如,遍歷一個知識圖譜並使用一個更小的模型,如BERT來輸出答案)。在計算能力枯竭的情況下,GPT-3的巨大尺寸(更不用說更大的模型)是不可行的或不必要的。「摩爾定律有點沒用了。」 Satya Nadella,微軟執行長取而代之的是,我們正在走向一個人工智慧嵌入式世界,智能冰箱可以自動訂購食品,而無人機可以自動導航整個城市。強大的機器學習方法應該能夠下載到個人電腦、手機和小晶片上。這就需要輕量級人工智慧:在保持性能的同時使神經網絡更小。這直接或間接地表明,在深度學習研究中,幾乎所有的事情都與減少必要的參數量有關,這與提高泛化能力和性能密切相關。例如,卷積層的引入大大減少了神經網絡處理圖像所需的參數數量。遞歸層融合了時間的思想,同時使用相同的權值,使得神經網絡能夠更好地處理序列,並且參數更少。嵌入層顯式地將實體映射到具有物理意義的數值,這樣就不會給附加參數增加負擔。在一種解釋中,Dropout層顯式地阻止參數對輸入的某些部分進行操作。L1/L2正則化通過確保所有參數都不會增長過大來確保網絡利用了所有參數,並且每個參數都能使其信息價值最大化。隨著這種特殊專用層的創建,網絡對更複雜和更大的數據所需的參數越來越少。其他較新的方法顯式地尋求壓縮網絡。神經網絡修剪試圖去除那些對網絡輸出沒有價值的突觸和神經元。通過修剪,網絡可以保持其性能,同時刪除幾乎所有的自身。其他的方法像Patient Knowledge Distillation找到一些壓縮語言模型的方法, 使其可以下載到例如用戶的手機的格式。對於谷歌神經機器翻譯系統來說這是必要的考慮, 這個系統支持谷歌翻譯, 谷歌翻譯公司需要創建一個可以離線訪問的高性能翻譯服務。本質上,簡化學習集中在以部署為中心的設計上。這就是為什麼大多數簡化學習的研究來自公司的研究部門。以部署為中心的設計的一個方面不是盲目地遵循數據集的性能指標,而是在部署模型時關注潛在的問題。例如,前面提到的對抗輸入是設計用來欺騙網絡的惡意輸入。在標牌上噴漆或貼上標籤,會誘使自動駕駛汽車加速超過限速。負責任的簡化學習的不僅使模型足夠輕量級以供使用,而且確保它能夠適應數據集中沒有出現過的角落情況。在深度學習的研究中,簡化學習可能是最不受關注的,因為「我們通過一個可行的架構尺寸實現了良好的性能」 並不像 「我們通過由數千千萬萬個參數組成的體系結構實現了最先進的性能」一樣吸引人。不可避免地,當追求更高得分表現的宣傳消失時,正如創新的歷史所示,簡化學習—實際上是真正的實踐性學習—將得到更多應有的關注。

相關焦點

  • 深度學習未來的三種範式
    深度學習是一個廣闊的領域,它圍繞著一種形態由數百萬甚至數十億個變量決定並不斷變化的算法——神經網絡。似乎每隔一天就有大量的新方法和新技術被提出來。不過,總的來說,現代深度學習可以分為三種基本的學習範式。每一種都有自己的學習方法和理念,提升了機器學習的能力,擴大了其範圍。
  • 談談機器學習的趨勢 - 新三大學習範式
    但在本篇中,我們將現代機器學習根據模型的形式分為新的三個學習範式,即混合學習、複合學習以及簡化學習。在每個範式中都包含一種學習方式和理念,它為拓展當前機器學習的能力和研究範圍提供了巨大的潛力。混合學習(Hybrid learning)— 如何跨越監督學習和無監督學習的邊界,以充分使用大量的未標記數據?
  • 深度學習未來的三種方式
    來源:海豚數據科學實驗室深度學習的未來在於這三種學習模式,而且它們彼此之間密切相關:混合學習——現代深度學習方法如何跨越監督學習和非監督學習之間的邊界,以適應大量未使用的無標籤數據?在一個絕大多數數據都是非監督數據的時代,通過混合學習,在監督學習和非監督學習之間創造性地架起一座橋梁,具有巨大的價值和潛力。複合學習為的是利用幾種模式的知識,而不是一種。該方法認為,通過獨特的組合或信息注入——包括靜態和動態——與單一模式相比,深度學習能夠在理解和性能方面不斷地深入。
  • 何為深度學習?標準化考試和深度學習之間的糾葛,究竟何以解脫?
    第一部分 描繪深度學習 第一章 學生的深度學習需要教育者的深度學習。「培養學生,是為了他們的未來而不是我們的過去」,因此,教師必然面臨為自己未曾經過的未來而教。本章作者提出了16種與深度學習相關的思維品性,在實踐中摸索出7種培養策略,提出了評估的3種工具,並提供了2個學校實施的案例。 第三章 範式轉換:培養富有創造性和創業精神的學生。作者站在歷史的高度,指出以批判性思維、個性化、創造力為代表的新教育,是學校教育範式從工業時代「就業導向」邁向全球化時代的「創業導向」的範式轉換。
  • 教育參考丨指向深度學習的單元教學設計範式研究——以科學概念學習為例
    知識有四類,它包括事實性知識、過程性知識、概念性知識和元認知知識。事實性知識可以通過記憶和背誦加以獲得,而完整意義上的知識則需要理解、應用、分析和評價等方能獲取。深度學習是一種基於高階思維發展的理解性學習。深度學習是學習者基於理解性學習的目標,採用批判、反思、整合、應用等方式對知識進行同化及深度加工的學習活動。
  • 百度聯合英偉達發布最新論文:使深度學習效率事半功倍的混合精度...
    據了解,大多數的深度學習模型使用的是32位單精度浮點數(FP32)來進行訓練,而混合精度訓練的方法則通過16位浮點數(FP16)進行深度學習模型訓練,從而減少了訓練深度學習模型所需的內存,同時由於FP16的運算比FP32運算更快,從而也進一步提高了硬體效率。通過用半精度運算替代全精度運算來提高效率,這一技術原理聽起來很簡單明了,但將其付諸實施並不像聽起來那麼簡單。
  • 語義分割的經典學習方法和深度學習方法綜述
    語義分割和實例分割之間的比較本文將探討一些使用經典和基於深度學習的方法來執行語義分割的方法。此外,還將討論常用的損失函數的選擇和應用。經典方法在深度學習時代到來之前,大量的圖像處理技術被用來將圖像分割成感興趣的區域。下面列出了一些常用的方法。灰度分割最簡單的語義分段形式涉及分配區域必須滿足的硬編碼規則或屬性,以便為其分配特定標籤。規則可以根據像素的屬性(例如灰度級強度)來構建。使用此技術的一種方法是拆分(Split)和合併(Merge)算法。
  • 深度學習 vs. 概率圖模型 vs. 邏輯學
    摘要:本文回顧過去50年人工智慧(AI)領域形成的三大範式:邏輯學、概率方法和深度學習。
  • ...混合式學習:基於UMU的科創學習場景重構——以「科創啟航」課程...
    UMU致力於通過移動網際網路技術,提升傳統教育與培訓的質量與體驗,讓講師可以更好的與學員進行教學互動,讓學員獲得更好的學習體驗和效率。UMU連接人與知識,加速知識的流動,讓每個人融入、分享、收穫。  「所謂混合式學習就是要把傳統學習方式的優勢和網絡化學習的優勢結合起來,也就是說,既要發揮教師引導、啟發、監控教學過程的主導作用,又要充分體現學生作為學習過程主體的主動性、積極性與創造性。」
  • 百度聯合英偉達發布最新論文:使深度學習效率事半功倍的混合精度訓練
    ,簡稱MPT)的深度學習模型。據了解,大多數的深度學習模型使用的是32位單精度浮點數(FP32)來進行訓練,而混合精度訓練的方法則通過16位浮點數(FP16)進行深度學習模型訓練,從而減少了訓練深度學習模型所需的內存,同時由於FP16的運算比FP32運算更快,從而也進一步提高了硬體效率。通過用半精度運算替代全精度運算來提高效率,這一技術原理聽起來很簡單明了,但將其付諸實施並不像聽起來那麼簡單。
  • 2020年深度學習發展大盤點及對2021年深度學習的未來展望|極客雲算
    深度學習框架作為AI底層工具,對個人而言是進入深度學習世界的一把鑰匙,掌握深度學習框架並不等於理解了深度學習,要在AI開發中有所作為,關鍵還是要真正理解框架背後的技術、實踐和生態。隨著近年來的人工智慧發展,2020年深度學習依然是發展最快的領域之一,直奔未來工作。其發展是多方面的,而且是多方位的。
  • 阿里雲開源的業界首個面向NLP場景深度遷移學習框架EasyTransfer
    近日,阿里雲正式開源了深度遷移學習框架EasyTransfer,這是業界首個面向NLP場景的深度遷移學習框架。該框架由阿里雲機器學習PAI團隊研發,讓自然語言處理場景的模型預訓練和遷移學習開發與部署更加簡單和高效。
  • 傅盛:深度學習是什麼?
    尤其,以深度學習取得的進步為顯著標誌。它讓匍匐前進60年的人工智慧一鳴驚人。我們正降落到一片新大陸。深度學習帶來的這場重大技術革命,有可能顛覆過去20年網際網路對技術的認知,實現技術體驗的跨越式發展。那麼,深度學習到底是什麼?怎麼理解它的重要性?我們先從概念和現象入手。
  • 視點|未來的學習、黑客式學習、自主學習的未來和挑戰
    未來學習的三大特點這三大學習特質也是以創新著稱的美國史丹佛大學對二○二五年大學生的想像,「史丹佛二○二五年計劃「具體描繪了未來大學的新樣貌: 開放式大學(Open Loop University):打破高中畢業直接大學四年的學制,讓大學成為開放的學習中心,一生中的任意六年都可以在大學裡學習,讓大學成為終身學習的基地
  • 人工智慧、機器學習和深度學習的區別?
    先是機器學習,然後是深度學習。深度學習又是機器學習的子集。深度學習造成了前所未有的巨大的影響。從學習方法上來分,機器學習算法可以分為監督學習(如分類問題)、無監督學習(如聚類問題)、半監督學習、集成學習、深度學習和強化學習。傳統的機器學習算法在指紋識別、基於Haar的人臉檢測、基於HoG特徵的物體檢測等領域的應用基本達到了商業化的要求或者特定場景的商業化水平,但每前進一步都異常艱難,直到深度學習算法的出現。
  • 自我調節學習 ——概念框架變化和新範式、技術系統及教學支持的願景
    學習者最初關於任務的自我效能感也會影響動機。在實施階段,學習者對任務的興趣和價值判斷也會基於每個階段的學習結果而改變。在反思階段之後,學習者發展了對未來相關任務的新興趣與價值觀念。最後,除了自我效能感和動機信念,元認知和行動結合成為自我調節學習的三大要素之一,它們在整個自我調節學習過程中也不斷變化。
  • 圖像分割深度學習從零開始學習路線
    你可能需要對深度學習和計算機視覺的基本任務有一個較為系統的學習,這塊應該轉看深度學習入門等相關話題,斯坦福的李飛飛cs231n被推薦的挺多的。這塊我就不多贅述了,我更多分享後面三個階段關於分割的學習。第一階段:看分割是分割這個階段的典型表現是,有了對深度學習和計算機視覺的基礎,開始痴迷於各種分割網絡和loss改進,對benchmark的每一個性能的改進都有很好的follow。這個階段應該梳理以下問題。
  • 3分鐘看懂深度學習,強化學習,監督式學習,非監督學習都是什麼鬼
    第四範式授權轉載深度學習監督式學習非監督式學習強化學習到底都是什麼鬼呢?
  • 深度學習平臺的未來:誰會贏得下半場?
    此文無意引戰,只想從歷史發展的角度來談談深度學習大背景下的開發工具變遷,以及對未來發展趨勢的想像。TensorFlow:無力回天的深度學習裡程碑不知道有多少小夥伴是2017年以前入坑深度學習的,那時候人工智慧概念火熱,煉丹術方興未艾,無論是學術界還是工業界,煉丹師們普遍處於在魔改神經網絡結構,瘋狂調參上分的階段。
  • 陳天奇:深度學習編譯技術的現狀和未來
    本文主要探討深度學習編譯技術的現狀和未來。為什麼需要深度學習編譯器深度學習編譯器的部署目標傳統的深度學習框架也可以做,一個非常自然的問題是為什麼不直接沿用傳統的框架。這是一個編譯器研究者來往往會忽略的問題。深度學習編譯器只有在各種場景超過人工優化的傳統辦法,才有機會真正被採用,到達這一目標之前之前深度學習編譯只是玩具。