[ML] 增量學習綜述

2021-03-02 醫學大數據與人工智慧

本綜述從數據的變化這個角度,將增量學習分為三類。

    基於統計學習方法的數據自動分類方法的一個假設是:用於分類模型的訓練數據和測試數據來自於同一個總體分布,且兩者的特徵空間是一樣的(測試數據的特徵空間默認是由訓練階段構造的)。然而,隨著時間的推移,數據分布和數據特徵會發生變化。一段時間後,基於歷史數據訓練的分類模型可能不適用於一些新的數據。因此,有必要面向自動化分類系統的實際應用,實現增量學習和動態更新,以保證不斷變化的數據能夠被正確分類。

    數據分布的變化可以進一步分為樣本的變化和類別的變化。所謂樣本的變化,是指樣本在特徵同構空間下的特徵值的變化,以及每一類樣本所佔比例的可能變化。類別的變化是指新的類別的出現,即原來的分類發生了變化。並且可能會出現新的數據特徵,即訓練數據的特徵空間和測試數據的特徵空間不再相同。為了應對這三種不同的數據變化,本文將增量學習方法分為三類:樣本增量學習、類別增量學習和特徵增量學習。下面分別對這三種增量學習進行深入的研究和全面的綜述。

    本文的組織結構如下:在接下來的四個小節中,首先介紹了增量學習的相關背景知識;然後分析了各種支持增量學習的機器學習分類算法;第四部分重點回顧了三種增量學習的研究進展;第四部分對全文進行了總結,並對增量學習的進一步發展方向進行了分析。

具體來說:數據分布變化包含樣本變化和類別變化。

1. 樣本變化指的是樣例在特徵同構空間下的特徵值的變化

2. 類別變化指的是新類別的出現。【訓練和測試都有新的類別出現?】

3. 特徵變化指的是訓練數據和測試數據的特徵空間不一致。

The Background Knowledge of Incremental Learning

傳統實際應用場景下,機器學習過程是漸進的:

1)標註數據,訓練一個模型,用模型預測或分類新數據

2)數據變化,新數據和舊數據合併,重新訓練

計算機技術和應用的快速發展,各行業積累了大量數據,呈幾何倍數增長。

數據分析和數據處理的新問題:

a.標註數據代價高

b.數據集過大,訓練時間過長,導致時間消耗和用戶體驗差

c.傳統方式重新訓練數據集,程序處在封閉狀態,不適應在線應用

d.一般的機器學習分類方法,不能識別和更新新類,不能滿足實際需求。

增量學習有以下四個特點:

1. 分類器能夠從新數據中學習新知識。如圖1所示,分類器能夠學到圓圈和方塊的比例的變化。

2. 學習和訓練的數據只是新數據。不需要重複訓練之前的訓練數據。

3. 獲取新知識的同時,分類器能夠整合舊知識。

4. 分類器能夠適應,識別和更新新的類別。如圖1所示,增量學習階段,分類器學習到了三角形。增量學習能夠識別三角形,並且將三角形擴展到之前的類別中。

在當前的增量學習研究中,在特徵1(學習新知識)、特徵2(只訓練新數據)和特徵3(融合新舊知識)的研究方向上取得了一定的成果。然而,特徵4(識別新類)的研究還處於起步階段,相關研究較少。同時,特徵3(融合新老知識)指的是融合的概念,簡單的融合就是加上。相比之下,還有另一種「減少」的概念,意思是減少舊的知識。這涉及到簡化學習[3]的概念,它還可以調整分類的準確性。本文的研究重點是漸進式學習的研究,因此對縮減式學習的研究並不會佔用太多的空間。

增量學習可以分為3類:樣本增量學習(SIL),類別增量學習(CIL),特徵增量學習(FIL)。

1. SIL

問題:由於新數據的各種原因,樣本的特徵值可能會改變,每個類別的比例也會改變。這些都會影響分類的準確率。

任務:因此,需要確保在現有知識的情況下,通過新樣本的增量學習來提取新知識,融合新舊知識以提高分類的準確性。

2. CIL

任務:識別新類,並將其加入現有類別的集合中,提升分類的準確性和智能。

3. FIL

一些新的屬性特徵能夠將分類提升到一個很大的程度,並提升分類準確率。

任務:在現有特徵空間的基礎上,加入新的屬性特徵,構建新的特徵空間,提升分類準確率。

Classification algorithm that can support incremental learning

一些分類算法的分類原則自然支持增量學習:樸素貝葉斯,支持向量機,決策樹,隨機森林,人工神經網絡,K-最近鄰,模糊粗糙集理論,學習++ NC等。

3.1 樸素貝葉斯

基本思想:通過計算先驗概率和現有的統計數據獲得後驗概率。

增量學習:後驗概率是下一次學習的先驗概率。增量學習利用這個準則和[5]中的公式,預測新的知識,然後將新舊知識進行融合。最後,調整先驗概率,提升分類能力和準確性。

3.2 支持向量機

基本思想:支持向量的概念是從幾個支持向量中選擇一個超平面來做分類。

增量學習:基於舊的支持向量學習新的支持向量。合併新數據的重要支持向量和保留的支持向量,選擇一些有決定性的向量來做分類。

3.3 決策樹

基本思想:將複雜的多分類問題轉化成一棵樹,從根節點開始,從上至下使用分層形式,通過信息熵來選擇最有力的屬性將樣本分配給孩子節點,直到標註葉子節點。

增量學習:決策樹是一個樹結構,並且具有繼承特性。在學習新知識之後,ID4算法[8]通過劃分屬性來計算信息增益,以確定是繼承還是重構子樹。但是,有可能會丟棄歷史知識。ID5R算法[9]可以通過子樹推廣的方式有效地繼承大部分歷史計算。

3.4 隨機森林

基本思想:它的主要思想是集成思想,它基於決策樹的開發,包括多個決策樹。隨機森林集成了所有決策樹分類投票的結果,指定具有最高投票數的類作為最終輸出。

增量學習:它不僅具有集成思想,還具有決策樹的一些特徵。在增量學習過程中,集成思想可以通過學習新知識和訓練決策樹然後將其添加到原始隨機森林中來實現增量學習。決策樹還賦予它繼承和其他特徵。

3.5 人工神經網絡

人工神經網絡(ANN)[11]起源於20世紀40年代,由美國數學家皮茨和心理學家麥卡洛克在一篇前瞻性文章中提出。他們提出了以神經元為邏輯算子的MP模型來實現算法。1957年,Rosenblatt提出了感知模型,這是第一個真正基於MP的神經網絡模型[12]。該模型以網絡拓撲知識為理論基礎,模擬人腦神經系統,處理外界輸入的複雜信息。它具有高智能、高容錯性和高並行性的特點。

人工神經網絡本身具有學習增量知識的能力,是由大量相互連接的神經元組成的非線性自適應信息處理系統。它不僅能處理發生各種變化的數據,還能以增量學習的方式處理每一個數據,在一定程度上影響權重的更新,使自身的動力系統不斷變化。整個動力系統的演化是一個連續迭代的過程。

A review of incremental learningSample Incremental Learning

針對文本領域中基於樸素貝葉斯算法的增量學習問題,羅F X[5]提出了一種新的加權樸素貝葉斯增量學習方法。它的思想有三個主要的改進。首先設置類置信閾值,嚴格過濾增量樣本;其次,根據分類能力,對係數進行手動動態調整,提高分類精度。最後,利用詞頻權重公式可以反映出該特徵的重要性,克服了不能突出不同特徵權重的缺陷。

Ma H F等人[13]提出了一種基於樸素貝葉斯分類算法的增量學習序列選擇方法,防止分類器中加入錯誤的分類,控制增量訓練集的規模。首先對噪聲樣本進行濾波,選擇正確的樣本組成新的增量訓練子集;然後,使用0-1損失率過濾新子集。通過合理強化學習序列,優先選擇具有較強類取向的樣本,並考慮有爭議的噪聲樣本,來喚醒其負面影響。

Pi W J等人[14]提出了一種基於Hadoop的數據驅動並行增量adaboost-SVM (PIASM)算法,解決了支持向量機(SVM)算法難以適應大數據的問題。在研究過程中,他們用重量來描述每個樣本空間的分布特徵,然後用遺忘因子來調整內部樣本和quasi-boundary樣本的大小,增加新樣品有更大的影響和消除歷史樣本較少的影響。PIASM改進了大數據支持向量機算法的並行處理能力,實現了增量學習。

Ye Z X等人[15]提出了一種基於海量數據的不平衡SVM增量學習方法,通過提取url相關特徵和web文本內容兩個方面的特徵。研究在線智能檢測釣魚網站他們發現新的樣品,滿意馬條件不能改變支持向量集,但新的樣本,違反了馬條件變化可能導致支持向量集的支持。所以增量學習實驗的目的是尋找新的樣品可以改變支持向量的集合,訓練他們。

Xie G D等人提出了一種基於k近鄰算法的增量學習方法。通過在模型簇中引入層的概念,建立了增量數據模型簇中的不同層。新的模型聚類可以在錯誤的區域覆蓋原有的模型聚類,使模型聚類更精確,層值更高。當新樣本被多層覆蓋時,選取模型簇的最高層值作為結果分類,達到增量學習的目的。

Sun W X[17]在基於數據挖掘和信息融合的故障診斷研究中提出了一種基於決策樹的增量學習方法。將原來C4.5決策樹中的單鍊表改為雙鍊表,並在葉節點上增加了樣本記憶功能。新樣本在添加新樣本時繼承了其他分支的信息。它通過判斷預測分支葉節點是否需要細分和修改分支信息來實現增量學習。

Wang A P等人[18]提出了一種增量極隨機森林(Incremental Extremely Random Forest, IERF)來解決小樣本數據流的在線學習問題。IERF算法中的新樣本存儲在相應的葉節點上。通過基尼係數,判斷當前葉節點是否被分割。在UCI數據集上的實驗證明,增量學習算法在中尺度樣本集上的性能優於貪婪決策樹重構算法。

Summary

樣本增量學習有相當程度的進步。一方面,可以通過具有一定增量學習特性的機器學習算法來實現樣本增量學習。另一方面,結合聚類和分類技術,可以改進樣品的選擇和處理。但是,類別和特徵增量學習仍然面臨很多困難。如何提高他們的性能是下一步的研究重點。此外,如何將簡單的增量學習,類增量學習和特徵增量學習有機地結合起來,以應對複雜的數據變化,這也是值得進一步研究的研究方向。

相關焦點

  • 增量學習(Incremental Learning)小綜述
    增量學習的概念1.1 什麼是增量學習人類有終身不斷獲取、調整和轉移知識的能力,雖然在我們的一生中,我們確實傾向於逐漸忘記之前學習過的知識,但只有在極少的情況下,對新知識的學習會災難性地影響已經學到的知識,這樣的學習能力被稱為增量學習的能力。
  • 一份NLP&ML領域中文綜述總結~
    對初學者而言,綜述類文章可以便於讀者在研究初期儘快掌握該方向的發展趨勢。對綜述類文章的搜索與閱讀也因此成為了初學者進入相關研究領域前面臨的第一個問題。針對這一需要,東北大學自然語言處理實驗室對自然語言處理領域與機器學習領域的中文綜述類文章進行了收集和分類整理。將其按照不同研究領域進行分類,並提供了論文的獲取網址,方便初學者獲取相應領域的綜述文章。
  • 小樣本也能增量學習?CVPR 2020 Oral最新乾貨:小樣本類增量學習
    目前的類增量學習(CIL,class-incremental learning)研究往往提供了較為充足的帶標籤新類別樣本,而在諸如智能相冊等實際應用中,用戶可能只有興趣提供極少量有標籤的新類別樣本。因此研究小樣本深度類增量學習迫在眉睫。在本文中,我們著重研究這個面向實際應用但極具挑戰性的小樣本類增量連續學習(FSCIL,few-shot class-incremental learning)問題。
  • 說說知識蒸餾與增量學習那些事兒
    本期AI論道想跟大家分享幾篇關於知識蒸餾和增量學習相結合的論文,按發表先後順序對領域發展脈絡進行梳理和介紹,希望對想深入了解和研究增量學習的小夥伴們有幫助和借鑑意義。增量學習(Incremental Learning)是指一個學習系統能不斷地從新樣本中學習新的知識,並能保存大部分以前已經學習到的知識。增量學習系統有以下4個特點:1.可以學習到新信息中的有用信息;2.不需要訪問已經用於訓練分類器的原始數據;3.對已經學習到的知識具有記憶功能;4.在面對新數據中包含的新類別時,可以有效地進行處理。
  • 離線學習、增量學習、在線機器學習的區別
    在線學習一種模型的訓練方法,在這種方法中,數據按順序可用,並用於在每一步更新未來數據的最佳預測值。在線學習的數據效率高,適應性強。在線學習是數據高效的,因為一旦數據被消耗,就不再需要它了。從技術上講,這意味著您不必存儲數據。在線學習是可以適應的,因為它沒有假設你的數據的分布。
  • 【CVPR 2020 Oral】小樣本類增量學習
    論文:https://arxiv.org/abs/2004.10956文章簡介:實現對新類別進行持續增量學習的能力對於現實世界人工智慧系統的發展至關重要
  • Kiehl's崇光店慶今年豪華增量版套裝划算到淚奔!
    C抗氧亮活精華 5ml極致多效眼部提升精華 3ml草本香橙抗汙染強化面膜 14ml皇牌金盞花護膚套裝 – 增量裝建議零售價:HK$750 (價值:HK$1,070)套裝詳情:金盞花植物精華爽膚水 500ml
  • 清華汪玉等電子設計自動化ML論文綜述:180篇文獻、ACM TODAES接收
    近年來,基於機器學習的 EDA 逐漸成為熱門話題,研究人員提出了許多利用機器學習改進 EDA 方法的研究。這些研究幾乎涵蓋了晶片設計流程的所有階段,包括設計空間縮減與探索、邏輯綜合、布局、布線、測試、驗證、製造等。在該綜述論文中,作者將收集的研究分為四類:傳統方法中的決策、性能預測、黑盒優化和自動化設計。
  • 大盤點 | 2020年5篇圖像分割算法最佳綜述
    綜述一【1】使用深度學習進行圖像分割:綜述標題:Image Segmentation Using Deep Learning: A Survey作者:Shervin Minaee最近,由於深度學習模型在各種視覺應用中的成功,已經有大量旨在利用深度學習模型開發圖像分割方法的工作。本文提供了對文獻的全面回顧,涵蓋了語義和實例級分割的眾多開創性作品,包括全卷積像素標記網絡,編碼器-解碼器體系結構,多尺度以及基於金字塔的方法,遞歸網絡,視覺注意模型和對抗環境中的生成模型。
  • WWW'21 | 圖神經網絡增量學習在事件檢測中的應用
    社交消息是複雜的、流式的,因此,對社交事件的檢測適合用增量學習的方式來進行。增量學習的重點在於對知識的獲取、保存和拓展。現有的模型,包括基於增量聚類和社群檢測的模型,普遍忽略了社交數據的語義和結構信息,因此從數據中獲取的知識是有限的。此外,這些模型無法記住以前學到的知識。在這篇論文中,作者提出了一種全新的知識保存增量異構圖神經網絡(KPGNN)用於增量社交事件檢測。
  • AI/機器學習2018年度進展綜述
    Xavier Amatriain翻譯 | leogle97校對 | 醬番梨        整理 | 菠蘿妹原文連結:https://medium.com/@xamat/the-year-in-ai-ml-advances
  • 如何做文獻綜述:克雷斯威爾五步文獻綜述法
    在國外,宏觀的或者是比較系統的文獻綜述通常都是由一個領域裡的頂級「大牛」來做的。在現有研究方法的著作中,都有有關文獻綜述的指導,然而無論是教授文獻綜述課的教師還是學習該課程的學生,大多實際上沒有對其給予足夠的重視。而到了真正自己來做研究,便發現綜述實在是困難。
  • 畢業論文怎麼寫——文獻綜述,畢業論文怎麼寫文獻綜述?
    但這種教學模式將學生的學習局限於課堂,學習方式是為數學而數學,沒有把數學和生活結合起來,沒有把學生學習數學置於廣闊的生活時空中去,學生多角度多途徑運用數學知識解決問題的能力受到限制,尤其是學生運用數學知識創造性地解決生活中的數學問題的能力發展受到限制,不利於培養學生的創新精神和實踐能力。為此,我們提出「『問題——探索——交流 』小學數學教學模式研究」課題。
  • 超詳綜述 | 基於深度學習的命名實體識別
    基於無監督學習的NER方法10. 基於特徵的有監督學習NER方法(傳統機器學習)11.如果要看前三種方法的綜述可以去看 Nadeau and Sekine 07 年的綜述 A survey of named entity recognition and classification,13 年 Marrero 綜述 Named entity recognition: fallacies, challenges and opportunities
  • 文獻綜述論文寫作
    也可指這一科學活動過程中生產的產品-綜述論文 (review paper)。不管是發表在著名科學雜誌,由學科領域專家撰寫的綜述文章;還是研究生按照培養方案要求,為開展研究工作,熟悉研究領域的狀況和最新研究進展,而學習寫作的學位論文綜述,均包括4個方面的內容:導言;研究進展;未來展望和結束語。
  • 吳恩達《ML Yearning》| 關於學習曲線的分析&與人類級別的表現對比
    本部分文獻翻譯工作旨在研討小組內部交流,內容原創為吳恩達博士,學習小組成員只對文獻內容進行翻譯,對於翻譯有誤的部分,歡迎大家提出。歡迎大家一起努力學習、提高,共同進步!畫出的完整學習曲線可以使我們在不同規模的訓練集情況下較為全面地了解算法性能。31、解釋學習曲線:其他情況分享人:翟昊考慮下面的學習曲線:
  • 入門 | 獻給新手的深度學習綜述
    選自arXiv作者:Matiur Rahman Minar、Jibon Naher機器之心編譯參與:翁俊堅、劉曉坤這篇綜述論文列舉出了近年來深度學習的重要研究成果機器之心認為,這篇綜述對於剛入門的深度學習新手是一份不錯的參考資料,在形成基本學術界圖景、指導文獻查找等方面都能提供幫助。
  • 什麼是小樣本學習?這篇綜述文章用166篇參考文獻告訴你答案
    機器之心報導參與:魔王什麼是小樣本學習?它與弱監督學習等問題有何差異?其核心問題是什麼?來自港科大和第四範式的這篇綜述論文提供了解答。小樣本學習是其中一個解決方案。來自香港科技大學和第四範式的研究人員綜述了該領域的研究發展,並提出了未來的研究方向。這篇綜述論文已被 ACM Computing Surveys 接收,作者還建立了 GitHub repo,用於更新該領域的發展。
  • 多Agent深度強化學習綜述(中文版),21頁pdf
    , DRL)在諸多複雜序貫決策問題中取得巨大突破.由於融合了深度學習強大的表徵能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智慧頗有前景的學習範式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    這些方法大大降低了深度強化學習對訓練數據量的要求,也就相當於讓深度強化學習變得快多了。這些計算技術的出現使 Deep RL 成為人類學習建模的候選模型,也是心理學和神經科學相關觀點的重要啟蒙。以當下的視角,DeepMind 研究人員在這篇綜述中探究了兩種關鍵的 Deep RL 方法來解決樣本效率問題:Episodic Deep RL和 Meta-RL 。