本綜述從數據的變化這個角度,將增量學習分為三類。
基於統計學習方法的數據自動分類方法的一個假設是:用於分類模型的訓練數據和測試數據來自於同一個總體分布,且兩者的特徵空間是一樣的(測試數據的特徵空間默認是由訓練階段構造的)。然而,隨著時間的推移,數據分布和數據特徵會發生變化。一段時間後,基於歷史數據訓練的分類模型可能不適用於一些新的數據。因此,有必要面向自動化分類系統的實際應用,實現增量學習和動態更新,以保證不斷變化的數據能夠被正確分類。
數據分布的變化可以進一步分為樣本的變化和類別的變化。所謂樣本的變化,是指樣本在特徵同構空間下的特徵值的變化,以及每一類樣本所佔比例的可能變化。類別的變化是指新的類別的出現,即原來的分類發生了變化。並且可能會出現新的數據特徵,即訓練數據的特徵空間和測試數據的特徵空間不再相同。為了應對這三種不同的數據變化,本文將增量學習方法分為三類:樣本增量學習、類別增量學習和特徵增量學習。下面分別對這三種增量學習進行深入的研究和全面的綜述。
本文的組織結構如下:在接下來的四個小節中,首先介紹了增量學習的相關背景知識;然後分析了各種支持增量學習的機器學習分類算法;第四部分重點回顧了三種增量學習的研究進展;第四部分對全文進行了總結,並對增量學習的進一步發展方向進行了分析。
具體來說:數據分布變化包含樣本變化和類別變化。
1. 樣本變化指的是樣例在特徵同構空間下的特徵值的變化
2. 類別變化指的是新類別的出現。【訓練和測試都有新的類別出現?】
3. 特徵變化指的是訓練數據和測試數據的特徵空間不一致。
The Background Knowledge of Incremental Learning傳統實際應用場景下,機器學習過程是漸進的:
1)標註數據,訓練一個模型,用模型預測或分類新數據
2)數據變化,新數據和舊數據合併,重新訓練
計算機技術和應用的快速發展,各行業積累了大量數據,呈幾何倍數增長。
數據分析和數據處理的新問題:
a.標註數據代價高
b.數據集過大,訓練時間過長,導致時間消耗和用戶體驗差
c.傳統方式重新訓練數據集,程序處在封閉狀態,不適應在線應用
d.一般的機器學習分類方法,不能識別和更新新類,不能滿足實際需求。
增量學習有以下四個特點:
1. 分類器能夠從新數據中學習新知識。如圖1所示,分類器能夠學到圓圈和方塊的比例的變化。
2. 學習和訓練的數據只是新數據。不需要重複訓練之前的訓練數據。
3. 獲取新知識的同時,分類器能夠整合舊知識。
4. 分類器能夠適應,識別和更新新的類別。如圖1所示,增量學習階段,分類器學習到了三角形。增量學習能夠識別三角形,並且將三角形擴展到之前的類別中。
在當前的增量學習研究中,在特徵1(學習新知識)、特徵2(只訓練新數據)和特徵3(融合新舊知識)的研究方向上取得了一定的成果。然而,特徵4(識別新類)的研究還處於起步階段,相關研究較少。同時,特徵3(融合新老知識)指的是融合的概念,簡單的融合就是加上。相比之下,還有另一種「減少」的概念,意思是減少舊的知識。這涉及到簡化學習[3]的概念,它還可以調整分類的準確性。本文的研究重點是漸進式學習的研究,因此對縮減式學習的研究並不會佔用太多的空間。
增量學習可以分為3類:樣本增量學習(SIL),類別增量學習(CIL),特徵增量學習(FIL)。
1. SIL
問題:由於新數據的各種原因,樣本的特徵值可能會改變,每個類別的比例也會改變。這些都會影響分類的準確率。
任務:因此,需要確保在現有知識的情況下,通過新樣本的增量學習來提取新知識,融合新舊知識以提高分類的準確性。
2. CIL
任務:識別新類,並將其加入現有類別的集合中,提升分類的準確性和智能。
3. FIL
一些新的屬性特徵能夠將分類提升到一個很大的程度,並提升分類準確率。
任務:在現有特徵空間的基礎上,加入新的屬性特徵,構建新的特徵空間,提升分類準確率。
Classification algorithm that can support incremental learning一些分類算法的分類原則自然支持增量學習:樸素貝葉斯,支持向量機,決策樹,隨機森林,人工神經網絡,K-最近鄰,模糊粗糙集理論,學習++ NC等。
3.1 樸素貝葉斯
基本思想:通過計算先驗概率和現有的統計數據獲得後驗概率。
增量學習:後驗概率是下一次學習的先驗概率。增量學習利用這個準則和[5]中的公式,預測新的知識,然後將新舊知識進行融合。最後,調整先驗概率,提升分類能力和準確性。
3.2 支持向量機
基本思想:支持向量的概念是從幾個支持向量中選擇一個超平面來做分類。
增量學習:基於舊的支持向量學習新的支持向量。合併新數據的重要支持向量和保留的支持向量,選擇一些有決定性的向量來做分類。
3.3 決策樹
基本思想:將複雜的多分類問題轉化成一棵樹,從根節點開始,從上至下使用分層形式,通過信息熵來選擇最有力的屬性將樣本分配給孩子節點,直到標註葉子節點。
增量學習:決策樹是一個樹結構,並且具有繼承特性。在學習新知識之後,ID4算法[8]通過劃分屬性來計算信息增益,以確定是繼承還是重構子樹。但是,有可能會丟棄歷史知識。ID5R算法[9]可以通過子樹推廣的方式有效地繼承大部分歷史計算。
3.4 隨機森林
基本思想:它的主要思想是集成思想,它基於決策樹的開發,包括多個決策樹。隨機森林集成了所有決策樹分類投票的結果,指定具有最高投票數的類作為最終輸出。
增量學習:它不僅具有集成思想,還具有決策樹的一些特徵。在增量學習過程中,集成思想可以通過學習新知識和訓練決策樹然後將其添加到原始隨機森林中來實現增量學習。決策樹還賦予它繼承和其他特徵。
3.5 人工神經網絡
人工神經網絡(ANN)[11]起源於20世紀40年代,由美國數學家皮茨和心理學家麥卡洛克在一篇前瞻性文章中提出。他們提出了以神經元為邏輯算子的MP模型來實現算法。1957年,Rosenblatt提出了感知模型,這是第一個真正基於MP的神經網絡模型[12]。該模型以網絡拓撲知識為理論基礎,模擬人腦神經系統,處理外界輸入的複雜信息。它具有高智能、高容錯性和高並行性的特點。
人工神經網絡本身具有學習增量知識的能力,是由大量相互連接的神經元組成的非線性自適應信息處理系統。它不僅能處理發生各種變化的數據,還能以增量學習的方式處理每一個數據,在一定程度上影響權重的更新,使自身的動力系統不斷變化。整個動力系統的演化是一個連續迭代的過程。
A review of incremental learningSample Incremental Learning針對文本領域中基於樸素貝葉斯算法的增量學習問題,羅F X[5]提出了一種新的加權樸素貝葉斯增量學習方法。它的思想有三個主要的改進。首先設置類置信閾值,嚴格過濾增量樣本;其次,根據分類能力,對係數進行手動動態調整,提高分類精度。最後,利用詞頻權重公式可以反映出該特徵的重要性,克服了不能突出不同特徵權重的缺陷。
Ma H F等人[13]提出了一種基於樸素貝葉斯分類算法的增量學習序列選擇方法,防止分類器中加入錯誤的分類,控制增量訓練集的規模。首先對噪聲樣本進行濾波,選擇正確的樣本組成新的增量訓練子集;然後,使用0-1損失率過濾新子集。通過合理強化學習序列,優先選擇具有較強類取向的樣本,並考慮有爭議的噪聲樣本,來喚醒其負面影響。
Pi W J等人[14]提出了一種基於Hadoop的數據驅動並行增量adaboost-SVM (PIASM)算法,解決了支持向量機(SVM)算法難以適應大數據的問題。在研究過程中,他們用重量來描述每個樣本空間的分布特徵,然後用遺忘因子來調整內部樣本和quasi-boundary樣本的大小,增加新樣品有更大的影響和消除歷史樣本較少的影響。PIASM改進了大數據支持向量機算法的並行處理能力,實現了增量學習。
Ye Z X等人[15]提出了一種基於海量數據的不平衡SVM增量學習方法,通過提取url相關特徵和web文本內容兩個方面的特徵。研究在線智能檢測釣魚網站他們發現新的樣品,滿意馬條件不能改變支持向量集,但新的樣本,違反了馬條件變化可能導致支持向量集的支持。所以增量學習實驗的目的是尋找新的樣品可以改變支持向量的集合,訓練他們。
Xie G D等人提出了一種基於k近鄰算法的增量學習方法。通過在模型簇中引入層的概念,建立了增量數據模型簇中的不同層。新的模型聚類可以在錯誤的區域覆蓋原有的模型聚類,使模型聚類更精確,層值更高。當新樣本被多層覆蓋時,選取模型簇的最高層值作為結果分類,達到增量學習的目的。
Sun W X[17]在基於數據挖掘和信息融合的故障診斷研究中提出了一種基於決策樹的增量學習方法。將原來C4.5決策樹中的單鍊表改為雙鍊表,並在葉節點上增加了樣本記憶功能。新樣本在添加新樣本時繼承了其他分支的信息。它通過判斷預測分支葉節點是否需要細分和修改分支信息來實現增量學習。
Wang A P等人[18]提出了一種增量極隨機森林(Incremental Extremely Random Forest, IERF)來解決小樣本數據流的在線學習問題。IERF算法中的新樣本存儲在相應的葉節點上。通過基尼係數,判斷當前葉節點是否被分割。在UCI數據集上的實驗證明,增量學習算法在中尺度樣本集上的性能優於貪婪決策樹重構算法。
Summary樣本增量學習有相當程度的進步。一方面,可以通過具有一定增量學習特性的機器學習算法來實現樣本增量學習。另一方面,結合聚類和分類技術,可以改進樣品的選擇和處理。但是,類別和特徵增量學習仍然面臨很多困難。如何提高他們的性能是下一步的研究重點。此外,如何將簡單的增量學習,類增量學習和特徵增量學習有機地結合起來,以應對複雜的數據變化,這也是值得進一步研究的研究方向。