模式識別是對感知的模式信息(圖像、視頻、聲音等)進行分析,對其中的物體對象或行為進行判別和解釋的過程。從方法論的角度,模式識別方法可進一步分為統計模式識別、句法/結構模式識別、神經網絡方法等。在技術上,模式識別方法包括模式(或信號)預處理、模式分割、特徵提取或表示、模式分析、模式分類等幾個主要的步驟。
在統計模式識別(Statistic Pattern Recognition)中,每個模式被描述為一個特徵向量,對應高維空間中的一個隨機樣本點。統計模式識別的基本原理是類內樣本在模式空間中相互接近,形成「數據簇」(聚類),類間樣本相互遠離。統計模式識別的基本任務是對模式進行分類。統計模式識別方法包括統計決策理論和判別分析方法。統計決策理論利用樣本的統計信息來進行決策。貝葉斯決策根據樣本的後驗概率進行分類,是統計決策理論的基本方法。判別分析方法利用已知類別的樣本建立判別模型,並對未知類別樣本進行分類。
基於句法或結構分析的模式識別方法一直以來是與統計模式識別並列的一個重要分支。句法模式識別(Syntactic Pattern Recognition)是利用模式的結構基元信息,以形式語言理論為基礎來進行結構模式描述和識別的方法。結構模式識別(Structural Pattern Recognition)是一類通過結構特徵來描述和判別一個模式對象的方法。句法模式識別經常與結構模式識別在用詞上互換,合稱句法結構模式識別,或者單稱句法模式識別或結構模式識別。句法結構模式識別方法能反映模式的結構特徵,通常具有較好的泛化能力。
20世紀80年代以來,人工神經網絡得到快速發展和大量應用。神經網絡可看作是一類統計模式識別方法,其中間層的輸出可視為模式特徵表示,輸出層則給出分類判別。近來年,隨著深度學習方法(深度神經網絡設計和學習算法)的發展,模式識別領域迎來了一個全新的發展時期。深度學習方法利用大規模樣本訓練深度神經網絡,相比傳統模式識別方法,在很多模式識別問題上都明顯提升了識別性能。
分類器設計是統計模式識別的重要研究內容。分類器設計的學習方法分為無監督學習、有監督學習、半監督學習和強化學習等。無監督學習是在樣本沒有類別標記的條件下對數據進行模式分析或統計學習,如概率密度估計、聚類等。監督學習是利用標記樣本訓練得到一個最優模型(如調整參數使得模型對訓練樣本的分類性能最優),並利用該模型對未知樣本進行判別。半監督學習是監督學習與無監督學習相結合的一種學習方法,使用大量的未標記樣本和少量的標記樣本來進行模式分析或分類器設計。強化學習是智能系統從環境到行為映射的一種學習方式,優化行為策略以使獎勵信號(強化信號,通過獎懲代替監督)的累積值最大化。
回顧20世紀50年代以來模式識別領域的發展,一些基礎理論和方法產生了歷史性的重要影響,它們或奠定了模式識別的理論基礎,或在模式識別系統中廣泛應用,或用來做模式分析的工具。我們選出以下13項理論方法或任務作為過去歷史上模式識別領域基礎理論方法的重要成就,它們是:
貝葉斯決策與估計:統計決策的基礎理論。
概率密度估計:一類重要的無監督學習方法,統計模式識別的重要基礎,模式分析的重要工具。
分類器設計:模式識別系統實現中最重要的任務,有多種模型設計和學習方法,這裡主要介紹監督學習。
聚類:一類重要的無監督學習方法,模式分析的重要工具。
特徵提取與學習:模式的特徵表示對模式分類的性能有決定性影響,如何從數據提取特徵、選擇特徵或學習特徵表示是一個重要的研究方向。
人工神經網絡與深度學習:人工神經網絡是一類重要的模式分析和識別方法,發展到深度神經網絡形成了目前最成功的深度學習系列方法和研究方向。
核方法與支持向量機:以支持向量機為主的核方法在20世紀90年代成為模式識別的一個主流方向,至今仍在模式識別研究和應用中發揮重要作用。
句法結構模式識別:基於句法或結構分析的模式識別方法一直以來是與統計模式識別並列的一個重要分支。
概率圖模型:概率圖模型是一類重要的模式結構分析或結構化預測方法,因為其區別於其他結構模式識別方法的獨特性,對其單獨介紹。
集成學習:集成學習通過融合多個學習器來提升性能, 在20世紀80年代以來已有大量研究和應用,形成了系統的理論和系列方法。
半監督學習:半監督學習是20世紀90年代以來發展起來的一類可同時利用標記樣本和無標記樣本的分類器學習方法,至今仍有大量研究。
遷移學習:遷移學習利用不同領域或不同分布特性的樣本數據來優化分類器模型,受到了廣泛重視,發展了一系列模型和方法。
多任務學習:多任務學習利用多個分類或建模任務(包括聚類、回歸、數據重構等)的相關性,同時學習多個任務,可提升每個任務的泛化性能,得到了廣泛重視和應用。
貝葉斯決策是統計決策理論的基本方法。理論上,在給定類條件概率密度函數和類先驗概率條件下,貝葉斯決策是最小分類錯誤率和最小風險一致最優的決策。對於模式分類任務而言,貝葉斯決策與估計的核心任務是利用統計學中的貝葉斯定理來估計類後驗概率密度函數,採用期望效用最大化和類別誤判損失最小化等準則構建分類判別函數,確定樣本的最優類別標記。
作為規範性理論,在類條件概率密度函數和類先驗概率等經驗知識條件下,最小錯誤率貝葉斯決策和最小風險貝葉斯決策的理論與方法已較完善。在這一理論框架下,貝葉斯決策所構建的分類器在統計上是最優的。在最小錯誤率貝葉斯決策和最小風險貝葉斯決策準則的基礎上,模式分類方法得到充分的發展,建立起了基於訓練樣本直接構建分類器的方法體系。在技術上,針對不同的類條件概率密度函數,可構造不同的分類器。比如,常見的最近鄰分類器、線性分類器、二次判別函數等均可在類條件概率密度函數為正態分布的情形下通過最小錯誤率貝葉斯決策來獲得。在此基礎上,人們發展了帶拒識決策、Neyman-Pearson決策方法、ROC曲線性能評估、連續類條件概率密度下的分類決策、離散概率模型下的統計決策、兩類分類錯誤率估計、正態分布類條件概率密度的分類錯誤率估計、高維獨立隨機變量分類錯誤率估計、貝葉斯估計、貝葉斯學習、K近鄰分類器的錯誤率界、決策樹模型、樸素貝葉斯模型等基本理論與方法。在此基礎上,發展了非參數貝葉斯估計方法,如Dirichlet過程、高斯過程、核概率密度估計等。Dirichlet過程和高斯過程通過隨機過程來表示不確定性,利用先驗知識來降低對參數的顯示約束,一定程度地避免了過擬合,提升了貝葉斯估計的數據自適應能力。
在貝葉斯決策中,類條件概率密度函數被假定是已知的。由於模式分類任務通常是面向給定樣本集的,其類條件概率密度函數往往是未知的。因此,對類條件概率密度函數進行估計則成為貝葉斯決策過程中的一個核心環節。這一任務與概率密度函數估計緊密相關。在方法論上,最大似然估計被廣泛地應用於確定型參數的類條件概率密度函數估計情形,而貝葉斯估計則被應用於隨機型參數的類條件概率密度函數估計情形。貝葉斯學習具有靈活的適應性,既可以自然地處理以動態形式出現的樣本,也可以處理以分布式方式存在的多個數據集。對於常見的共軛模型(如:類條件概率密度函數為正態分布,先驗分布也是正態分布),貝葉斯後驗分布可以很容易地得到計算。對於更加常見的非共軛模型,已經發展了性能良好的變分推斷和蒙特卡洛採樣算法,建立了較為完善的貝葉斯估計的方法體系。
在貝葉斯估計的框架內,建立了較為完善的概率圖模型參數估計與結構學習的理論與方法體系,發展了馬爾可夫模型參數估計方法、隱馬爾可夫模型參數估計方法、動態貝葉斯網絡參數估計方法。貝葉斯深度學習將貝葉斯學習的思想與神經網絡的訓練相結合,一方面,通過反向傳播的變分推斷或蒙特卡洛算法,對神經網絡的參數進行貝葉斯建模,估計其概率分布信息;另一方面,利用神經網絡的非線性函數學習能力,豐富貝葉斯模型中變量之間的變換,實現複雜數據的貝葉斯建模和學習。貝葉斯深度學習在無監督表示學習、數據生成、半監督學習、深度神經網絡訓練、網絡結構搜索等中得到廣泛應用。另外,基於貝葉斯學習和核函數方法發展了關聯向量機方法,一定程度上克服了經典支持向量機中支持向量過多且其分類性能易受正則化參數影響的缺點。
最近幾年,以貝葉斯決策與估計為基礎,貝葉斯隱變量學習模型、代價敏感學習、代價缺失學習、資訊理論模式識別、魯棒分類器設計、正則化方法、貝葉斯統計推斷、變分貝葉斯學習等得到了充分的發展,拓展了貝葉斯決策與估計的應用範圍,進一步發展了貝葉斯決策的方法體系。
以貝葉斯決策與估計所形成的理論與方法為基礎,形成了較為完備的模式分類的概念體系和分類性能評價方法。在當前的模式識別理論與方法體系中,諸多判別式模型和生成式模型均可以用貝葉斯決策的思想進行解釋。在技術上,貝葉斯決策與估計對分類器設計、概率密度估計、參數學習、特徵提取、特徵選擇等方法體系的形成產生了直接影響。另外,貝葉斯決策與估計還是一種重要的學習策略,對統計模式識別和結構模式識別中的學習與推斷問題的求解提供了重要的方法論。貝葉斯決策與估計的理論與方法在醫學圖像分類、計算機視覺、自然語言處理、語音識別、遙感圖像處理等任務中得到廣泛應用。
概率密度估計是貝葉斯決策的基礎。給定一個觀測樣本集,概率密度估計的基本任務是採用某種規則估計出生成這些樣本的概率密度函數。觀測樣本的分布能代表樣本的真實分布,且觀測樣本足夠充分。概率密度估計的基本思路是若一個樣本在觀測中出現則認為在該樣本所處的區域其概率密度較大而離觀測樣本較遠的區域其概率密度較小。
概率密度估計方法主要包含參數估計和非參數估計。參數估計方法假定概率密度函數的形式已知,所含參數未知。參數法進一步分為頻率派和貝葉斯兩大類學派。頻率派認為待估計的概率密度函數的參數是客觀存在的,樣本是隨機的;而貝葉斯派假定待估參數是隨機的,但樣本是固定的。頻率派的代表方法為最大似然估計,貝葉斯派的代表性方法則包含貝葉斯估計和貝葉斯學習。針對樣本的類別是否已知,參數法又可分為有監督和無監督的估計方法。有監督的估計假定每類樣本的類別標籤已知,無監督的估計假定每類樣本的類別標籤未知。在每類樣本獨立同分布的假定下,這兩類方法主要依靠最大似然估計的技術路線來實現。無監督的估計通常需要同時對觀測變量和隱變量進行估計,因此在最大似然估計的框架下,該類方法大多採用期望最大化方法來具體實現。在此基礎上,人們發展出概率圖模型參數估計、混合高斯模型概率函數估計、Poly-tree模型參數估計、Copula 密度函數估計、隱狄利克萊分配(Latent Dirichlet Allocation)模型估計、受限玻爾滋曼機參數估計等方法。
在對樣本分布沒有充分了解從而難以給出其概率密度函數的情形下,以及在樣本分布複雜從而難以採用簡單的概率密度函數對其進行描述的情形下,需要採用非參數估計方法。非參數估計方法不對概率密度函數的形式作任何假定,而是直接採用樣本來估計出整個函數。非參數方法主要包含Parzen窗方法和K近鄰估計。Parzen窗方法和K近鄰估計方法的誤差界已從理論上得到了有效的分析和充分的研究。方窗、高斯窗、超球窗等窗函數在Parzen窗方法中得到廣泛應用。在此基礎上,人們發展出核密度估計方法,並在密度函數的平滑性、核函數尾部效應、核函數及其帶寬選擇、密度估計的統計逼近分析等理論方面進行了廣泛研究。核密度估計方法涉及到核函數的選擇和帶寬的選擇。常用的核函數包含多項式核函數、高斯核函數、Epanechnikov核、徑向基函數,等等。在此基礎上,人們發展出一類靜態核、動態核、正交級數密度估計等方法。核函數的帶寬決定著密度估計的精度和泛化性能。因此,帶寬的選擇得到了廣泛研究,主要包含最小二乘法交叉驗證、有偏交叉驗證、似然交叉驗證、赤池信息準則(Akaike Information Criterion)、置信區間交叉、平均積分平方最小準則、有偏漸近平均積分平方最小準則、局部平均積分平方最小準則、數據樹帶寬選擇等方法。
因其在模式分類中的普遍性和重要性,概率密度函數估計一直得到廣泛的關注。針對不同的問題描述形式,人們發展了一些改進方法,比如互信息匹配自適應概率密度估計方法、非參數回歸、可變帶寬核密度估計、多尺度核密度估計、基於場論的密度估計、人工神經網絡密度估計、壓縮密度估計、交叉熵估計、密度微分、密度比例估計、高維鑑別特徵選擇、半參數密度估計、原型密度凸組合、在線期望最大化、增量密度估計、密度估計並行算法,等等。這些方法從學習準則、數學優化方法等不同的技術角度豐富了概率密度估計的方法體系。但是,對於小樣本高維空間的密度估計方法,依然沒有得到充分的研究。
概率密度估計是統計模式識別中的一個基本問題,是數據聚類和分類器設計等多種模式分類算法的基礎。隨著模式識別方法的發展,概率密度參數估計的思想在深度信念網絡、深層玻爾滋曼機、變分自編碼機、生成對抗網絡等深度生成模型中得到應用。與此任務關聯的蒙特卡羅採樣方法、馬爾可夫蒙特卡羅和貝葉斯參數推斷、高斯過程、Dirichlet過程等均得到了並行發展。概率密度估計在圖像分割、視頻背景運動估計、目標跟蹤、圖像配準等計算機視覺任務和盲信號分離、語音識別等任務中具有廣泛的應用。
模式識別過程一般包括以下幾個步驟:信號預處理、模式分割、特徵提取、分類器構造、上下文後處理,而分類器構造是其中的主要任務和核心研究內容。分類器構造是在訓練樣本集合上進行機器學習和優化(如使同一類樣本的表達波動最小或使不同類別樣本的分類誤差最小)的過程。
最經典的分類器是貝葉斯決策模型,在每個類的先驗概率以及條件概率密度基礎上,通過貝葉斯公式計算出後驗概率進行模式分類。當條件概率密度的函數形式符合數據的實際分布時,貝葉斯分類器是理論上最優的分類器。多數分類器可以看成是貝葉斯分類器的特例形式,如K近鄰分類器,線性判別函數,二次判別函數等。此外,絕大多數分類器的設計方法均可從貝葉斯決策的角度進行分析和解釋。
在技術上,分類器設計方法可以從兩個角度進行劃分。第一是從模式表示的角度進行劃分,可以分為統計方法、結構方法、以及混合統計-結構方法。統計方法以多元統計理論為基礎,將模式表示成特徵矢量然後再進行分類,具體的方法有參數方法(如基於高斯分布假設的貝葉斯分類器)、非參數方法(如Parzen窗,k-NN等)、半參數方法(如高斯混合模型)、神經網絡模型、邏輯回歸、決策樹、支持向量機與核方法、集成學習方法(如 AdaBoost)、子空間識別方法和基於稀疏表示的分類方法等。而結構方法則以形式語言為數學基礎,將模式表示成諸如串、圖、樹、基元等結構化的數據形式然後再進行分類,具體的方法包括句法分析、結構分析、串匹配、圖匹配、樹匹配、結構化預測等。
第二是從模式學習的角度可分為生成模型、判別模型、以及混合生成-判別模型。模式分類可以在概率密度估計的基礎上計算後驗概率,也可以不需要概率密度而直接近似估計後驗概率或鑑別函數(直接劃分特徵空間)。通過估計概率密度然後進行模式劃分的分類器被稱為生成模型(Generative Model),如高斯密度分類器、Bayes網絡等;直接學習鑑別函數或者後驗概率進行特徵空間劃分的分類器被稱為判別模型(Discriminative Model),如神經網絡、支持向量機等。結合二者的優點,混合生成-判別學習的方法一般是先對每一類模式建立一個生成模型(概率密度模型或結構模型),然後用判別學習準則對生成模型的參數進行優化,如生成對抗網絡。在判別分類器設計中,決策樹是一類重要的分類方法。在結構上,決策樹是關於屬性(特徵)分類能力判定的樹形結構,其每個葉子結點代表一種類別。經典的決策樹方法包含ID3、C4.5和C5.0等方法。決策樹方法提升了分類器面向由不同類型特徵所描述的模式的分類能力。
除了構造分類決策模型之外,分類器設計還與距離度量學習相關。距離度量學習旨在學習一個顯式或隱式的、區別於歐氏距離度量的樣本間距離函數,使樣本集呈現出更好的判別特性,主要包含馬氏距離、閔氏距離、Hausdorff距離、KL距離、推土距離(Earth Mover's Distance)、切距離(Tangent Distance)等。目前深度度量學習得到廣泛研究,根據損失函數不同,有對比損失(contrastive loss)、中心損失、三元組損失、代理損失等方法。另外,在分類器設計中,人們還發展了代價敏感學習、類不均衡樣本學習、多標籤學習、弱標籤學習等方法,用於改善各種實際問題中分類器的性能。代價敏感學習考慮在分類中不同分類錯誤導致不同懲罰力度時如何訓練分類器,代價敏感學習方法主要包含代價敏感決策樹、代價敏感支持向量機、代價敏感神經網絡、代價敏感加權集成分類器、代價敏感條件馬爾可夫網絡、最優決策閾值、樣本加權等方法。類不均衡樣本學習考慮如何解決訓練樣本各類佔比極度不平衡的問題,主要包含樣本採樣法、樣本生成方法、原型聚類法、自舉法、代價敏感法、核方法與主動學習方法等。多標籤學習考慮樣本具有多個類別標籤的情形,人們從分類任務變換和算法自適應的角度發展出了分類器鏈、標籤排序、隨機K標籤、多標籤近鄰分類器、多標籤決策樹、排序支持向量機、多標籤條件隨機場等方法。弱標籤學習考慮樣本標籤存在標註量小、未標註量大、標註不精確等情形下的分類問題,主要包含小(零)樣本學習、半監督字典學習、偽標籤監督學習、教師學生網絡半監督學習、弱監督學習等方法。此外,多類分類器集成方法也得到了廣泛發展。
分類器設計產生了廣泛的影響,如從支持向量機引申出來的核方法在機器學習領域成為將線性模型非線性化的主要技術手段,從神經網絡模型進一步擴展出來的深度學習成為人工智慧領域的核心算法,從結構模式識別發展出來的一系列模型成為結構化預測的主流工具等。在具體的應用中,分類器構造也被廣泛的應用在諸如文字識別、人臉識別、語音識別、圖像分類等具體問題上並取得了優異性能。
聚類是模式識別的基本問題,並與概率密度估計密切相關。數據聚類的任務是根據數據的特性和模式分析的特定任務在樣本類別標籤未知的條件下將數據集劃分為不同的聚合子類(簇),使屬於每一聚合子類中的樣本具有相近的模式,不同聚合類之間的模式彼此不相似。
聚類的目的是對數據進行描述。依據描述方式的不同,聚類方法包含劃分法、層次法、密度法、網格法、模型法等。劃分法使用類原型描述聚類子類(簇),依據類原型將數據集劃分為不同的聚合子類(簇)。代表性的K均值算法和K中心值算法的類原型都是點原型。不同的是,K均值算法的類原型是虛擬樣本點,並可從高斯混合概率密度函數估計的角度加以解釋。K中心點算法的類原型是數據集中實際樣本點。K均值算法和K中心值算法的樣本隸屬度均是非0即1。隨後,人們發展了模糊K均值算法,假定各樣本以一定的模糊隸屬度屬於多個不同的簇,拓展了聚類算法的應用範圍。層次法基於給定的簇間距離準則,採用合併或分裂的方式對數據集進行層次聚合或層次分解,包含凝聚層次聚類和分裂層次聚類兩種技術路線,代表性的方法為BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)算法。密度法的基本原理是聚合子類中的每一個數據點在其局部鄰域內需包含一定數量的其它數據點。在技術上,只要鄰近區域內的數據點密度超過閾值,密度法則繼續進行子集聚合。因此,理論上講密度法可以發現任意形狀的子類。經典的密度法包含DBSCAN (Density—Based Spatial Clustering of Application with Noise)算法和OPTICS (Ordering Points to Identify the Clustering Structure)算法。網格法將樣本所在的空間量化為有限數目的多解析度網格單元,代表性的方法包含STING(統計信息網格方法,Statistical Information Grid)算法、CLIQUE(Clustering in QUEst)算法、小波聚類算法。模型法為每一個聚合子類假定一個生成模型或描述描述,並在樣本集尋找滿足該模型的數據子集。模型可以為概率密度函數或者其它特定描述。在假定樣本的總體分布符合基於混合高斯模型的條件下,可以直接導出K均值算法。在以上經典算法的基礎上,人們發展了多種變種聚類算法,包含模糊聚類法、迭代自組織數據分析法、傳遞閉包法、布爾矩陣法、直接聚類法、相關性分析聚類、基於統計的聚類方法、基於分裂合併的聚類數目自適應算法,等等。另外,因其與K均值聚類算法所具有的內存聯繫,非負矩陣分解方法也應用於數據聚類之中。
大多數聚類方法假定聚合子類中的數據呈擬球形分布,但現實應用中的諸多數據分布在多個流形上或任意形狀上。兩類呈擬球形分布的數據可以用一個超平面來做劃分邊界,通常稱為線性可分數據,否則稱為非線性可分數據。為了解決非線性可分數據的聚類問題,人們發展出了譜聚類算法。譜聚類算法將數據集中的每個數據點視為圖的頂點,數據點對的相似度視為相應頂點所連邊的權重,並將數據聚類任務描述為一個圖劃分問題。代表性的譜聚類方法包含歸一化切割、比例切割方法、多路譜聚類方法。隨後,在圖拉普拉斯構造的基礎上,人們發展出多個變種譜聚類方法,比如親合性傳播聚類、結構化譜聚類、進化譜聚類等方法。另一種解決非線性可分數據的算法是同時採用密度和距離信息的密度峰值快速聚類算法。其基本思路是:對任意一個樣本點,通過查找密度上比該樣本點鄰域密度更高同時相對較遠的樣本點作為該樣本點的中心點,從而發現具有任意形狀的聚類分布。
為了解決高維數據的聚類問題,通過擯棄高維數據中大量無關的屬性,或者通過抽取高維空間中較低維特徵表達空間來進行聚類,人們發展出了子空間聚類算法。子空間聚類方法主要包含K平面算法、K子空間算法、生成式子空間聚類、概率主成分分析、凝聚的有損壓縮、圖劃分子空間聚類、低秩子空間聚類、魯棒子空間聚類、貝葉斯非參子空間聚類、不變子空間聚類、資訊理論子空間聚類、稀疏子空間聚類等。
技術上,支持向量機方法也應用於聚類之中,比如,最大間隔切平面最小結構化風險聚類方法。另外,在神經網絡模型方面,早期的著名方法包含自組織映射網絡模型。隨著深度學習方法的發展,基於深度學習的嵌入聚類、深度課程學習聚類等方法推動了大規模數據聚類和深度無監督學習方法的發展。
面對不同的任務形態和數據特性,在現有聚類算法的基礎上人們從多方面發展了數據聚類方法,比如,大規模數據聚類、集成聚類、流數據聚類和多視圖聚類。大規模數據聚類主要包括並行聚類、大數據聚類等方法。集成聚類主要包括因子圖集成聚類、局部加權集成聚類等方法。動態流數據聚類主要包括基於支持向量的流數據聚類、多視圖流數據聚類等方法。針對多視圖聚類問題,主要從如下幾個角度開展了算法研究工作:權衡視圖內聚類質量與視圖間聚類一致性、對視圖和特徵同時進行自適應加權、保證視圖間的一致性和互補性、刻畫多視圖數據樣本的非線性關係、構建反映類結構特徵的完整空間表達等。多視圖聚類主要包括基於相似性的多視圖聚類、多視圖子空間聚類、視圖與特徵自適應加權多視圖聚類、協同正則化多視圖聚類、信念傳播多視圖聚類、基於圖學習的多視圖聚類等方法。
聚類是統計模式識別中的經典問題,是實現模式分類的基本技術方法。因其在模式分類中的重要性和基礎性,聚類一直受到學術界和工業界的廣泛關注。但是,聚類算法對數據規模的可伸縮性、不同數據類型的處理能力、對任意分布和任意形狀簇的自適應性、對初始參數的魯棒性、噪聲魯棒性、高維數據的自適應性、合理類別數的自動確定等問題仍然沒有得到充分的解決。對這些挑戰性問題的研究持續推動著模式分類技術的發展。聚類方法在圖像處理與分析、計算機視覺、自然語言處理、數據科學等領域中具有十分廣泛的應用。
特徵提取與學習是模式識別的重要環節。原始採樣數據通常為意義不明確且高度冗餘的數值數組或矩陣,同時通常還夾雜著大量的噪聲和幹擾信號。因此,特徵提取與學習是依據數據的本徵屬性和應用需求,從原始採樣數據中提取有用的信息,並對這些信息進行合理編碼,盡最大可能地形成完備、緊緻、區分性好的特徵表達。
一個廣泛採用的方法是特徵選擇。特徵選擇是從給定的特徵集合中選擇出用於模型構建的相關特徵子集的過程,是一個重要的數據預處理過程和特徵提取過程,可以有效減輕維數災難問題。特徵選擇一般採用啟發式或隨機搜索的策略來降低時間複雜度。總的來說,傳統的特徵選擇過程一般包括產生過程、評價函數、停止準則和驗證過程四個基本步驟。產生過程是一個搜索策略,產生用於評價的特徵子集,包括:前向搜索、後向搜索、雙向搜索等。評價函數用於評價測試中候選子集與上一次最佳候選子集之間的好壞。停止準則決定什麼時候停止搜索子集過程。驗證過程檢查候選子集在驗證集上是否合法有效。基於稀疏學習的方法也被廣泛應用在特徵選擇問題中,通過將分類器的訓練和L1、L2、以及L21範數的正則化相結合,可以得到不同程度的特徵稀疏性,從而實現特徵選擇。
特徵學習的方法主要包含四類。其一是以子空間分析為代表的線性方法,包括:主成份分析法(PCA),線性判別分析法(LDA),典型相關分析法(CCA),獨立成份分析法(ICA)等,從不同的側面對數據所處的子空間進行建模,如PCA針對最佳重構子空間,LDA針對最佳類別可分子空間,CCA針對兩組變量的最佳相關子空間,ICA針對從混合數據中恢復出獨立子空間等。其二是通過核方法的手段將上述線性子空間模型非線性化,主要代表性模型有:核主成份分析(KPCA)、核線性判別分析(KLDA)、核獨立成份分析(KICA)等,其主要思想是通過某一未知的映射函數將數據投射到高維空間再進行相應的線性建模,而核函數描述了高維空間中數據的內積,最終的特徵提取函數以核函數的形式進行描述。其三是對數據的流形結構進行刻畫的流形學習方法,傳統的機器學習方法中,數據點和數據點之間的距離和映射函數都是定義在歐式空間中的,然而在實際情況中,這些數據點可能不是分布在歐式空間中的,因此傳統歐式空間的度量難以用於真實世界的非線性數據,從而需要對數據的分布引入新的假設。流形學習假設所處理的數據點分布在嵌入於外維歐式空間的一個潛在的流形體上,或者說這些數據點可以構成這樣一個潛在的流形體,代表性工作包括等度量映射ISOMAP, 局部線性嵌入LLE等。其四是以深度學習為代表的端到端特徵學習方法,對大量的原始數據通過特定的網絡結構以及訓練方法,學習出有意義的特徵表示,用於後續的分類、回歸等其它任務。由於深度神經網絡具備強大的非線性函數擬合能力,結合具體任務的目標損失函數,可以以數據驅動的方式學習到更加具備判別力的特徵表示。此外,現實世界中大量數據是以張量形式存在的,對傳統算法的張量化擴展也是一個重要的研究內容,如2DPCA,2DLDA等研究引起了學術界的廣泛關注。
特徵提取與學習是模式識別中的一個基本任務,是實現模式描述、模式非線性變換與語義表示、分類器設計、距離度量學習的重要基礎,也是解決維數災難的重要手段。一些新的研究方向,如流形學習、稀疏學習與數據壓縮、基於學習的排序、深度學習等與特徵提取與學習緊密相關。小樣本條件下的特徵提取以及在端到端框架下的表示學習均是當前的研究熱點。特徵提取與學習在圖像識別、圖像匹配、醫學影像分析、生物特徵識別、Web 文檔處理、信息檢索、自然語言處理、基因分析、藥物診斷等領域具有廣泛的應用。
人工神經網絡是一種模仿動物神經網絡行為特徵,進行分布式並行信息處理的數學模型,通過調整內部大量節點之間相互連接的關係,從而達到處理信息的目的。人工神經網絡本質是通過網絡的變換和動力學行為得到一種並行分布式的信息處理功能,並在不同程度和層次上模仿人腦神經系統的信息處理功能。它是涉及神經科學、思維科學、人工智慧、計算機科學等多個領域的交叉學科,其具體的發展包含兩個階段:淺層網絡與深度學習。
1943年,心理學家W.S. McCulloch和數理邏輯學家W. Pitts建立了神經網絡和數學模型,並稱之為機器感知模型。機器感知模型給出了神經元的形式化數學描述和網絡結構方法,展示了單個神經元具有執行邏輯運算的功能,從而開創了人工神經網絡研究時代。1949年,心理學家提出了突觸聯繫強度可變的設想,從而將參數學習引入至人工神經網絡。1959年感知器及隨後多層感知器的提出,將人工神經網絡的研究引入到一個新的高潮。
傳統的神經網絡模型大部分均為淺層網絡,如多層感知機、徑向基函數網絡、多項式網絡、自組織映射等。在這些模型中,神經元處理單元可表示不同的對象,例如特徵、字母、概念,或者一些有意義的抽象模式。網絡中處理單元的類型分為三類:輸入單元、輸出單元和隱單元。輸入單元接受外部世界的信號與數據;輸出單元實現系統處理結果的輸出;隱單元是處在輸入和輸出單元之間,不能由系統外部觀察的單元。神經元間的連接權值反映了單元間的連接強度,信息的表示和處理體現在網絡處理單元的連接關係中。由於早期計算能力的局限性以及網絡設計的缺陷,大部分模型的層數都比較淺(如3層、5層等),當層數加深時,誤差反向傳播算法BP會出現梯度消失現象,從而無法有效訓練。同時,早期的人工神經網絡還存在過擬合、局部最優化等問題。
面向時間序列數據處理,人們建立了循環神經網絡(Recurrent Neural Network, RNN)。循環神經網絡在序列的演進方向(和反方向)各結點按鏈式方式並進行遞歸。循環神經網絡具有記憶性、參數共享並且圖靈完備,在序列非線性特徵學習方面具有優勢。長短期記憶(LSTM,Long Short-Term Memory)網絡是一種時間循環神經網絡,旨在解決循環神經網絡中存在的長時依賴問題和訓練過程中可能遇到的梯度消失或爆炸問題。實踐上,長短期記憶網絡在多數任務上表現出超越隱馬爾科夫模型的性能。另外,作為循環神經網絡的擴展,遞歸神經網絡(Recursive Neural Network)也得到了發展和應用。遞歸神經網絡是具有樹狀階層結構且網絡結點按其連接順序對輸入信息進行遞歸的人工神經網絡,目前已成為深度學習中的重要方法。
面向圖像數據分析,人們建立了卷積神經網絡(Convolutional Neural Network, CNN)。卷積神經網絡受生物視覺系統啟發,在人工神經網絡中引入局部連接和權值共享策略,大幅度縮減模型參數,提高訓練效率。同時,卷積神經網絡引入多卷積核和池化(Pooling)策略,不僅緩解了神經網絡的過擬合問題,還增強了神經網絡的表示能力。卷積神經網絡不僅在圖像識別等計算機視覺任務中取得巨大成功,還被用於語音識別和自然語言理解,是深度學習的重要方法之一。
近年來,隨著計算能力提升和大數據湧現,神經網絡的發展趨勢是變得越來越深,形成了新的研究方向「深度學習」,包括:深度信念網絡、卷積神經網絡、遞歸神經網絡等,在圖像、聲音和文本等眾多感知任務和以圍棋博弈為代表的認知任務上均取得了突破性的性能提升。其中一個代表性的改進是利用ReLU激活函數替代了傳統的Sigmoid激活函數,使得深度網絡得以有效訓練,另外一個代表性改進是殘差網絡通過引入跳躍式的連接(Skip Connection)有效緩解了梯度消失的問題,使得網絡層數大大增加。在其他策略諸如更好的初始化如Xavier、更好的歸一化如Batch Normalization、更好的網絡結構如ResNet, DenseNet, GoogleNet, NAS等、以及更好的優化算法如Adam等的共同努力下,深度學習在顯著擴展網絡深度的同時也大大提升了模型的整體性能。
深度學習的概念由Hinton等人於2006年正式提出。2013年4月,《麻省理工學院技術評論》雜誌將深度學習列為2013年十大突破性技術之首。深度學習強調的是一種基於對數據進行表徵學習的方法,其目標是尋求更好的表示方法並創建更好的模型來從大規模未標記數據中學習這些表示方法。深度學習也可以理解為傳統神經網絡的拓展,至今已被應用於計算機視覺、語音識別、自然語言處理、與生物信息學等領域並獲取了極好的效果,甚至在某些識別任務上達到或超越人類所表現出的能力。除了在算法模型方面的進展,深度學習的成功還有兩個重要因素:海量訓練數據積累以及 GPU 計算所提供的強大而高效的並行計算。現在主流的深度學習平臺(如Caffe, Tensorflow, pyTorch)都支持GPU的訓練。
核方法是解決線性不可分模式分析問題的一種有效途徑,其核心思想是:首先,通過某種非線性映射將原始數據嵌入到合適的高維特徵空間;然後,利用通用的線性學習器在這個新的空間中分析和處理模式。相對於使用通用非線性學習器直接在原始數據上進行分析的範式,核方法有明顯的優勢:首先,通用非線性學習器不便反應具體應用問題的特性,而核方法的非線性映射由於面向具體應用問題設計而便於集成問題相關的先驗知識。再者,線性學習器相對於非線性學習器有更好的過擬合控制從而可以更好地保證泛化性能。還有,很重要的一點是核方法還是實現高效計算的途徑,它能利用核函數將非線性映射隱含在線性學習器中進行同步計算,使得計算複雜度與高維特徵空間的維數無關。在可再生核希爾伯特空間中,核技巧解決了顯式特徵映射方法中存在的計算代價大和計算複雜度高的缺點,有效地避免了維數災難的問題。Mercer定理的建立為核技巧的實施提供了理論支撐。著名的核方法包括核感知機、核支持向量機、核主成分分析、核判別分析、高斯過程等。隨後,核嶺回歸、核典型相關分析、核偏最小二乘分析、譜聚類核化、核矩陣學習、核貝葉斯推斷等相繼得到發展。核學習方法成為推動模式分類、聚類、特徵提取等非線性化發展的主要技術途徑。另外,藉助於核主成分分析方法,人們建立了關於線性模式分類方法核化的一般性理論,發展了多核學習的算法體系。核方法在生物特徵識別、數據挖掘、生物信息學等領域得到廣泛應用。
核方法的最典型應用是支持向量機模型。支持向量機以統計學習理論的VC維理論和結構風險最小原理為基礎,目標是基於有限的樣本信息學習分類模型,該模型能在複雜性和泛化能力尋求最佳折中。具體說,支持向量機可以看作是一個二類分類模型,其求解目標是在確定一個分類超平面使得間隔(所有樣本與分類超平面之間距離的最小值)最大。通過將支持向量機的原問題轉化為對偶問題,支持向量機的學習核心從間隔最大化的學習問題轉化為支持向量的學習問題。其中,支持向量指的是最終用於確定分類器參數的向量。另一方面,基於對偶問題,可以明確地看出不同支持向量機的核心體現在核矩陣(或者對應核函數)的構造。基於精心構造(或通過多核學習得到)的核函數,可以有效地處理數據的非線性難題。同時,通過核函數,可以在高維特徵空間中,甚至無限維特徵空間中實現分類問題。此外,支持向量機使用鉸鏈(合頁)損失函數(hinge loss)計算經驗風險並在求解系統中加入了正則化項以優化結構風險,是一個具有稀疏性和穩健性的分類器。支持向量機可以通過核方法進行非線性分類,是常見的核學習方法之一。支持向量機的理論基礎被提出於1964年,在二十世紀90年代後得到快速發展並衍生出一系列改進和擴展算法,在圖像識別、文本分類等模式識別問題中得到廣泛應用。
核方法還被廣泛應用在其它模式識別和機器學習問題中。如將傳統的線性特徵提取算法通過核函數來實現非線性化的擴展,具體包括:核主成份分析(KPCA)、核線性判別分析(KLDA)、核最小二乘、核典型相關分析、核獨立成份分析(KICA)等。在核學習的理論方面也取得了重要進展,比如人們發現線性方法的核化與KPCA之間的內在聯繫。同時,建立了多核學習與核選擇方法。核函數與聚類相結合,如核K均值算法(Kernel K-means),顯著提升了傳統聚類算法的非線性表達能力。另外,在概率密度估計中核函數也得到了廣泛的應用,是典型的非參數估計方法之一,比如基於RBF核以及Parzen窗的概率密度估計方法等。最後,在結構模式識別中,核函數也得到了廣泛的應用。結構模式識別處理的對象不是固定維度的向量而是結構化的數據(如圖或串等),因此諸如序列串匹配核(String Kernel),圖匹配核(Graph Kernel)等被廣泛用來提升結構模式識別問題的學習能力。高斯過程也可以看做是在貝葉斯學習中融合了核函數的優點。
句法模式識別(Syntactic Pattern Recognition)是由美籍華裔科學家傅京孫(King Sun Fu)教授於1970年代中期在形式語言理論的基礎上所建立的。句法模式識別經常與結構模式識別(Structural Pattern Recognition)在用詞上互換,合稱句法結構模式識別,或者單稱句法模式識別或結構模式識別。
結構模式識別(Structural Pattern Recognition)是處理結構數據的一類模式識別方法。現實問題中,模式對象經常包含豐富且重要的結構信息,例如:一個文字中的筆劃及其相互關係,一個物體的部件及其相互關係。結構模式識別方法將模式表示為一組基元的組合併對基元之間的相互關係進行描述,在此表示的基礎上,通過對模式進行結構解析進行識別。相對而言,統計模式識別方法一般用特徵矢量來描述模式,基於概率決策理論劃分特徵空間進行模式分類,因而往往忽略模式的內在結構。結構模式識別對結構的分析與理解類似人腦的模式識別方式,具有更好的泛化性能(不需要大量樣本訓練)。
常見的結構模式識別任務包括:結構數據的分類、匹配、結構化預測等。而根據方法的特點,結構模式識別方法可以大致分為三類:句法模式識別;結構匹配;融合結構與統計的方法。
句法模式識別的基本原則是,如果一類模式的樣本能用一個文法(一組句法規則)來描述,則可以通過句法解析(Parsing)來識別這類模式:如果解析的結果表明,模式基元組合能為給定的句法規則所產生,則可判別該模式屬於該類,否則就不屬於該類。另一方面,從模式樣本推導出一類文法的過程稱為文法推斷(Grammatical Inference)。學術界對模式的文法表示、句法解析、文法推斷方面提出了一系列方法和算法。在文法表示方面,短語結構文法,如上下文敏感文法、上下文無關文法、正則文法等,常用來對串模式進行表示。高維文法,如樹文法、圖文法等,可以對高維模式(如二維和三維圖形)進行描述。其中,60年代提出的用於圖形分析的圖像描述語言(Picture Description Language)產生了長遠影響。句法解析一般針對不同類型的文法提出不同的方法,如針對上下文無關文法的Cocke-Yonger-Kasami (CYK)解析方法。文法推斷方法也依賴於具體的文法類型,且算法大多很複雜。實際中,很多文法是專家針對具體問題人工設計得到的。
結構匹配是結構模式識別中的基本問題,其基本任務是計算兩個待比較的模式之間的相似度(或距離),同時給出基元之間的對應關係。根據模式結構的不同,結構匹配可以分為串匹配和圖匹配。串匹配要求在某個字符串中找出與待查找字符串相同的所有子串。經典算法包括:Knuth-Morris-Pratt算法,Boyer–Moore算法等。但現實問題中往往包含噪聲和形變,因此允許誤差的近似匹配方法更為常用。近似串匹配一般以編輯距離度量誤差,通過動態規划算法尋找最優匹配路徑。近似串匹配廣泛應用於字符識別,語音識別,形狀匹配等問題中。圖匹配也分為精確圖匹配和近似圖匹配。精確圖匹配也稱圖同構或子圖同構問題,可用帶回溯的樹搜索算法實現,但複雜度高,目前尚沒有多項式級算法。非精確匹配因為引入了誤差或距離度量,可以採用啟發式搜索,其好處是靈活、直觀,但複雜度高,不能保證是低於NP的。譜方法和基於鬆弛(relaxation)的匹配方法複雜度較低(一般介於O(n3)和O(n4)之間,n為圖的節點數),但不能保證全局最優。70年代以來,圖匹配問題一直是模式識別領域的研究熱點之一,提出了大量的方法和算法,包括各種提高優化效率的算法和自動估計距離度量參數的方法等。對於大規模圖的快速準確匹配仍然是有待解決的問題。但是,已有的圖匹配方法已在模式識別(如圖形識別、文字識別)、計算機視覺(如三維視覺)、網絡信息檢索等領域得到了廣泛應用。
經典的句法模式識別方法和結構匹配方法中通常不包含可學習參數,對基元的特徵屬性也缺乏有效的描述手段。實際中,這些方法通常會與統計方法相結合,以增強方法的靈活性和魯棒性。例如,文法與概率結合,構成隨機文法,已經被成功應用於場景圖像理解等領域。核函數(Edit Distance Based Kernel, Graph Kernel)、遞歸神經網絡、圖神經網絡可以把結構模式映射到向量空間,從而在向量空間採用統計模式識別的方法進行匹配。
結構化預測(Structured Output Prediction)是另一類重要的結構模式識別問題,其任務是對相關的多個模式或基元同時進行分類。典型的例子是對手寫字符串中所有字符同時分類、圖像中多個目標和背景區域同時分類。該類方法通常為融合結構和統計的混合方法,常用的方法包括概率圖模型(如:隱馬爾科夫模型、馬爾科夫隨機場、條件隨機場)、結構化支持向量機,神經網絡(如:遞歸神經網絡,圖神經網絡)等。這些方法在語音識別、指紋識別、圖像復原,心電圖(ECG)分析、自動駕駛、地震波圖分析等領域取得了成功應用。
結構模式識別自上世紀70年代以來,其理論方法得到了巨大發展,相關模型、方法在圖形識別、文字識別、語音識別、視覺場景分析、行為識別、信息檢索等領域得到廣泛應用。其理論方法與統計模式識別、人工神經網絡、核方法性能互補、交叉融合併且相互啟發,對人工智慧領域的知識表示、推理、學習等有很大的參考價值;將統計模式識別與結構模式識別相結合的統一方法也是未來重要的發展方向之一。
概率圖模型是將概率論與圖論相結合,以圖的形式研究多元隨機變量概率分布、推理和學習等問題的一類方法;其核心是以圖的連接關係為基礎,提供一種高效、可視化地表示隨機變量之間條件獨立性和聯合概率分布的手段。
概率圖模型理論分為三部分內容:概率圖模型的表示理論、推理方法和學習方法。概率圖模型的表示理論可以分為結構表示和參數表示,目前已經發展得比較完備。其中,結構表示是概率圖模型的基礎理論,以D-分隔、Hammersely-Clifford定理等為代表,結構表示理論揭示了聯合分布的因子化表示和條件獨立性(又稱馬爾可夫性)的等價性。根據邊的性質,概率圖模型主要分為有向無環圖模型(即貝葉斯網絡),無向圖模型(即馬爾可夫網絡或馬爾可夫隨機場),以及同時包含有向邊和無向邊的混合圖模型。模式識別問題中,常見的無向圖模型包括:條件隨機場、受限玻爾茲曼機、Ising模型等;常見的有向無環圖模型包括:隱馬爾可夫模型、混合高斯模型、隱狄利克雷分配等;常見的混合模型包括:深度置信網絡等。
概率圖模型的推理方法可以分為兩類:精確算法和近似算法。通常,精確推理算法只用於鏈、樹等簡單圖結構的問題中,經典方法包括:變量消去法、信念傳播算法、Junction Tree算法等。由於計算複雜度的原因,近似算法在實際中更加常用,現有方法分為兩類:基於函數逼近的變分方法,如平均場算法,迭代信念傳播算法;和基於隨機採樣的蒙特卡羅方法,如Importance Sampling, MCMC算法。採樣方法通常具有優秀的理論性質,但速度較慢。如在MCMC方法中,當馬氏鏈運行時間趨於無窮時所採樣本嚴格服從真實分布;但如何加快馬氏鏈的收斂一直是MCMC研究中的難題。相反,變分法速度較快,但近似效果在理論和實際中都有缺陷。近年來,為了對更加複雜的概率圖模型(如貝葉斯深度學習網絡)進行有效推理,傳統的推理算法通過與神經網絡等方法的結合取得了顯著突破,如變分編解碼器等方法,不僅克服了對近似分布限制過強的缺陷,在速度上也取得了提升;類似的,MCMC方法也已經充分利用神經網絡的特性,發展了更加高效的採樣算法。
概率圖模型的學習可以分為結構學習和參數學習。一般圖結構的學習已被證明是NP-Hard問題,還沒有通用的學習算法;現有方法主要基於約束、搜索、動態規劃、模型平均、混合策略等。但實際中通常的做法是針對具體問題人工設計圖結構,例如,在混合高斯模型和話題模型中使用的混合加性結構,在語音識別、手寫字符串識別中使用的鏈式結構,在圖像降噪中使用的網格結構、層次化結構等。對於參數學習,極大化訓練數據集上的似然函數是最常見的方式,但通常計算複雜度很高。出於計算效率的考慮,實際中,經常使用其他目標函數對似然函數進行近似,如似然函數的變分下界(Evidence Lower Bound), Piecewise Likelihood,Pseudo Likelihood, Score Matching等。其他常見的參數學習方法還包括矩匹配(Moment-Matching)、對抗訓練等。
概率圖模型在熱力學、統計學領域很早就有深入研究,二十世紀七八十年代,隨著隱馬爾科夫模型和馬爾可夫隨機場在語音識別和圖像復原問題上的成功應用,概率圖模型開始在模式識別和機器學習領域獲得關注。如今,概率圖模型在計算機視覺、語音識別、自然語言處理、生物信息學,機器人學等方向都有廣泛的應用並產生了重大影響。貝葉斯網絡的主要提出者Judea Pearl教授還因其在概率圖模型和因果推斷領域的突出貢獻獲得了計算機領域的最高榮譽----圖靈獎。
集成學習是機器學習領域中的重要研究方向,主要研究如何構建並結合多個基學習器來得到一個具有更好泛化性能的強學習器。集成學習因此又被稱為多分類系統(Multi-Classifier System)、基於委員會的學習(Committee-Based Learning)等。早期(20世紀80-90年代)關於集成學習的工作主要集中在對多分類器結合策略的研究上。這些結合策略主要包括簡單平均法、投票法以及基於學習的結合法。投票法主要包括絕對多數投票法(Majority Voting)、相對多數投票法(Plurlity Voting)、加權投票法(Weighted Voting)和排序投票法(如波達計數法, Borda Count)等。基於學習的結合法通過從數據中學習一種自適應的多分類器結合策略,包括Stacking方法和貝葉斯模型平均(Bayes Model Averaging, BMA)等。此外,對多分類任務來說,將二分類學習器推廣到多類的ECOC (Error-Correcting Output Coding,糾錯編碼)也可視為一種分類器結合策略。
集成學習通常涉及兩個相關子問題:基學習器的構建以及基學習器的結合。為得到好的集成結果,在生成基學習器時,要求基學習器具有一定準確性,同時還要具有多樣性(diversity)。根據基學習器的生成方式不同,集成學習可分為並行式集成學習和串行式集成學習。Bagging是並行式集成學習的代表性方法。Bagging通過自助採樣法對樣本集進行擾動來並行構建多個基學習器,最後通過投票法或平均法將生成的基學習器結合起來。Bagging最著名的擴展變體是隨機森林(Random Forest)。該方法被譽為「代表集成學習技術水平的方法」。隨機森林以決策樹為基學習器,在構建決策樹時,額外引入屬性集擾動來增加基學習器的多樣性。串行式集成學習的代表方法是Boosting系列算法。Boosting以串行方式來依次生成基學習器,通過引入並調整樣本權重分布,使得在學習基學習器時,算法能更多的關注那些之前被錯分的樣本。Boosting起源於AdaBoost方法。從統計角度來看,AdaBoost可認為是基於加性模型來分步優化指數損失函數。對於一般形式的損失函數,J. Freidman提出了GradientBoosting方法,其基本思想是基於加性模型並利用梯度下降法來對損失函數進行優化,當基學習器是決策樹時就是GBDT算法。該算法的一種高效實現——XGBoost,目前被廣泛使用。從偏差-方差分解的角度來看,Boosting主要關注如何降低模型的偏差,而Bagging更多關注如何降低模型的方差。
目前,集成學習已成為一種重要的機器學習思想,被廣泛的應用於聚類、分類、回歸和半監督學習等幾乎所有的學習任務中。深度神經網絡訓練中廣泛採用的Dropout可看作是集成學習思想的一種體現。
集成學習的理論工作已有許多探索,例如AdaBoost起源於計算學習理論中「強可學習性是否等價於弱可學習性」這個重要問題,其雛形本身就是對該理論問題的構造性證明。集成學習也產生了許多重要理論問題,其中最受關注的「AdaBoost為何在訓練誤差為零後繼續訓練很長時間仍不發生過擬合」問題最近才通過建立新的間隔理論得到徹底解決。值得注意的是,不同類型的集成學習方法的理論基礎仍處於分頭探索、目前尚未建立起統一的理論基礎,這是一個需要深入研究的方向。另外,在使用大量基學習器進行集成學習後會形成黑箱模型,如何提升集成學習的可解釋性也是一個值得深入研究的方向。這一方向相關的研究工作包括將集成轉化為單模型、從集成中抽取符號規則以及由此衍生的「二次學習」(twice-learning)技術、集成可視化技術等等。
半監督學習是實現模式識別的重要途徑。發展半監督學習方法的目的是為了解決標註樣本不足的問題。半監督學習方法同時利用有標記的樣本和無標記樣本來改善學習器的性能,因此是一種監督學習與無監督學習相結合的學習方法。半監督學習的基本設置是給定一個分布未知的有標記樣本集和一個未標記樣本集,期望學習一個最優的學習器對數據點的標記進行預測。根據不同的任務目的,半監督學習方法可分為歸納和直推兩種類型。通過聯合利用標記和無標記樣本,歸納型半監督學習方法旨在學得參數化的預測函數,而直推型半監督學習方法旨在完成對無標記樣本的標註。
在半監督學習中,由於數據的分布未知,為便於充分利用未標記樣本中的信息來建立樣本與學習目標之間的關係,人們建立了平滑假設、聚類假設和流形假設。平滑假設認為數據的概率密度函數是平滑的,因此位於稠密數據區域中距離相近的樣本點以大概率具有相似的標記。聚類假設認為屬於同一聚類簇中的樣本以大概率具有相似的標記。對分類問題而言,在該假設下,分類決策邊界應儘可能地位於稀疏的數據區域。流形假設認為高維數據嵌入在低維流形中且位於該流形中同一局部鄰域內的樣本以大概率具有相似的標記。在上述三個假設下,大量的未標記樣本會讓數據空間變得稠密,從而幫助學習器更好地進行數據擬合。上述三個假設已廣泛地應用於學習器的建立之中,形成了半監督分類、半監督聚類、半監督回歸等主要研究主題。
半監督分類方法已取得了很大進展,並發展出了眾多的方法,主要可分為生成式模型、自訓練、直推學習等方法。其中,生成式模型大多屬於歸納型半監督分類方法,自訓練的思想則在歸納和直推兩種類型的半監督分類方法中均得到應用。具體地,在生成式模型方面,最具有代表性的方法包含高斯混合模型、隱馬爾可夫模型、非參數密度模型、生成樹、高斯過程等。該類方法通過與期望最大化算法相結合,利用無標記樣本來改善似然損失,提高判別函數的分類決策能力。自訓練方法假定多個不同的學習器同時得到訓練,並利用對無標記樣本的一致標註來自動地增加訓練樣本,從而迭代地提升分類器性能,主要包含分類器協同訓練方法、對偶協同訓練方法、多模態協同訓練方法、協同正則化方法、主動學習方法、自學習方法、圖協同訓練方法、深度協同訓練方法、深度蒸餾方法等。在直推學習方法中,最具有代表性的方法是直推支持向量機和基於圖的半監督分類方法。直推支持向量機將支持向量機中最大間隔分類器構建思想同時應用於標記樣本和無標記樣本來提高分類器的泛化能力。基於圖的半監督分類方法以標記樣本和無標記樣本為圖的頂點進行圖構建,並以流形假設為基礎構建學習模型。基於圖的半監督分類方法包含馬爾可夫隨機場、隨機遊走、高斯隨機場半監督分類、流形正則化半監督分類、局部和全局一致性半監督分類、半監督近鄰傳播方法、局部線性嵌入半監督分類、局部線性回歸半監督分類、局部樣條回歸半監督分類、圖正則化核嶺回歸等方法。其中,圖正則化核嶺回歸能夠輸出一個參數化的分類判別函數。
與半監督分類方法取得進展的同時,半監督聚類也獲得了相應發展。半監督聚類主要通過在現有算法的聚類過程中利用給定的少量監督信息來實現。監督信息一般以樣本的類別標籤、點對相似或不相似等形式呈現。典型方法包含種子/約束K均值聚類、約束層次聚類、隱馬爾可夫隨機場半監督聚類、局部線性度量自適應、線束非負矩陣分解、半監督因子分析、主動成對約束聚類、約束距離度量學習聚類、約性約束最大間隔聚類、用戶反饋聚類、半監督核學習聚類、半監督核均值移動聚類、特徵投影半監督聚類、圖半監督聚類等、半監督異構進化聚類、半監督深度學習聚類,等等。另外,半監督回歸方法也取得了進展,代表性方法包含標籤約束半監督線性回歸、半監督局部線性回歸、半監督核嶺回歸、半監督支持向量機回歸、半監督譜回歸、半監督高斯過程回歸、半監督樣條回歸、半監督序回歸、半監督多任務回歸、協同訓練回歸,等等。除了以上脫機式半監督學習方法之外,半監督魯棒聯機聚類、並行式圖半監督學習等聯機、分布與並行式半監督學習方法也得到了發展。
最近,隨著深度學習的興起,半監督深度學習也以各種形式出現。利用受限玻爾茲曼機和自編碼機的預訓練方式成為訓練大型神經網絡的重要手段。隨後,階梯網絡成為標誌性的半監督分類神經網絡。半監督自編碼機、半監督生成對抗網絡得到了廣泛的研究。同時,基於圖卷積神經網絡的半監督分類算法進一步拓展了深度半監督學習方法。
半監督學習是本世紀初模式識別與機器學習中的重要進展,豐富了模式分類的手段和方法體系,促進了分類器構造、聚類分析、維數縮減、特徵選擇、距離度量學習、遷移學習等基本問題的研究。半監督學習在交互式圖像分割、文本分類、信息檢索、生物特徵識別、生物信息處理、遙感圖像理解等諸多模式識別任務中得到了廣泛應用。
遷移學習是機器學習中一類特殊的學習方式,具體是指利用數據、任務、模型等之間的相似性,將在一個領域(源域)的學習結果應用到另一領域(目標域)中的學習過程。通過遷移學習,可以有效提升學習器對新數據的自適應能力,充分利用已有數據和知識,減少對大量訓練數據和大規模計算資源的依賴,提高學習效率和準確性。
遷移學習方法大致可以分為四類。第一類是基於樣本遷移的方法,核心思想是通過加權重用的手段,在目標域中有選擇地使用源域中數據。如早期工作中使用解決有偏採樣的方法對源域樣本進行重加權來模擬目標域樣本。TrAdaboost方法基於Adaboost算法,根據是否有利於目標域分類,雙向調節源域樣本在目標域中的權重,從而實現有選擇地樣本遷移。核均值匹配方法使加權的源域樣本與目標域樣本分布儘可能一致,實現樣本遷移。第二類是基於特徵表示遷移的方法,核心思想是學習一種新的特徵表示,使源域和目標域的樣本間差異在該表示下最小,從而源域的數據可在目標域中使用。如譜特徵對齊方法以中心特徵為橋梁,將源域和目標域特徵用譜聚類進行統一。遷移成分分析方法以最大均值差異為準則,將不同數據領域中的分布差異最小化。由於深度學習的核心任務是特徵學習,因此大多針對深度神經網絡模型的遷移學習方法屬於該類。如最簡單的也是最常用的Finetune方法,直接利用已在其他任務上預訓練好的網絡進行訓練,可以極大地節省訓練時間和樣本。生成對抗網絡的思想也可用於遷移學習,在領域對抗神經網絡中,引入領域對抗分支使得兩域樣本經過特徵提取網絡後無法區分其來自哪個域,從而將兩域特徵統一。第三類是基於模型遷移的方法,通過構建參數共享模型並實施參數約束,促使有效的參數信息從源域傳遞到目標域中。例如假定SVM的權重向量由兩部分加和組成,其中一部分由源域和目標域共享。此外,遷移深度神經網絡中的特徵共享大多是通過共享網絡結構實現的,因此這些方法實際也可以看作模型和特徵遷移相結合的方法。第四類是基於關係遷移的方法,該類方法用得較少,主要是挖掘和利用關係進行類比遷移。如有藉助馬爾科夫邏輯網絡挖掘不同領域之間關係相似性的幾個工作。除方法研究以外,遷移學習的理論研究也取得部分成果,用來解釋遷移學習的可行性以及可行條件等,目前取得的成果建立了領域間差異與目標域泛化界之間的關係。當前遷移學習研究的一個新趨勢是動態數據流上的連續遷移學習,此時數據不能簡單地劃分為源域和目標域,而是連續動態變化或者有多個域,或者域之間的界限不清楚,對這種非靜態數據流的自適應和遷移學習將顯著提升系統的實際魯棒性。
遷移學習是人類自然掌握的一種學習方式,很早就有哲學家和心理學家提出相關的概念,在機器學習領域中的起源可以追溯到1995年NIPS上關於Learning to Learn的Workshop,之後一直是學界的一個研究熱點。遷移學習的研究起步相對較晚。人們從不同視角面向不同的情形提出了大量的算法,並在領域自適應、元學習、終身學習等方向取得重要進展。其中,領域自適應是非常活躍的一個方向,通常特指源域與目標域的樣本分布或特徵表示之間存在差異而任務類型相同的情形,監督信息一般全部來自源域,通過特定的變換使其自適應到目標域中為之所用,是遷移學習中最常見的一類方法。遷移學習的應用也十分廣泛,包括但不限於計算機視覺、文本分類、行為識別、自然語言處理、時間序列分析、視頻監控、輿性分析、人機互動等,遷移學習在這些領域中發揮著重要的作用。
多任務學習是機器學習中的一類重要方法,它是指給定一批學習任務,其中全部或者部分任務是相關的,通過聯合學習這批任務來提升各個任務的性能。多任務學習最常被用於訓練樣本稀少的情況,通過信息在任務間的相互傳遞,每個任務都從其他任務獲得了更多的樣本信息,從而減輕因樣本稀少造成的過擬合,提高學習性能。多任務學習與遷移學習密切相關,它們都涉及到學習任務間的相互幫助,但信息流動方向的差異使得他們的實現方法有著明顯差異。此外,多標籤學習可以看作多任務學習的一種特殊情況。
根據任務間共享內容的不同,多任務學習方法大致可以分為以下幾類。第一類是基於特徵共享的方法,即不同任務共享部分或全部特徵。Caruana在1997年最早提出的多任務學習策略即屬此類方法。在該項工作中,任務相關的淺層神經網絡共享同一個隱含層,但各任務使用獨立的輸出層,從而實現了公共特徵的提取;同時,通過構造輔助學習任務來與主任務共享特徵,幫助提升主任務的性能。這些樸素的多任務學習思想至今仍然被廣泛地應用在相關領域中,特別是對於深度神經網絡,很容易實現特徵共享。例如,將人臉識別任務與人臉認證任務聯合學習,共享特徵提取層,從而提高特徵提取質量並提升兩個任務的性能。再如在臉部特徵點檢測任務中,設計與之相關的輔助任務,如判斷是否戴眼鏡、判斷是否是笑容、性別分類、姿態分類等,令它們共享特徵並聯合學習,利用輔助任務標籤帶來的額外信息,提高了主任務特徵點檢測的性能。近年來,學術界基於該思想提出了很多改進方法,以更加靈活地共享特徵,如十字繡網絡可自動學習網絡共享層數,全自適應特徵共享方法可自動發現最優的多任務網絡結構等。針對非神經網絡模型,基於特徵共享的方法包括聯合特徵選擇和聯合特徵變換等,採取的手段包括利用結構化稀疏約束(如矩陣2,1-範數)實現聯合降維等。第二類方法是基於參數共享的方法,即假設這些任務的參數之間以某種形式發生了共享,並根據共享形式施加相應的約束。最常見的如低秩假設,用nuclear norm對參數矩陣進行正則化,以使得到的參數矩陣具有較低的秩,即將這些任務的參數限制在一個維數較低的子空間中。當每個任務具有多個輸出時,由於每個任務的參數是一個矩陣,則基於張量分解對以上方法進行擴展。另一種參數共享形式是空間聚類,最簡單的一個假設是每個任務由公共部分和個體部分組成,直接基於該假設建模,便得到均值正則化多任務學習方法。更進一步,假設這些任務聚成多個簇,每個簇內的任務共享一個公共部分,同時學習多個任務和聚類方式,便得到了任務自主聚類方法。多任務關係學習則假設所有任務都服從矩陣正態分布,在學習過程中自動學習描述任務間相關性的任務協方差矩陣。還有其他一些基於更複雜的假設的多任務學習方法,大多通過引入合適的約束得以實現。有關多任務學習的理論研究也一直受到關注,學者主要研究多任務學習起作用的機制以及理論保證,解釋多任務學習如何提高學習模型的泛化性。
多任務學習自從提出以來,就受到了學界的重視,它不僅豐富了機器學習理論,而且在實際應用中發揮了重要的作用,包括計算機視覺、生物信息學、健康信息學、語音分析、自然語言處理、網絡應用和普適計算等應用領域,有效地緩解了單一任務訓練樣本不足時的過擬合問題,提高了各自的性能。此外多任務學習可以與其他很多學習方法有機結合,提高它們的性能。
[模式識別國家重點實驗室允許非商業用途的轉載。轉載時應保證內容與原文一致,聲明「本文得到模式識別國家重點實驗室(公眾號: 模式識別國家重點實驗室)授權發布」,並添加原文連結。]