模式識別最常見的任務是對特徵已知的樣本進行分類。
已知各個類別的標準特徵,如何判斷一個待識別的樣本屬於哪個類別呢?一個自然而然會想到的辦法是:將該樣本的特徵與所有類別的分類標準進行比較,看看它最符合哪個類別的標準,這個過程稱為模式匹配。分類即通過模式匹配判斷樣本的類別歸屬。
分類的前提是必須給出明確的分類標準。有了分類標準,才能對樣本進行模式匹配。例如,將全班同學「按身高分為三類」,分類標準為:身高低於1.5米為第一類;身高為1.5~1.65為第二類;身高為1.65米以上的為第三類。
根據這個標準,例1中的李同學、孫同學和鄭同學應分到第一類,張同學和王同學分到第二類,而吳同學獨自在第三類。
分類的數學意義
分類的前提是必須明確分類要求,即知道每個類別的標準特徵,才能對具有已知特徵的樣本按照類別標準一一歸類。例如,將全校同學按「性別」特徵進行分類,可分為男生和女生兩個類別;再如,將全體初中生按「年級」特徵進行分類,可分為初一、初二和初三共三個類別。
如上圖所示,當我們將所有待分類樣本看作樣本空間的點時,在數學意義上,對樣本進行分類的本質是:
根據分類要求,在樣本空間找出符合分類要求的分割界,從而將樣本空間分割為不同的區域,使每個區域內的樣本屬於一類。
線性分類與線性可分
在下圖中,用一條直線或平面作為分割界可將兩類樣本分開。如果能夠用直線或平面將樣本空間不同類別的樣本點截然分開,這樣的分類稱為線性分類;這樣的樣本稱為線性可分的樣本。
非線性分類與線性不可分
線性分類方法只適合解決的那些簡單的分類問題。客觀世界中許多事物在樣本空間中的區域分布是十分複雜的,相近的樣本可能屬於不同的類,而遠離的樣本可能同屬一類。在這種情況下無法用直線或平面將樣本空間不同類別的樣本點截然分開,這樣的分類稱為非線性分類;這樣的樣本稱為線性不可分的樣本。
線性不可分的樣本需要用曲線或曲面來分割不同的樣本區域。下圖是兩種非線性分類的情況。
模式匹配的數學意義
在進行模式匹配時,常將類別的標準特徵稱為模板。已知某個類別的模板,如何判斷一個待分類樣本是否屬於這個類別呢?這就需要將待分類樣本的特徵與各模板進行模式匹配,其數學意義是:計算待分類樣本的特徵向量與各模板之間的距離。從樣本空間來理解,就是計算空間中兩個點之間距離。這個距離越短,意味著匹配度越高。
設有三個類別,各類別的標準特徵向量為A、B、C,待分類樣本的特徵向量為X,4個向量在樣本空間的分布如下圖所示,該樣本應該歸為哪個類別?
根據模式匹配的數學意義可以直觀地看出,模板B與X最匹配,故X應該歸為B類。如果對3維以上空間的樣本進行模式匹配,就必須通過計算得到兩個點之間的距離。
分類和模式匹配的數學意義告訴我們,可以採用數學方法通過電腦程式來完成分類任務,這類由電腦程式執行的、對數據進行運算和操作的方法稱為算法。