一種通過變量分配進臉譜圖的思路與方法研究
杜子芳 於煥傑
內容摘要:針對現有Chernoff臉譜圖(以下簡稱臉譜圖)的繪製過程並未考慮變量分配對其最終表達能力的影響,本文嘗試提出改進臉譜圖的思路。首先通過人類對不同臉譜圖物件(包括臉部器官和髮型等)的識別敏感度進行降序排序;其次對變量的變異程度依方差、變異係數、極差同樣進行降序排序;再次依強強結合的原則將變異程度高的變量分配到識別敏感度高的(變異程度低的變量則分配到識別敏感度低的)構件上,實現臉譜圖的改進,增強臉譜圖的表達能力;最後利用人體尺寸數據與樹葉輪廓數據對幾個方案進行比較,得出基於方差與極差的變量分配所得到的臉譜圖明顯優於現行基於變量隨機分配的臉譜圖的結論。
關鍵詞:Chernoff臉譜圖;方差;變異係數;極差
中圖分類號:C32 文獻標識碼:A 文章編號:1004-7794(2017)09-0039-08
DOI: 10.13778/j.cnki.11-3705/c.2017.09.007
一、引言
在統計學中,單個或兩個數值型隨機變量情形通過散點圖可以很好地反映不同樣本點(以下簡稱點)的差異性/相似性,多個數值型隨機變量情形則可通過輪廓圖、閃電圖、星形圖、雷達圖(帶刻度星形圖)和臉譜圖等圖形工具反映不同樣本點的差異性/相似性,發揮類似散點圖的作用。輪廓圖、閃電圖、星形圖、雷達圖在點(也包括總體重心點)數很少或點與點之間差異明顯的場合是很有效的。但在點數較多和點數雖少但點與點之間差異不大的場合,由於這些多元散點圖無法像普通散點圖那樣利用空間位置,而只能利用線條粗細和顏色對樣本點進行區分,其區分效果將很差,不能實現其應有功能。在點數較多尤其是變量也較多的場合,臉譜圖可以有效地反映點之間的差異性/相似性。這是因為臉譜圖跳出了其他多元散點圖只能通過平面上的普通線條或閉合線反映點的特徵的限制,即能夠利用空間位置而不是只能利用線條特徵對樣本點進行區分。
臉譜圖的原理十分簡單。1973年,美國統計學家Chernoff H意識到人對於人臉器官特徵與表情變化十分敏感,受此啟發發明了臉譜圖(因而稱Chernoff臉譜圖)。用人臉的不同特徵如臉部大小、眼睛大小、嘴部弧線和髮型等外飾特徵表達不同的變量,因而一個樣本點就表現為一張對應的臉譜。兩張臉譜越相似,相應兩個樣本點的相似性越高;同理,兩張臉譜差異越大,兩個樣本點的差異性就越大。
人們早已注意到,臉譜圖反映點之間差異的能力與變量在不同臉部特徵上的分配有關,Wainer H於1981即指出變量分配方式的不同往往會產生不同甚至大相逕庭的結果。觀察圖1和圖2,若以圖1進行判斷,江蘇、遼寧的臉譜相近,陝西、甘肅、寧夏亦較相似;而若利用圖2進行判斷,則遼寧、吉林、陝西、甘肅、寧夏等5個省市區的差異很小,江蘇與遼寧的差異則較大。
注意圖1和圖2均是利用2012年中國各省城鎮居民家庭平均每人全年現金消費支出數據所做出的,唯一不同的是這些變量在各臉譜圖構件上的分配順序,變量分配對臉譜圖效果的影響可見一斑。
但是,對於臉譜圖的研究,一方面研究文獻寥寥無幾,沒有明確提出改進的手段。國內學者殷菲等(2003)提出利用主成分分析的思想作為臉譜圖的改進方案。其思路是對原始數據提取主成分,然後依貢獻率大小,將第一主成分用最易於識別的臉部特徵表示,將第二主成分用次易於識別的臉部特徵表示,以此類推。然而該方法的缺陷也是十分明顯的:一是在有益於放大樣品間差異性的同時,卻將樣品本身各個變量的原始數據(變量值)湮沒不見了,因此將損失大量信息,這有違散點圖真實反映原始信息的初衷;二是臉譜圖適合表達較多變量的散點,而主成分的理想目標是將多維或高維數據壓縮成低維數據,顯見兩者是存在衝突的。此外主成分中的線性係數本質是權數,緣何如此,邏輯理由並不充分。另一方面,諸多統計軟體如R、SAS等,雖然幾乎都包含臉譜圖繪製模塊,但均無變量順序安排功能。這相當於假定臉譜圖中不同臉部在呈現數據特徵的能力是等同的,顯然不合情理。事實上,很難想像人們在遠處分辨一個人的頭髮長短與鼻子大小的能力是一樣的。
二、研究思路與數據說明
在計算機領域的人臉識別中,研究者往往將人臉特徵分為全局特徵(如髮型、臉型等)與局部特徵(如眼睛、嘴巴等)。蘇煜等(2010)發現,全局特徵和局部特徵在人臉感知過程中所起的作用不同,在頻譜分析中全局特徵對應的是低頻,而局部特徵則對應的是高頻。也就是說,觀測全局特徵所需的精力要低於局部特徵。觀察者對臉譜圖進行瀏覽時,人臉的大輪廓,如臉長、臉寬、發高、髮型等,是觀察者最容易注意到的臉譜圖構件,因此在分配變量時,最能夠體現樣本點差異的變量優先分配在大輪廓臉部特徵等臉譜圖構件上將有助於發揮臉譜圖的效能。另外,人的五官所能傳遞的信息量是有差異的。嘴部與眼睛相較於鼻子和耳朵,除了具有形狀特徵之外,還具有表達情緒的功能。嘴角上揚即高興,怒目圓睜即憤怒······這些能力是鼻子與耳朵所不具備的。因此,將容易體現樣本點差異的變量分配於傳遞信息量更大的器官等臉譜圖構件上也是合乎邏輯的。
筆者以上述直覺的主觀結論為假設,通過並非刻意挑選的數據進行「假設檢驗」。
本文以人體尺寸數據和國外學者Pedro FB所提供的樹葉輪廓數據[1]為例,利用R語言中的aplpack包內所包含的faces函數對臉譜圖進行繪製。人體尺寸數據測量了36位成年人的15項人體尺寸指標,包括身高、肩高、會陰高、肘高、坐高、頭冠狀弧、足長、肩寬、兩臂展開寬、胸寬、胸厚、胸圍、腰圍、臀圍、上臂圍。36位成年人中男性18位(對應1~18號樣本點),女性18位(對應19~36號樣本點)。樹葉輪廓數據則對30片來自3個品種樹葉的輪廓進行測量,得到14個連續型變量,包含葉片縱橫比、光滑度等。三個品種的樣本點各10個,分別對應1~10號、11~20號、21~30號樣本點。
三、基於人體尺寸數據的臉譜圖改進研究
首先對人體尺寸數據進行研究,將15個變量隨機分配至各個臉部特徵中,並依此繪製臉譜圖。隨機分配的結果,見表1。對變量進行隨機分配後,得到臉譜圖,見圖3。
表1 變量隨機分配結果——人體尺寸數據
臉部特徵 | 變量 | 臉部特徵 | 變量 | 臉部特徵 | 變量 |
頭髮寬度 | 肘高 | 臉型 | 胸圍 | 眼睛高度 | 肩寬 |
頭髮高度 | 頭冠狀弧 | 嘴部寬度 | 坐高 | 耳朵高度 | 肩高 |
髮型 | 胸寬 | 嘴部高度 | 足長 | 耳朵寬度 | 兩臂展開寬 |
臉部高度 | 腰圍 | 嘴型 | 上臂圍 | 鼻子高度 | 胸厚 |
臉部寬度 | 臀圍 | 眼睛寬度 | 會陰高 | 鼻子寬度 | 身高 |
觀察變量隨機分配所得到的臉譜圖,大致可以將36個樣本點分為兩類,但對於部分樣本點,若依此圖做判斷,則容易得出錯誤的結論:男性樣本點中的5號與8號樣本點相較於其餘男性樣本點顯得過「小」,容易將其錯判成女性;而女性樣本點中的20號、22號、25號、31號與35號樣本點,則與一些男性樣本點看上去也較為接近,容易錯判成男性。
基於本文改進思路,首先將15個變量依變異程度優先分配於輪廓特徵和大信息量器官上。具體作法是先將臉部特徵依表現力大小降序排列,見表2。
表2 臉部特徵優先級
排序 | 臉部特徵 | 排序 | 臉部特徵 | 排序 | 臉部特徵 |
1 | 頭髮寬度 | 6 | 臉型 | 11 | 眼睛高度 |
2 | 頭髮高度 | 7 | 嘴部寬度 | 12 | 耳朵高度 |
3 | 髮型 | 8 | 嘴部高度 | 13 | 耳朵寬度 |
4 | 臉部高度 | 9 | 嘴型 | 14 | 鼻子高度 |
5 | 臉部寬度 | 10 | 眼睛寬度 | 15 | 鼻子寬度 |
其次,依變異程度差異大小,將變量依次分配至各臉部區域,分配原則為強強結合、弱弱結合。即認為變量的變異程度越高,則樣本點在該變量上的區分度就越大,將其分配於表現力強的臉部特徵上,點間差異將得以放大。
統計領域通常用方差或標準差來代表變量的變異程度。故首先利用變量的方差作為變量變異程度的度量,來對多元數據各變量進行排序。
計算得到各變量的方差並進行排序後,根據上一部分得到的臉部特徵優先級,分別將各變量分配至各臉部特徵中,並依此繪製臉譜圖,見表3。依此分配規則所得到的臉譜圖見圖4。
觀察利用該方法得到的臉譜圖,不難發現前18個樣本點的整體輪廓與後18個樣本點的輪廓有顯著區別:男性樣本點的頭髮均呈扁平狀,且大部分髮型呈牛角狀,而女性樣本點的頭髮的大小則明顯小於男性頭髮,且髮型向下;男性臉型均較寬,呈「國字臉」,而女性則多為「瓜子臉」。利用這兩個臉部大輪廓特徵,觀察者可以很輕易區別樣本中不同性別的樣本點,而不需要再費神地觀察如眼、耳、鼻等小器官的細微差異。
表3 依變量方差排序後變量的分配結果——人體尺寸數據
排序 | 臉部特徵 | 變量 | 排序 | 臉部特徵 | 變量 | 排序 | 臉部特徵 | 變量 |
1 | 頭髮寬度 | 兩臂展開寬 | 6 | 臉型 | 肘高 | 11 | 眼睛高度 | 上臂圍 |
2 | 頭髮高度 | 身高 | 7 | 嘴部寬度 | 胸圍 | 12 | 耳朵高度 | 胸厚 |
3 | 髮型 | 肩高 | 8 | 嘴部高度 | 臀圍 | 13 | 耳朵寬度 | 足長 |
4 | 臉部高度 | 腰圍 | 9 | 嘴型 | 坐高 | 14 | 鼻子高度 | 胸寬 |
5 | 臉部寬度 | 會陰高 | 10 | 眼睛寬度 | 肩寬 | 15 | 鼻子寬度 | 頭冠狀弧 |
相比於圖3中變量隨機分配所得到的臉譜圖,利用變量方差排序之後得到的臉譜圖識別效果有了很大的改進。進一步觀察在圖3中容易導致錯判的樣本點,男性樣本中,5號樣本點與其餘男性樣本點基本一致,而8號樣本點的臉譜雖然依然較小,但整體輪廓也與女性樣本點有了顯著區別;女性樣本中,22、25、35號樣本點均為「短髮瓜子臉」,明顯有別於男性樣本點,而20號與31號樣本點雖然區分度不如上述三個樣本點,但也依然與男性樣本有顯著區別。
考慮到一些場合各變量的量綱不盡相同,而方差大小又與量綱有關,為避免這一問題,進一步採用變異係數來消除量綱的影響,對變量的變異程度進行度量。
計算得到各變量的變異係數並進行排序後,重新進行強強組合式分配,並依此繪製臉譜圖,見表4。依此分配規則所得到的臉譜圖見圖5。
表4 依變量變異係數排序後變量的分配結果——人體尺寸數據
排序 | 臉部特徵 | 變量 | 排序 | 臉部特徵 | 變量 | 排序 | 臉部特徵 | 變量 |
1 | 頭髮寬度 | 腰圍 | 6 | 臉型 | 肩寬 | 11 | 眼睛高度 | 肩高 |
2 | 頭髮高度 | 上臂圍 | 7 | 嘴部寬度 | 兩臂展開寬 | 12 | 耳朵高度 | 身高 |
3 | 髮型 | 胸厚 | 8 | 嘴部高度 | 胸寬 | 13 | 耳朵寬度 | 臀圍 |
4 | 臉部高度 | 會陰高 | 9 | 嘴型 | 肘高 | 14 | 鼻子高度 | 坐高 |
5 | 臉部寬度 | 足長 | 10 | 眼睛寬度 | 胸圍 | 15 | 鼻子寬度 | 頭冠狀弧 |
觀察依變量變異係數排序之後得到的臉譜圖,也可以根據整體輪廓的差異,較輕易地將36個樣本點分為兩類。比較各樣本點的輪廓可以發現:男性樣本點的整體輪廓(含頭髮與臉部)為方形,而女性樣本點的整體輪廓則要更接近橢圓。利用臉部大輪廓特徵,觀察者同樣也可以很輕易地區別樣本中不同性別的樣本點。
相比於圖3中變量隨機分配所得到的臉譜圖,利用變量變異係數排序之後得到的臉譜圖識別效果同樣也有了很大改進。進一步觀察在圖3中容易導致錯判的樣本點,男性樣本中,5號樣本點與其餘男性樣本點基本一致,但8號樣本點的識別效果並未得到很大改善;女性樣本中,22號、25號、35號樣本點的整體輪廓明顯分為頭髮與臉部兩塊,與男性樣本點的特徵明顯不同,而20號與31號樣本點與其餘女性樣本點的輪廓則為相近,與男性樣本有顯著區別。
然而相比於圖4效果似乎並不好,究其原因可能在於變異係數對差異放大的倍數小於方差。假如這一邏輯成立,可以猜測利用極差其效果將
好於方差和變異係數。
計算得到各變量的極差並進行排序後,重新進行強強組合式分配,得到各臉部區域變量分配見表5。依此規則得到的臉譜圖見圖6。
表5 依變量極差排序後變量的分配結果——人體尺寸數據
排序 | 臉部特徵 | 變量 | 排序 | 臉部特徵 | 變量 | 排序 | 臉部特徵 | 變量 |
1 | 頭髮寬度 | 兩臂展開寬 | 6 | 臉型 | 肘高 | 11 | 眼睛高度 | 肩寬 |
2 | 頭髮高度 | 身高 | 7 | 嘴部寬度 | 臀圍 | 12 | 耳朵高度 | 頭冠狀弧 |
3 | 髮型 | 腰圍 | 8 | 嘴部高度 | 會陰高 | 13 | 耳朵寬度 | 胸厚 |
4 | 臉部高度 | 肩高 | 9 | 嘴型 | 坐高 | 14 | 鼻子高度 | 胸寬 |
5 | 臉部寬度 | 胸圍 | 10 | 眼睛寬度 | 上臂圍 | 15 | 鼻子寬度 | 足長 |
從依變量極差排序得到的臉譜圖可以看到,極差在放大樣本點差異這方面的能力確實強於變異係數,與利用方差所得到的臉譜圖區分能力不相上下,同樣也可以很清晰地將男性樣本點與女性樣本點區別出來:男性臉譜的整體輪廓要明顯大於女性,眼睛等器官也與女性臉譜有顯著區別。
在易判錯的樣本點上,男性5號與8號均能與女性樣本點明顯區別開,20號、25號與31號女性樣本點同樣也與大部分女性樣本點一致,而22號與35號樣本點,雖然顯得較為與眾不同,但相比較之下仍更靠近女性樣本點。
四、基於樹葉輪廓數據的臉譜圖改進研究
同樣,作者也對樹葉輪廓數據,依以上各變量排序標準,繪製臉譜圖。由於第二種樹葉與第三種樹葉相似度較高,故與人體尺寸樣本相比,該數據集對臉譜圖體現樣本點差異方面的能力提出了更高要求。作為對比,首先將變量隨機分配至各臉部區域,分配結果見表6。依此分配規則得到的臉譜圖見圖7。
表6 變量隨機排序的分配結果——樹葉輪廓數據
排序 | 臉部特徵 | 變量 | 排序 | 臉部特徵 | 變量 |
1 | 頭髮寬度 | 光滑度 | 8 | 嘴部高度 | 延伸率 |
2 | 頭髮高度 | 平均對比度 | 9 | 嘴型 | 最大鋸齒深 |
3 | 髮型 | 三階矩 | 10 | 眼睛寬度 | 平均強度 |
4 | 臉部高度 | 均勻度 | 11 | 眼睛高度 | 分裂度 |
5 | 臉部寬度 | 隨機凸度 | 12 | 耳朵高度 | 等周因子 |
6 | 臉型 | 偏心率 | 13 | 耳朵寬度 | 雜亂度 |
7 | 嘴部寬度 | 硬度 | 14 | 鼻子高度 | 寬高比 |
該臉譜圖僅能勉強區分出第一類樹葉與其餘兩類樹葉,而對剩下兩類樹葉,則基本無法區分,臉譜圖反映樣本點差異的功能未能得到充分利用。因而,結合變量的變異程度對原有臉譜圖進行改進顯得十分有必要。
首先利用變量方差代表變量的變異程度,依強強結合原則,將各變量分配至各個臉部區域,得到變量分配結果,見表7。依據該變量分配規則,依變量方差排序所得臉譜圖見圖8。
表7 依變量方差排序後變量的分配結果——樹葉輪廓數據
排序 | 臉部特徵 | 變量 | 排序 | 臉部特徵 | 變量 |
1 | 頭髮寬度 | 雜亂度 | 8 | 嘴部高度 | 光滑度 |
2 | 頭髮高度 | 寬高比 | 9 | 嘴型 | 分裂度 |
3 | 髮型 | 延伸率 | 10 | 眼睛寬度 | 硬度 |
4 | 臉部高度 | 等周因子 | 11 | 眼睛高度 | 隨機凸度 |
5 | 臉部寬度 | 偏心率 | 12 | 耳朵高度 | 最大鋸齒深 |
6 | 臉型 | 平均對比度 | 13 | 耳朵寬度 | 三階矩 |
7 | 嘴部寬度 | 平均強度 | 14 | 鼻子高度 | 均勻度 |
利用方差對變量排序後分配至各臉部區域,所得到的新臉譜圖很好的將三類樹葉區分開了:第一種樹葉(1~10號樣本點)的臉譜頭髮長而扁,臉部也較為寬闊,所有樣本點都能與剩餘20個樣本點明顯區分;第二種樹葉(11~20號樣本點)臉譜的顯著特點則是整體輪廓均很小,僅20號樣本點臉譜的特徵有可能被錯判成第三種樹葉;第三種樹葉(21~30號樣本點)臉譜的輪廓則是大而圓潤,與大部分第二種樹葉有明顯區別。總的來說,利用方差排序後所得到的新臉譜圖將各樣本點之間的差異性展示的淋漓盡致。
接著,同樣也利用變異係數來對變量的變異程度進行度量,對各變量進行分配,得到臉部區域變量分配情況見表8。依據此變量分配規則,可作依變量變異係數排序所得臉譜圖見圖9。
依此規則得到的臉譜圖將第一類樹葉很好的與其餘兩類區別開了,卻未能將第二類樹葉與第三類樹葉的差異體現出來,進一步說明了變異係數在對差異放大能力上的不足,用其來對臉譜圖進行改進,效果不如利用方差進行改進。
表8 依變量變異係數排序後變量的分配結果——樹葉輪廓數據
排序 | 臉部特徵 | 變量 | 排序 | 臉部特徵 | 變量 |
1 | 頭髮寬度 | 三階矩 | 8 | 嘴部高度 | 最大鋸齒深 |
2 | 頭髮高度 | 光滑度 | 9 | 嘴型 | 寬高比 |
3 | 髮型 | 分裂度 | 10 | 眼睛寬度 | 延伸率 |
4 | 臉部高度 | 均勻度 | 11 | 眼睛高度 | 等周因子 |
5 | 臉部寬度 | 平均強度 | 12 | 耳朵高度 | 硬度 |
6 | 臉型 | 雜亂度 | 13 | 耳朵寬度 | 偏心率 |
7 | 嘴部寬度 | 平均對比度 | 14 | 鼻子高度 | 隨機凸度 |
同樣的,也利用極差來對變量的變異程度進行度量,進而對各變量進行分配,得到臉部區域變量分配情況見表9。依據以上變量分配規則,可作依變量極差排序所得臉譜圖見 圖10。
觀察利用此改進方法得到的臉譜圖,可看到三種樹葉的臉譜存在顯著區別。與利用方差得到的臉譜圖類似,第一種樹葉的臉譜輪廓明顯大於其餘兩種樹葉;第二種樹葉的輪廓大部分小而圓潤,對於易判錯的20號樣本點,該方法似乎同樣也未能將其與第三種樹葉區分開;第三種樹葉的臉部輪廓則明顯大於第二種樹葉,頭髮輪廓卻明顯小於第一種樹葉,可輕易將該類型樹葉與其餘兩種樹葉區分開。
五、結論與探討
第一,由於觀察者對不同臉譜圖構件差異的敏感程度不同,故不同的變量分配方案對臉譜圖的差異性/相似性表現效果確實存在影響。
第二,將變異程度高的變量分配到敏感程度高的臉譜圖構件上,所得臉譜圖的效果均明顯優於變量隨機分配所得臉譜圖。
表9 依變量極差排序後變量的分配結果——樹葉輪廓數據
排序 | 臉部特徵 | 變量 | 排序 | 臉部特徵 | 變量 |
1 | 頭髮寬度 | 雜亂度 | 8 | 嘴部高度 | 分裂度 |
2 | 頭髮高度 | 寬高比 | 9 | 嘴型 | 光滑度 |
3 | 髮型 | 等周因子 | 10 | 眼睛寬度 | 硬度 |
4 | 臉部高度 | 延伸率 | 11 | 眼睛高度 | 隨機凸度 |
5 | 臉部寬度 | 偏心率 | 12 | 耳朵高度 | 最大鋸齒深 |
6 | 臉型 | 平均對比度 | 13 | 耳朵寬度 | 三階矩 |
7 | 嘴部寬度 | 平均強度 | 14 | 鼻子高度 | 均勻度 |
第三,由於方差與極差在放大數據差異的能力上要優於變異係數,依方差和極差進行變異程度排序,並依據強強結合原則所得到的臉譜圖在體現樣本點差異性/相似性方面要優於變異係數,但方差與極差熟優熟劣尚難有定論。作者認為在R等統計軟體中臉譜圖模塊應嵌入依極差或方差進行變量分配的選擇功能。
參考文獻
[1] Chernoff H. The Use of Faces to Represent Points in K-dimensional Space Graphically [J]. Journal of the American Statistical Association, 1973, 68(342): 361-368.
[2] Wainer H, Thissen D. Graphical Data Analysis[J]. Annual Review of Psychology, 1981, 32: 191-241.
[3] Pedro FB Silva, Andre RS Marcal, Rubim M Almeida da Silva. Evaluation of Features for Leaf Discrimination[J]. Springer Lecture Notes in Computer Science, 2013, 7950: 197-204.
[4] UCI Machine Learning Repository [DB/OL]. http:// archive.ics.uci.edu/ml
[5] 杜子芳. 一種新的多元顯示工具: 閃電圖[J]. 統計研究, 2006(11): 80.
[6] 殷菲, 潘曉平, 吳震. Chernoff臉譜圖的改進[J]. 中國衛生統計, 2003, 20(4): 194-196.
[7] 王健海, 曾楨. 多維度戰略數據的Chernoff臉譜圖表示方法與實證研究[J]. 現代圖書情報技術, 2010(Z1): 15-21.
[8] 趙朝霞. 基於V系統的Chernoff臉譜的聚類分析[D]. 北京: 北方工業大學, 2010.
[9] 蘇煜, 山世光, 陳熙霖, 等. 基於全局和局部特徵集成的人臉識別[J]. 軟體學報, 2010(8): 1849-1862.
作者簡介:
杜子芳,男,1958年生,山東文登人,現為中國人民大學統計學院教授、博士生導師,研究方向為抽樣調查、多元統計分析。
於煥傑,男,1990年生,福建福州人,現為中國人民大學統計學院博士研究生,研究方向為多元統計分析、社會經濟統計。