全文共6184字,預計學習時長16分鐘
圖源:unsplash
人臉識別及其任務並非人類探索的新領域。早在1964年,當布萊索(Bledsoe)、海倫·陳(Helen Chan)和查爾斯·比森(Charles Bisson)一起嘗試用計算機識別人類面部時,人類對人臉識別的探索就已經開始了,隨後經歷了不斷失敗和發展的過程。
歷史學家認為布萊索等人是自動化人臉識別的開拓者。布萊索對自己的事業感到很驕傲,不過由於此項目是由一個秘密情報機構資助的,因而並未得到太多宣傳,公開發表的信息非常少見。
基於數據的有限性,布萊索最初使用的方法包括在人臉上進行人工標註,例如眼部中心、嘴部等標誌性部位;接著,計算機會將這些標註進行精確的旋轉,以對不同的姿態變化和面部表情做出相應補償。
人臉及圖像上參照點之間的距離也會被自動計算,用於和照片作比較,以此確定被識別者的身份。然而,考慮到圖像與照片資料庫的廣泛性,我們所遇到的障礙是,如何從資料庫中提取出一個小的記錄集,以便其中一個圖像記錄可以用來與照片進行配對。
布萊索認為,最大的困難來自於人的頭部位置、面部表情以及年齡的易變性。但一些研究人員經常使用卻未經處理的光學數據相關方案(或匹配模式),在變化顯著的情況下必定會失敗,同一個人兩張不同頭部旋轉位置的肖像之間的相關值非常低。
這些挑戰一直持續到近幾十年,直至大數據筒倉以及具有巨大處理能力的量子計算機被發明並投入使用,轉折點才算出現。
而如今,這一技術難題的解決把其他的重要問題推到了我們面前,個人隱私、歧視與種族主義,這些都是近來引發巨大關注的話題。在許多國家,高精度人臉識別技術的濫用已引發不少法律問題。例如,英國南威爾斯警方在前不久就因人臉識別系統的歧視性使用被告上法庭,該系統是由政府批准使用的。
人臉識別軟體可能存在種族偏見。科技當然沒有與生俱來種族偏見,然而,依據其算法,經過不同訓練的人臉識別系統,能夠比識別亞洲和非洲人種更準確地識別出白人的臉。
更確切地說,就如前面提到過的,在創造精確人臉識別的數學公式的歷史上,一些最幽微的失敗就在於創造者對「戰術一致還是戰略一致」(tactical vs. strategic alignment)的抉擇。
《大西洋月刊》(the Atlantic)最近的一項研究表明,人臉識別準確率的提高速度在各特定群體中並非平均分布。目前許多種算法都在不同種族、性別及其他人口統計數據的精確度上表現出了令人不安的差異。
NIST(美國國家標準與技術研究所)供應商測試的組織者之一在2011年進行的一項研究發現,韓國、日本、中國等一些亞洲國家開發的人臉識別算法在辨識亞洲面孔時的準確率遠高於辨識白人面孔。同樣,法國、德國和美國採用的算法則在識別白種人面部特徵上顯現出明顯優勢。
算法的構建條件,尤其是開發人員和測試照片資料庫的種族構成,很可能對識別結果的準確性產生重大影響。這就是為什麼要在戰略上克服這樣的障礙,開發人員是有可能基於種族、性別和民族,通過幹預個人資料庫輪廓的建立來開闢捷徑的。
圖源:unsplash
要明白人臉識別如何運作、如何與數據安全和歧視相關聯,我們必須首先搞清楚它的歷史發展和基本原理。從根本上來看,人臉識別的實現需要兩個步驟:
· 對目標主體進行特徵提取和選擇。
· 對提取到的目標圖像數據進行分類。
從歷史上看,在執行以上任務時最矚目的技術包括以下幾種:
傳統方法
一些算法通過提取人臉圖像上的面部「地標」或「地形」來識別人類臉孔。面部「地形」包括相對位置、尺寸和/或眼睛形狀、鼻子、顴骨及下巴等,這些提取到的「地形」會被用來搜索與其特徵所匹配的圖像。
其他一些算法會對一組面部圖像進行歸一化處理,由此創建一個面部輪廓數據集。把這個數據集與探測圖像對比之後將其壓縮,僅保留圖像上對面部識別有用的數據。
識別算法的兩種基本方法:幾何法(Geometric)與測光法(Photometric)
幾何法關注臉部的顯著特徵,測光法則採用一種統計學方法,將圖像轉化為數值,並將這些數值與模板關聯起來以消除差異,從而進一步將其細分為全功能(all-inclusive)和基於特徵的(feature-based)模型。全功能模型試圖把臉部作為一個整體進行識別,基於特徵的模型則將人臉分成幾個要素來識別。後者會根據特徵進行對比,並分析每個特徵及其與其他特徵之間的空間位置關係。
3D識別的概念
3D人臉識別程序利用3D感應抓取臉部輪廓數據,這些數據接著被用來辨認人臉皮膚的獨特細節,比如眼窩輪廓、鼻子和下巴。比起其他技術,3D人臉識別的一個優勢在於它能夠不受光線變化的影響,也能從輪廓視角等一系列視角來識別臉部。
皮膚紋理分析
皮膚紋理分析把皮膚上獨特的線條、紋路、斑點等轉化為數學公式。它的工作原理和面部識別十分相似,在皮膚紋理分析的幫助下,人臉識別的表現能提高20%-25%。
結合不同技術的人臉識別
圖源:unsplash
由於每種技術都有自己的目標用途和缺陷,科技公司結合了人臉識別的傳統方法、3D識別技術和皮膚紋理分析技術,創建出具有更高成功率的人臉識別系統。
結合熱成像技術的人臉識別科技
一種特殊的面部數據提取方法是使用熱成像或紅外攝像機,這一方法能夠幫助相機排除眼鏡、帽子、妝容等外飾的影響,檢測到人真正的頭部形狀。它也使得相機能夠在低光照下或夜晚獲取臉部圖像,從而避免打開閃光燈,暴露相機位置。但是由於熱成像相機對細節的敏感度較低,這一方法總是與先前提到過的其他方法相結合。
如前所述,任何一種人臉識別技術的算法設計,都在一定程度上涉及到「定性」(profiling),這些「定性」無可避免地需要經過細緻的道德考慮。
我個人認為這種「定性」模式可以通過嵌入合適的、不帶偏見的深度學習算法來避免。然而,(至少從目前來看)一些實體可能會因財政限制和爭取競爭優勢而放棄這一途徑。所以,意料之中,目前大多數人臉識別技術,不論它們採取了哪些技術方法,都被標記為具有歧視性和偏見性「定性」。
例如,前不久的一項報導發現,在加利福尼亞州洛杉磯的逮捕和監禁重點關注對象名單上,具有非洲血統的人員佔比極高。進一步調查發現,這一現象產生的原因在於這些人臉識別科技背後的支撐算法在辨識黑人群體時功能下降。
此外,由於人臉識別技術在全國各地執法部門中的推廣使用,隨之而來的是越來越多的守法公民被「定性」和監禁,而立法機構卻很少去探索和糾正這種偏見。
根據推廣人臉識別科技企業的說法,它們的產品高效、準確,有著超過95%可靠性。但事實上,這一數字幾乎無法得到證實。因為眾所周知,警方採用的人臉識別算法在應用於普通公民身上之前,沒有義務經受公開或獨立的檢查,以確定其準確性與核查是否存在偏見。更令人頭疼的是,對應用最廣泛的人臉識別系統的不充分測試,暴露了一些種族偏見的模式。
種族定性並非偶然事件,這在公共調查中尤其明顯。後者進一步加固了這樣一個事實,即為什麼像警察及它們所選用的供應商不需要披露其專屬的系統算法。
種族定性在本質上是一種歧視行為。在世界各地執法人員基於種族、民族、宗教、國籍將個人鎖定為犯罪嫌疑人的過程中,種族定性常常會出現。
另一種種族定性的模式從9·11事件以後一直在持續發生,穆斯林、阿拉伯人和南亞人會因輕微的移民違法行為被拘留,即便它們與世貿中心的襲擊毫無關聯。在現實中,儘管美國已經聲稱自己進入了「超越種族」的時代,種族定性仍然是一個長期存在且令人深感不安的普遍性問題。
圖源:unsplash
從防止零售犯罪、追蹤失蹤人員到核查學習出勤,人臉識別技術用途廣泛。技術市場正在呈指數級增長。據研究,美國的人臉識別市場預計將從2019年的32億美元激增到2024年的70億美元。
人臉識別技術最重要的用途是監控與營銷,這引起了很多人的不安,主要原因在於人臉識別技術的使用缺少適當的聯邦法規。例如,研究發現其中的一個問題是,這一技術在有色人種的面孔辨識上是不準確的,尤其是在識別黑人女性時。
隨著人們對人臉識別軟體及其應用的焦慮感和隱私擔憂越來越多,美國各個城市在試圖安撫人們的這些擔憂時將會經歷更大的困境。
和其他任何技術一樣,當涉及到錯誤時,人臉識別技術的「假陰性」(false-negative)和「假陽性」(false-positive)結果也是需要考慮的現實問題。
「假陰性」是指系統無法將人臉與資料庫中的圖像進行匹配,或者所運用的方法在響應查詢時返回零結果。「假陽性」則是指系統無法與資料庫中的人臉匹配,但這一匹配結果是錯誤的。這種情況下,當警察向系統呈現某位嫌疑人的相貌特徵時,系統會出現錯誤警示,將其誤認為是另一個人的照片。
人臉識別系統的算法決定其用途
人臉識別科技的優劣在於其算法的質量。也就是說,它也是一種發揮自己被賦予的既定功能的技術。例如,目前冠狀病毒肆虐,人們為了避免病毒傳播,常會將臉遮擋起來,這是人臉識別技術的發明者們正在努力去適應的新世界。
近年來,人臉識別變得越來越流行,也越來越準確,這是因為深度學習讓計算機在解析圖像方面做得更好。但有些專家指出,目前人臉識別算法的可靠性總的來說會受到臉部遮擋的影響,無論這種遮擋是由障礙物、相機角度還是口罩帶來的,因為遮擋就意味著提供給計算機分析的數據減少了。
人臉識別完全在於「定性」(Profiling)
從科學角度來看,人臉識別技術與比較、匹配有關,後者要求對常見相似性和匹配度的考慮。因此,不論目的是什麼,「定性」總會成為必須考慮的問題。不過,這並不一定要以個人和公民的自由為代價。這就是為什麼在鋪天蓋地的批評中,一些廠商,尤其是和政府機構合作更少的那些生產廠家至少暫時地放棄了它們的人臉識別項目。
出於對警方種族定性的擔憂,IBM最近退出了人臉識別市場,並呼籲美國國會開展「全國對話」,探討該技術在執法中的使用。同樣,微軟總裁布拉德·史密斯(Brad Smith)告訴《衛報》,如果政府將其用於大規模監控,微軟會考慮對其人臉識別技術予以保留。
人臉識別算法存在偏見
目前的理論普遍認為,大多數人臉識別的解決方案都是帶有偏見的。這條路很難避開,因為大多數人臉識別科技運用於執法和公共場合,且不需要通過適當的驗證程序和公開。
國會中的民主黨人目前正在調查FBI和其他聯邦機構是否部署了監控軟體來對付參與「黑人的命也是命」(Black Lives Matter)抗議的示威者;包括加利福尼亞和紐約在內的一些州也在進行法律評估,以禁止警方使用這項技術。
與此同時,市場中的一些大型科技公司正在逐步暫停自己的人臉識別項目。例如在民權倡導者的多年壓力下,亞馬遜最近宣布,警方將推遲一年使用自己一款並不可靠的人臉識別產品——Rekognition。IBM再次宣布自己有意完全退出人臉識別研究項目,理由是擔心該技術對人權的影響。
迄今為止,「面部監控」是執法部門可獲得的技術中最易暴露、最危險的技術之一——因為正如目前的情況一樣,它在許多方面都具有歧視性。
首先,這項技術本身就可能是有偏見性的。其次,美國許多地方的警察都使用面部照片資料庫,通過人臉識別算法對人進行分類。然而,使用面部照片資料庫進行人臉識別,延續了過去的種族偏好,並在21世紀的監控技術下進一步加深了這種偏見。
「研究表明:算法也有種族主義」
2018年,伯拉姆維尼(Buolamwini)和吉布魯(Gebru)進行的一項研究顯示,在一些人臉識別算法中,黑人女性被錯誤分類的機率接近35%,但對白人男性的分類則幾乎完全正確。隨後麻省理工學院的伯拉姆維尼和拉吉(Raji)證實了這些問題在亞馬遜的軟體上也持續存在。
最近英國對NEC(人臉識別技術的提供者)的斷然回絕,或許會有利於美國的活動家開展運動,並由此將運動浪潮向全球傳播。在所有目標企業中,擁有全球範圍內1000多份合同的NEC,即便不是主要目標,也會是其中之一。
在針對南威爾斯警方的起訴案上,NEC的回應並未提供太多細節,它們拒絕透露在訓練算法辨識不同人臉的過程中用到了什麼數據。據稱,2018年一項針對NEC人臉識別技術的測試得到了98%的錯誤率,2019年的一次審查發現其「假陽性」率為81%。
2019年,來自埃塞克斯大學人權中心「人權、大數據及科技項目組」的研究人員寫報告稱,他們發現倫敦警察署採用的實時人臉識別方式中存在著顯著缺陷。並且,他們還發現,由於警方未能測試他們的系統在處理非白人面孔時的準確率,許多黑人和少數族裔被錯誤定性和訊問。
正如前文所提到的,人臉識別技術及其周邊的一系列混亂,使得一些科技公司選擇退出市場,至少目前是這樣。
在我個人看來,由於各種執法程序都是由「定性」驅動的,他們或許可以明確表達出對強化技術的需求,即一種基於人類特徵的二次輸入數據的技術強化。人臉識別的偏見性與歧視性很有可能是追求便利和低成本的後果。舉個例子,如果警方已經通過人工檔案來篩選,那麼這種操作也有可能被用於他們的操作性和技術性需求中。執法部門已經使用定性技術長達幾個世紀了,在人臉識別中繼續沿用也就不足為奇了。
一旦我們把NEC和南威爾斯警方之間業務關係的謎題放在一起, NEC不願透露隱藏算法的原因就會變得清楚得多了。如今,NEC在世界各地部署了1000多個公開的生物統計識別系統,其中包括美國的20個州。可以預見,該公司在各個協議中都包含著許多隱藏條款。或者像IBM這樣的公司放棄人臉識別技術,只是為了避免將來產生更多的問題。
儘管有關人臉識別技術的負面宣傳鋪天蓋地,但它對任何行業來說都是一筆寶貴的資產。然而,就像其他任何工具一樣,人臉識別技術很可能會被誤用,或者被戰略性的改變核心以完成設計者的不同任務。並且當他們真的要這麼做的時候,他們會盡其所能將此隱藏起來。
圖源:unsplash
記住,根據既定的人類特徵,如膚色、性別、種族和畸形,來對人定性是很容易的。儘管這種便利對執法部門有很大的吸引力,但換取這一便利的代價,是那些從未犯錯的人,僅因某些特徵就成為被羞辱和被忽視的對象。這根本不公平!
人臉識別是一種工具,它的運作由工程師的精確指令所驅動,而這些指令是工程師基於執法部門的要求所寫的。因此,當算法中被檢測出種族偏見,該技術發展過程中的所有環節參與者,從商業要求,到資格審核,再到投入使用,都應受到質問。
「人臉識別的種族主義程度與其開發者和使用者保持一致」。它是不道德的、帶有偏見的,並且一定是不合法的,我們應當保持對它的質疑。
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範