亞馬遜開發的面部識別軟體受用於美國區政府和聯邦執法部門,是一個強力的打擊罪犯工具。然而,上周四一份研究報告顯示,該軟體在一些基本測試不通過,包括分辨人的性別。
麻省理工學院的研究人員表示,亞馬遜名為Rekcognition的面部識別系統在評估淺色膚色的面孔時結果較準確,測試淺膚色的男性結果表現最佳,但在約30%的測試中錯誤辨識皮膚較黑的女性性別。人們擔憂警察在公共場所例如機場或學校使用此項人工智慧技術,有可能因膚色不同導致有偏差的結果。
人工智慧工程師說,這些出錯的問題在於,系統訓練的大量圖像都嚴重偏向白人。然而,研究表明,在經過嚴格的審查和企業投資改善結果後,一些系統的正確率在過去一年迅速增長。
亞馬遜對於這項研究結果提出異議,稱研究測試的算法與FBI測試的面部識別系統工作方式不同,認為強制讓某種軟體算法選擇特定的男女性別答案會產生誤導結果,這也並非警察,工程師或其它使用者在使用這個面部識別軟體的原理。佛羅裡達州和華盛頓警察部門已就此展開調查。
監督人工智慧和機器學習的亞馬遜網絡服務高管馬特伍德(Matt Wood)在一份聲明中表示,研究人員在測試他們的系統時基於「面部分析」算法,該算法可以檢測和描述圖像中人臉屬性,例如人是否在微笑或戴著眼鏡。相反,亞馬遜的「面部辨識」算法用於匹配不同的面部圖像,尤其應用在尋找逃犯或失蹤兒童的情況。
伍德說:「如果用『面部分析』算法來做辨識人臉測試,無論是什麼應用(包括執法),都不能測出其『面部辨識』的準確率。這個研究的測試方法並非系統的正確使用方法。」他還表示,測試是用未更新的軟體進行,最近內部在最新軟體上進行了同樣測試,準確率有所提升。亞馬遜在11月曾表示,系統已更新其面部分析和面部識別功能,能更準確地配對結果,並更準確取得的年齡,性別和情感特質等資料。
但獨立研究人員認為,這項研究結果顯示了亞馬遜人工智慧發展的嚴重問題。
去年,計算機科學家布奧拉姆維尼(Buolamwini)和添姆尼·格布魯(Timnit Gebru)在IBM,微軟和中國科技公司Face++開發的面部識別系統中發現了類似的性別分類錯誤,以及膚色深淺的準確性誤差。
幾個月後,IBM和微軟都宣布他們已經改進軟體算法,在性別和膚色上能得到更準確結果。研究證實,雖然準確性提高,但這些系統對於膚色較深的人面仍然不能準確辨認性別。
這些測試使用的人臉是來自歐洲和非洲中六個國家月1200名國家議會成員的面部圖像進行。研究表明,亞馬遜所有面孔辨識錯誤率為8%,IBM為4%,微軟則不到1%。
喬治城法學院隱私和技術中心高級助理卡拉兒·嘉威(Clare Garvie)說道,從多方面來說,要求一個系統進行性別分類,讓機器學習比進行識別更容易,因為識別使用的不僅是二進位,而是數以百萬計的公式。
Garvie補充:「但亞馬遜對於此研究具自我防禦性,且不願意仔細找出產品的潛在問題。事實上,承認一個行業已知的問題並努力尋求解決方案,這樣才能(讓微軟和IBM)成為一個負責任的人工智慧開發商。然而,無論亞馬遜怎麼回應,這個研究已被審查了很多遍,也已經引領了行業變革。」
美國商務部國家標準技術研究所評估了39個面部辨識系統的準確性,並表示近年來看見準確性的增9長。但是該評估是自願參與的,亞馬遜和谷歌等公司都拒絕參與。布奧拉姆維尼敦促亞馬遜提交其辨別系統模型,參與國家的基準測試。她還提醒使用者注意系統結果偏差,並「立即停止在警察和政府監管等高風險環境中使用」。
人工智慧的面部識別技術能精準地識別遠方人群,這引發科技公司數百萬美元的投資競爭,認為該技術可以加速警方調查,改善公共安全,挽救生命。
FBI反恐官員在去年11月的亞馬遜網絡服務會議上發表講話,當局在2017年拉斯維加斯槍擊事件中使用過亞馬遜的辨識系統,以取得可觀結果。
但是群眾不僅對於系統準確性的問題存疑,更擔憂技術被用於未取得人民同意下監視用途,威脅到公眾抗議和自由言論的權利。公民權利和隱私權倡議者紛紛擔心新技術對自由民主造成致命影響。例如,軟體結果錯誤可能導致警察或執法人員對無辜的人做出暴力對待。
這項人工智慧的技術軟體也引發了美國矽谷與華府之間的對立關係,科技發展與隱私使用等的矛盾,政客要求政府立法保護隱私權。一些亞馬遜股東和員工認為公司不應把軟體轉售給警方,其他公司的高管也敦促政府加緊管控該行業的發展。
微軟執行長薩蒂亞·納德拉(Satya Nadella)正在開發面部識別軟體,但同時呼籲加強監管。布奧拉姆維尼也表示,面部分析技術的武器化和濫用的可能性不容忽視。
政府的監管規條遠遠追不上面部識別技術的發展速度,如今在機場,音樂廳和餐館都能找到面部識別系統。未經檢驗的系統也以安全為由,將在美國各個學校,社區中心掃描所有的父母,兒童和訪客。
面部識別系統通過將圖像分解到名為哈希(Hashes)的複雜數字代碼來運作,這些代碼可與其它圖像的哈希龐大資料庫快速比較。類似的人工智慧技術用於臉書的照片建議人物標籤,蘋果手機面部解鎖或美國各地機場的旅客面部識別系統等等。
當面部識別或面部分析算法回報結果時,結果包括了對於辨識結果的可信程度,比如直接匹配的會有99%可信度,但模糊不清或不確定的配對的可信程度就較低。
(文章來源:格隆匯)
(責任編輯:DF506)