問責制是指對別人負責,有義務解釋和為自己的行為和不作為辯解(Olsen 2014, 107)。權力的行使(交出權力的能力)要求問責制。然而,即使在更傳統的情況下,問責制可能帶來的後果也並非總是直接的。正因為如此,近年來,越來越多的公共行政學者致力於對公眾問責進行「狹義」或「最小限度」的界定,以促進其在實踐中的研究(Bovens,2007;Bovens, Schillemans和 Goodin,2014)。在這種理解中,問責制被定義為「行動者與論壇(Forum)之間的一種關係,行動者有義務解釋和證明自己的行為,論壇可以提出問題和作出判斷,行動者可能面臨後果」 (Bovens 2007, 450)。雖然在腦海中有更多傳統的問責背景(如政治-官僚關係),但這一概念似乎直接適用於算法決策。
本質上,一個有意義的問責過程由三個階段組成:信息、解釋或證明,以及(可能的)結果。這些「有效問責的要求」 (Olsen 2014, 113)是對外部權威行使的。換句話說,無論是正式的還是非正式的,行動者——無論是官僚機構、私人提供者還是公共部門機構——都必須有義務向問責論壇作出交代。問責制是一種關係(Bovens 2007; Schillemans and Busuioc 2015),各種關係可以以這種方式加以概念化:例如,在官僚主義背景下,一個機構向從其母部、議會、公民到法院或媒體等各種論壇提供解釋。在人工智慧的背景下,這樣的論壇可以類似地包括傳統的機構論壇,如法院、議會委員會、監察員等,但也有專門建造的論壇,如人工智慧倫理、標準化機構和審計機構,監測人工智慧系統的設計和運行。
人工智慧、算法決策和權力:注意正在出現的問責缺口
算法本質上是按照順序實現的任何規則集(無論是計算規則還是其他規則),以達到特定的結果。與我們研究的核心算法不同的是,這些算法自己學習支配自己行為的規則。他們發現數據中隱藏的模式,將特定的數據輸入與輸出配對,通過釋放大量的訓練數據(所謂的訓練集),有效地學習輸入-輸出關係或「映射」。他們使用這些訓練數據來確定和修改模型——各種影響結果的「特徵」和它們對應的權重(係數),然後他們使用學習到的輸入-輸出映射,對尚未看到的數據做出預測。是什麼使他們如此普遍和受歡迎的是,一系列的問題都可以在這些投入產出框架條款:圖像識別及其各種應用(如視頻監控、DNA測序,或腫瘤映射)風險評估模型(信用卡或犯罪)或推薦系統(新聞、購物和社交媒體)。
這種算法在公共和私人決策中越來越受到依賴。算法決策是指使用算法作為人類分析的輔助或替代,來制定或提供(並提高)決策或行動的質量。原則上,算法決策可以是完全自動化的,也可以是混合的,也就是說,需要一個人工決策者或在循環中的審查員(Citron,2008)。雖然這兩種類型都可能出現在公共部門(Citron,2008),但公共部門最常見的算法往往是為人類決策提供信息,而不是在沒有人類幹預的情況下做出最終的全自動決策(參見Edwards和Veale2017, 45)。事實上,在一些司法管轄區,如歐盟,有權利(儘管有例外)不受完全基於自動決策的約束(即歐盟一般數據保護條例,GDPR)。
正是出於這個原因——經驗相關性——調查明確地聚焦於混合決策,其中AI算法為公共部門的人類決策提供信息。這是目前公共部門使用人工智慧算法的相關緊迫背景,特別是從問責制的角度來看,考慮到其在非常規高風險場景中的依賴性。因此,當我們在問責的意義上談論行動者時,我們仍然在這個語境中,像在傳統語境中一樣談論人類行動者。由於算法尚未實現感知或意識——儘管媒體大肆炒作,但在所謂的「人工一般智能」(AGI)或「人類水平的人工智慧」(Ng,2018)方面幾乎沒有明顯進展——公共部門算法的使用和操作的責任必然在於人類行為者:人工智慧系統供應商、公共部門採用者以及用戶,了解他們創建並分別購買和部署的算法系統的操作及含義。
當我們談到混合算法決策時,需要注意的是,我們必須談到兩個層次:人工智慧算法輸出、推薦或決定(實現這些的算法過程)以及隨後算法輸出和人類決策者之間的互動。因此,混合系統的算法問責制涉及並需要審查兩個相互關聯的階段:最初的算法結果和如何得出這些結果。例如,AI模型設計、設置和操作的透明度和合理性,這必然決定了算法結果。以及這些算法建議在人類決策和/或行動中所扮演的角色。
後一個方面對有意義的監督也特別重要,不應低估。正如我們將在下面的文章中看到的,在兩者的結合處,有可能出現意想不到的新偏差來源。換句話說,要使基於算法輸入和評估的決策和行動對有意義的詢問、解釋和論證開放(例如,根據算法生成的「熱點地圖」,決定將警察資源部署到特定區域),就需要對算法過程和人-算法交互進行拆解。
信息:不對稱組成的
深度學習工具固有的不透明性。從信息的角度來看,一個特別有問題的特性是許多系統固有的不透明性。給定特定的輸入,我們知道最終的算法輸出,即做出的「分類」(例如,「高風險」或「低風險」),達成的決策(例如,「拒絕信用」),或預測的具體結果(例如,風險評估評分)。然而,算法是如何得出特定的預測結果的(它認為輸入數據的哪些部分對預測結果很重要)通常是不透明的。當然,並非所有人工智慧算法模型都需要不透明。雖然「黑匣子」算法帶來了複雜的不透明性和可解釋性挑戰,更簡單的可解釋ML算法卻沒有,但通常也被認為功能不那麼強大(Rudin,2019)。不透明性是「深度學習」算法的一個關鍵子集,也是「人工智慧革命的主要驅動力」(Ford 2018, 10)。神經網絡由多個隱藏的(或中介)人工神經元層組成,這些神經元將輸入和輸出聯繫起來,通常被稱為「黑盒」,即「向用戶隱藏其內部邏輯的系統」(Guidotti等,2019)。這種系統的不透明性也是由於這樣一個事實,即當模型的相關「特徵」(有助於預測的參數)由系統自身通過篩選大量數據來識別時,它們可以逃避人類的解釋——也逃避設計者的解釋。其有效性的關鍵正是其不透明性的根源:機器分析的特徵可能無法被人類意識識別為有效或可識別的特徵。
保密和專有算法。讓事情變得更加困難的是,由於算法往往是專有的,包括在公共部門使用時,信息的可用性可能會受到進一步的限制。商業算法是由私人盈利性公司開發和銷售的,其工作原理通常不會被公開披露(Carlson,2017;Citron,2008)。Pasquale(2011, 237)在這種背景下追溯了從「合法性——通過透明——到保證——通過保密」的轉變,並「對資訊時代社會秩序的基礎產生了深刻的困擾」。並重申:「目前的法律阻礙了對自動權力機構的問責」。因此,即使算法的功能和操作是可以理解的(比如使用決策樹等簡單的人工智慧算法),但由於專利原因,這些功能和操作仍然是保密的:「商業機密是理解算法等自動授權的核心障礙」(Diakopoulos 2014, 12)。在美國《信息自由法》(FOIA)(Diakopoulos,2014)和歐盟GDPR(Wachter, Mittelstadt和Floridi,2017)中,商業秘密豁免限制了獲取信息的權利。例如,《信息自由法》商業秘密豁免「允許聯邦政府拒絕對其系統中集成的任何第三方軟體的透明度要求」(Diakopoulos 2014, 12),和商業秘密的保護算法提出的製造商為了逃避披露義務(Carlson,2017)或拒絕參加獨立測試算法的性能。公共機構實際上正在犧牲其對算法操作和功能進行有意義的監督的能力,以及其履行自己的透明性和合理性義務的能力。
算法的複雜性。此外,除了系統特徵不透明和/或公開披露問題之外,ML模型的複雜性還帶來了重大的信息挑戰。鑑於其體系結構的複雜性和規模的參數空間,如前所述,它可以成為幾乎不可能對人類決策者掌握交互的複雜特性,即使在最好的情況下(不可能實現)場景模型特性做人類理解和系統的原始碼是公開的。換句話說,當「成百上千個特徵對一個預測有重大貢獻時,期望任何用戶理解為什麼會做出預測是不合理的,即使可以檢查單個權重」(Ribeiro, Singh和Guestrin2016, 1137)。由於人類信息處理的局限性,使得任何監管系統都存在的傳統信息不對稱問題更加嚴重。
具有永久記憶的互動空間爭論和辯護:「審問」算法決策的困難
源於算法固有的不透明性,複雜性或專有性,這些信息缺陷對下一階段的問責制具有直接影響:解釋或辯護。解釋導致特定決策結果的基本原理的能力是審問和挑戰此類結果的關鍵。正是這一階段將問責制與透明性或僅提供上述信息區分開來:能夠篩選,推動和窺探行動和決策背後的邏輯。可解釋的和可辯解的算法?然而,由於人工智慧算法的內在操作,解釋正是尤其難以實現的。對於深度學習算法來說尤其如此。毫無疑問,這些技術挑戰的另一個原因是,傳統上,算法性能的主要評估標準是基於設計人員確定的指標,如「預測精度」,而不是模型的可解釋性。然而,計算機科學學者們越來越意識到對可解釋性的需要:「如果一個人計劃根據預測採取行動,或者選擇是否部署新模型,那麼理解預測背後的原因(……)是至關重要的。(Ribeiro, Singh和 Guestrin 2016, 1135)」開發人員越來越意識到,這種系統的持續依賴和擴散將歸結為用戶對其輸出的信任,而算法的可理解性是其中的一個重要組成部分。隨著深度學習黑箱模型繼續成為最成功的算法方法,計算機科學學者一直致力於使這些模型更容易理解。正在進行的潛在方法包括特徵可視化技術——旨在可視化神經元相互作用的隱藏層的工作,從而使內部過程更加明確(例如Zeiler 和Fergus,2014或谷歌和OpenAI的激活地圖集)——到將「黑匣子」算法與「解釋器算法」相結合(Ribeiro,Singh和Guestrin,2016;美國國防部高級研究計劃局的XAI計劃),即本質上使用算法來解釋算法。例如,「解釋算法」可以通過生成一個更簡單的算法(比如決策樹)來解釋黑盒,從而解壓縮黑盒。「解釋者」算法有效地將黑匣子的特徵重新消化為人類頭腦可以理解的特徵。然而,解釋模型也有重要的缺點。這種類型的技術可能要求「解釋中的『輸入變量』與實際黑盒模型的特徵不同」,以便使它們易於理解(Ribeiro, Singh和Guestrin 2016, 1137)。事後解釋可以依靠不同的關鍵變量來模擬黑盒決策邏輯——換句話說,完全不同的模型。因此,解釋模型本質上並不是原始模型的完全忠實表示,而是原始模型的「近似」,這必然同時降低了它們的解釋潛力(Rudin,2019)。更重要的是,對於解釋需要什麼,目前還沒有一個共同的標準,「儘管這具有根本的重要性,但沒有一項工作認真地解決量化人類解釋的可理解性等級的問題。」(Guidotti等2019, 36)
從隱性到顯性的價值權衡。模型的解釋或論證也必然延伸到模型功能中經常被遺忘的方面:模型設計中固有的價值權衡。雖然人工智慧算法通常被視為「中立設備」,但算法系統必須編碼重要的價值權衡(例如回憶和準確性,精確與公平),甚至是相同價值的不同概念之間的權衡(例如,不同的公平概念)。決定如何在這些因素之間取得平衡,必然是一種政治行為,而非純粹的技術行為:根據優先考慮的價值或概念,算法將達到不同的結果,並將成本和利益強加給不同的個人或社會團體(另見Bovens和Zouridis,2002;Young,Bullock和Lecy,2019)。因此,算法輸出在很大程度上是其中所設計的價值選擇的產物。外部審查此類決策的先決條件是首先了解此類價值選擇。
算法輸出:對人類決策的行為影響是什麼?重要的是,解釋算法決策的挑戰不僅涉及到算法模型的建立和操作,還涉及到算法輸入和人類決策之間的接口。如上所述,算法結果經常作為人類決策的輸入。這意味著,如果我們想要理解和解釋基於算法的決策,我們不僅需要了解人工智慧算法的操作,還需要了解算法結果對(約束)人類決策的影響。然而,令人驚訝的是,我們對它們對決策者和實際決策過程的影響知之甚少。決策制定者如何,以何種方式,受到算法輸入和建議的影響?算法結果在多大程度上限制了我們的決策自主權和/或偏見我們質疑它們的能力?當法官使用算法風險分數作為決策的輸入時,這些分數對他們的決策有什麼影響?
算法決策的後果
最後,問責過程的最後階段是通過判斷——贊成、譴責或譴責某一特定行為——在這種程度上,判斷是消極的,有意義的問責要求施加制裁,並為那些受到負面影響的人提供補償。在算法決策的情況下,問責制的這一維度也變得有問題,因為它的運作密切依賴於前兩個元素的存在:信息和辯解。由於複雜的信息困難,加上上述確定的相當多的解釋問題,這給診斷系統故障和(錯誤)行為以進行有效的補救行動帶來了相關的挑戰。提供補救措施的第一步是診斷故障,但就算法性能而言,這並非易事。
沒有理解算法特徵和操作的能力,包括受算法決策不利影響的非專業觀眾,就無法有意義地挑戰或挑戰基於其決策而獲得的補救措施。如果沒有這些「火災警報」,算法系統將進一步缺乏急需的糾正和學習反饋。如果沒有模型的透明度和操作的基本邏輯的解釋,領域專家(公共部門用戶)也將無法「捕捉」錯誤的模型,導致對其的過度依賴。這將嚴重限制他們作為有意義的決策調解人的能力。在這種情況下,假設一個人進入決策循環可能會成為一個空洞的檢查,在這種情況下,人類調解員實際上對系統的功能(或故障)知之甚少,從而失去了有意義的控制權。
然而,重要的是,這並不免除公共行政官的責任——恰恰相反。為行政決定提供理由的責任是官僚合法性的一個標誌,是管理者不能外包或違背的。採用人工智慧工具在公共部門責任落在地方公共部門的僱員參與決策過程:採納者(管理者)應負責要求和購買符合其作用的公共性的工具,並使公共行政人員能夠繼續履行其對公民的責任。這種責任延伸到確保這些系統進行適當和獨立的審查,它們的運作得到不斷的監測,公共部門工作人員得到充分的培訓,以了解他們所依賴的工具。相應地,在混合系統中,政府內部的個人決策者對決策結果負責。他們仍然有責任理解模型功能的廣泛參數和潛在的失敗(如果他們在行政決策中依賴或遵從它的輸出)並意識到這類系統的潛在影響。
結論:人工智慧——責任智能?
總而言之,我們已經看到,算法使用帶來的挑戰會帶來打擊問責制過程核心的缺陷:複雜的信息問題、缺乏對算法功能的充分解釋或辯護,以及隨後診斷故障和確保糾正的困難。問責制的核心是關於可回答性——然而,當前人工智慧算法的使用對我們質疑(和挑戰)算法結果的集體能力構成了嚴重挑戰。
上述討論表明,在算法的情況下,就像在傳統的設置中一樣,透明度是問責制的一個非常必要非充分的條件。就其本身而言,模型設計的透明度在複雜人工智慧模型的情況下——其特徵往往是不透明的,並逃避可解釋性——將無法提供對算法決策的充分理解。模型的透明性還需要「系統架構師」共同努力,以更廣泛地解釋其模型,計算機科學界必須首先開發可理解和可解釋的模型;需要公共部門的購買者和監管者來要求業界必須系統地採用這種做法。它還需要系統設計者和領域專家之間關鍵的和持續的合作,從系統設計的早期階段到真實世界的實現(生產)和系統功能的監控。
公共管理學者也同樣扮演著重要的角色。人工智慧的透明度、偏見、公平和問責制不是純粹的技術問題(機器學習),而是需要我們的學科和更廣泛的公共管理視角的認真參與(見Shark和Shropshire,2019)。政府內部採用人工智慧工具所帶來的問責制挑戰,與官僚合法性這一更廣泛的問題密不可分。人工智慧工具將深刻影響行政決策和官僚裁量權,使這些發展及其對公共行政的影響成為基礎。不同的人工智慧工具的適用性因不同的政策領域和任務而異,需要充分理解和預期所涉及的權衡,以便指導人工智慧在政府中的適當擴散)。
因此,監管努力至關重要,以確保人工智慧工具以深思熟慮和有效的方式發揮作用。廣泛採用各種監管工具,其中大部分目前還缺乏。儘管在技術創新方面,監管不一定是一個熱門話題,但重要的是要記住什麼是關鍵所在。當黑盒算法系統被公共部門同化時,它們就會滲透到我們機構的結構中。它們滲透到我們的司法體系、教育和執法中,始終難以捉摸,難以挑戰。這就是問題所在。