人工智慧技術融入司法是數字時代的必然趨勢,其發展前景無需質疑,但「要想讓算法更好地服務於人類,我們必須承認算法不是全能的」。智慧司法建設並不是一項司法革新的完美規劃,它對司法機制及其運行的重塑效應也是有限的。
一、客觀性上的悖論從全球範圍的實踐來看,算法決策和司法大數據的客觀性並不像人們想像的那樣易得,其也存在被主觀因素侵入的風險。
1、算法決策的複雜性人工智慧在商業交易、公共政策的制定、司法過程、交通出行等日常生活中深度應用的場景越來越多,它們不僅僅進行預測和推薦,很多時候也在作定性判斷,如人臉識別、資格審查、屏蔽封號、自動執法等。「這些自動化系統已經由簡單的行政管理工具變成了主要的 『決策者』」,形成了一種替代人腦決策的裁斷權力,並在資源配置和行為控制上對相對人產生重要影響。就智能輔助辦案系統而言,它所進行的證據標準和規則指引、逮捕條件審查、證據鏈和全案證據審查判斷、社會危險性評估、言詞證據審查、減刑假釋案件辦理、裁判偏離度提示、辦案程序監督等等,也都是在行使算法裁斷權力。這種算法決策,並非簡單的計算公式和無意識的程序運行,而是從一開始就被「教導」了法律知識與邏輯,輸入了主觀的定性判斷基準。
儘管它需經司法裁判者最終確認,才能產生實際的司法效力,但仍不可否認其權力屬性。其次,算法權力也會受價值偏好影響。設計者「可以建造、構築、編制網絡空間,使之保護我們最基本的價值理念」,同樣地,設計者「也可以建造、構築、編制網絡空間,使這些價值理念喪失殆盡」。代碼是被製造而非發掘出來的。基於相同的數據信息、技術條件、求解方案,分別由兩組各自封閉的程式設計師來設計算法,最後的輸出結果很可能不一樣。
例如,上海「206系統」工程龐大複雜,只能採取全國法院的「眾籌」模式來完成證據知識圖譜的繪製。這些法律適用規則的整理,其實就是對刑法知識的一次精加工,「編輯者的邏輯編排、要旨提煉、觀點選擇,體現了個人的價值取向、學術判斷、政策立場」。這些知識圖譜經由程式設計師的代碼編寫和算法建模,自然又會或多或少地滲入一些人為因素。儘管代碼的執行是無偏差的,但「偏差」會被編碼到系統中。
再次,算法背後隱藏著算法黑箱與「算法霸權」。「用戶們無法看清其中的規則,無法提出不同意見,也不能參與決策過程,只能接受最終的結果。」這就形成了一個算法決策的閉合迴路,除非自我更新和改善,否則它將持續運行,不受外界因素的幹擾和影響。一旦算法決策出現偏見、不公乃至有意的「暗算」,就會誘發嚴重的社會危機。它不予公開、不接受質詢、不提供解釋、不進行救濟,難免會有演化為「算法霸權」 的風險。於是,中國的智慧司法建設也應著力消除算法黑箱和算法霸權的隱患。
未來在程序設計環節實現立法者、專家學者、律師和社會人士的開放性參與,打造可公開、可解釋、可救濟的智能系統,對於防範算法黑箱和算法霸權之風險,大有必要。 2、司法大數據中的主觀性因素首先,數據採集的「全樣本」是一種主觀界定。算法和算力仰賴於「數據餵養」,數據量越大、越全、越真,算法決策就越客觀精準,人工智慧也才越「聰明」。司法是一項非常複雜的定 分止爭機制,涉及人財物、時間地點、主客觀狀態、行為方式、涉案工具等等,僅一個案件就會產生大量的司法數據。如果想就某一類型或某一類案由的案件進行算法建模,就需要採集海量的數據。若要做到「全樣本」則難上加難,僅在什麼時間、空間、範圍上來界定這個「全樣本」,就是一個很大的問題。
從上海 「206系統」(編註:由科大訊飛與上海市公檢法機關共同研發的刑事案件智能輔助辦案系統,2018年3月,206系統在上海全面推廣應用。)的研發過程來看,命案被劃分為現場目擊型、現場留痕型、認罪供述得到印證型和拒不認罪型四大類,這四類命案「證據標準指引」的建模算法,主要是基於上海市2012年至2016年間審結的591起命案數據。71個常涉刑事案件罪名的 「證據標準指引」,則是基於近三年全國102個常涉罪名刑事案件的數據制定的。可以發現,這些數據樣本都是三五年內的。同樣,上海民事、行政案件智能輔助辦案系統從467個民商事案由、61個行政案由中首選了六大類8個案由,雖然標註電子卷宗達5800餘份,標註點數量達12 萬個,但上海市2016年道路交通事故糾紛一個案由收案量就達51312件。
可見,研發智能輔助辦案系統所憑藉的,暫時還只能是有限時間段內、有限範圍內的 「樣本」。數據標註是司法知識圖譜構建的重要基礎,上海「206系統」的研發採取了人工標註和自動標註兩種形式,人工的數據清洗和標註自不待言,機器的自動標註也需要經過程序設計人員的確認。同樣,圖像識別、手寫體識別、插圖籤章、塗抹塊檢測、插入檢測等準確率雖然可達92% —98%,但它仍需人工審查校正,這些無疑也都是主觀選擇的過程。
再次,司法數據的闡釋理解是一種主觀判斷。標定數據對機器學習和建模算法的效果具有很大影響。由於中文語詞具有多義性、模糊性和地方性,對於相同或者相似的文本知識和數據,不同的標註人員會形成不同的闡釋理解,導致數據標註結果可能因人而異。雖然可以通過構建多層級數據標註體系來消除語義分歧和增進標註的可解釋性,但仍有一定的主觀作用空間。這也正是「投入多少人工,就有多少智能」的原因所在。
由上可見,在科學技術發展到一定程度或治理能力足以防範相關風險之前,算法決策的客觀性與中立性都只能是有限的。更嚴重的是,算法決策往往以 「科學」 面目呈現,一旦算法決策變為一種被灌輸的、給定的 「客觀」,造成 「假為真時真亦假」 的反向替代,司法也就異化成為它的反面了。這是二者最深層的區別,也是我們必須警醒的地方。 二、正義判斷上的困境司法人工智慧讓人們看到了 「可視正義」 和 「數字正義」 的希望,但進一步分析就會發現,「可視正義」 也好,「數字正義」 也罷,雖然近在咫尺,但也不會來得那麼容易。
其一,難以對正義進行建模計算。首先,正義價值是普遍的,卻沒有統一標準。對待正義問題,只能通過謀求最大公約數和重疊共識方式來獲得認同。我們很難針對正義進行共識性的要素抽取和建立通用的知識圖譜,「其價值難以用數字體現」,也就很難進行建模計算。
其次,正義沒有價值位階,裁判需要權宜平衡。因此,比例原則、法益衡量等一直在司法裁判中佔據重要位置。力圖解決一切、無所不能的「終極算法」還不存在。司法裁判中法官的權宜平衡一時還難以用算法來替代。
再次,實現正義依靠的是實質判斷,而不是體現相關性的概率計算。美國曾研究測試,人工智慧在584個案件中有79%的案件審理結果與歐洲人權法院的審判專家組判決結果相同。英國 「機器律師」與倫敦100名律師在保險合同案件的法律判斷比賽中,「機器律師」 以86.6%的準確率領先於律師的66.3%。
這些事例似乎表明,算法決策比人腦決策更優越。但實際情況是,「計算機並不是 『思考』,而是依據邏輯算法處理數據」。它主要是基於數據進行相關性分析,對於複雜的疑難案件來說,僅有數量、概率和相關性邏輯還遠遠不夠,正義的司法裁判需要通過綜合考量各種因素的實質性判斷來實現。
其二,難以窮盡 「正義」 的樣本。擁有了司法正義的 「全樣本」,才可能實現精準的算法正義。理論上講,這個司法知識圖譜應該是法律法規、司法文件、法院判例、證據規則和案件事實的動態集合,其數據採集是可以做到的。但實際上,大量的司法活動難以被完全數據化,且各機關或機構的數據處理標準常常不一致,數據交換也有障礙。
其三,正義難以零和博弈。從根本上說,「算法就是把輸入轉換成輸出的計算步驟的一個序列」。算法的開發設計者需要把知識系統轉化為數字系統,把法律邏輯轉化為數理邏輯,進而把複雜的司法活動簡化為一種「無須滿足任何更多條件即可生成『是』與『否』的二元選項」 的代碼執行和機器運算。這固然提高了司法效率和裁判一致性,但不容否認的是,「法律世界包羅萬象、複雜混沌,常常沒有明確的對錯之分」,尤其是司法正義,更不可能簡化為一個是與否的零和博弈。
其四,正義難以忽略人性。從古到今,司法活動都不是一個冰冷的、機械的規則適用過程,而是帶有鮮明的人文關懷。司法人工智慧不會計算情感,不能與人進行心靈互動,自然也不可能有人文關懷,難以根據具體場景靈活地、創造性地維護正義價值。而越來越多的機器執法和裁斷,越來越少的人際互動和交流,有把公民變成 「馴服的身體」的危險。
可見,司法人工智慧只能帶來有條件的 「可視正義」 和 「數字正義」,即使法律人工智慧已廣泛投入運用,在追求司法正義的過程中,法律人的「情懷」 和「匠心」 仍然無法被複製和替代。三、政治因素的遮蔽現代法治的核心特徵之一是司法中立,然而,司法畢竟是一種制度體系中的構架,它不可能做到隔絕政治。例如,美國聯邦最高法院可以通過重新定義某些規則條款和標準,「來滿足大法官不斷變化的政策偏好,從而在集權與分權、保守與自由之間做出最有利於大法官的選擇」,但 「布希訴戈爾案」 之類的司法裁決仍不是一種單純的司法行為,而是帶有明顯的政治考量。基於中國的制度屬性和歷史傳統,政治性因素對司法的影響也比較明顯。比如,「民憤極大」 就曾是一種從政治上、道義上來考慮的從重處罰情節, 「領導批示」 也會對案件的定性和裁判具有重要 「指導」作用。這些影響因素很難進入算法決策的考量範圍。
四、精準性上的障礙人工智慧之所以被廣泛應用於生活領域,原因之一就是它具備遠超人腦的精準計算和超強預測能力。但在實際運行中,算法決策未必能完全做到精準,甚至還有一些風險需要加以防範。
一是算法錯誤。人工智慧雖然都有 「先發制人」 和 「完美預防」 的預設,但無缺點的自動化系統並不存在,需要容忍不可避免的系統錯誤和故障。
二是算法自主。隨著人工神經網絡技術的發展,人工智慧在分析、預測和判斷上的某些能力已經超過了人類。有時還會出現算法超出設計預期的運算方式和輸出結果,令設計者難以理解的情況,即算法自主或者算法異化現象。
三是算法不能。其實從圖靈開始,人們就已經意識到,雖然在很多情況下算法執行的任務是人類無法完成的,但算法並不能解決所有問題,如不少刑事案件中犯罪者的動機和目的。
四是算法差異。在人工智慧的實際應用中,相同的任務或應用可以採用不同的算法來完成,但這些不同算法的正確性、容錯性和效率性存在優劣之別。從審級上說,從基層人民法院到最高人民法院,究竟是使用一套算法還是四套算法?如果使用一套算法,就會導致四個審級的智能裁判結果完全一致,不同審級之間的監督功能就會喪失; 如果使用四套算法,那又如何保證它們的計算品質相同? 從地域上說,全國如果使用一套算法,要如何解決經濟、社會和文化上的地域差異問題? 如果使用多套算法,如何保證全國的司法統一性? 可見,儘管算法決策是基於客觀的數據分析和理性計算作出的,但面對重大疑難案件和大國的司法運行,有很多複雜因素難以用建模算法來回應。
算法只能延續和提煉人類知識,但很難開拓和創造人類知識。算法決策能夠通過程序性、公式化計算來優化訴訟程序和處理簡單案件,卻難以處理重大的複雜疑難案件; 它能夠促進形式正義,卻很難實現實質正義。算法有可能勝任法庭上的多項工作,但無法勝任判決工作,包括證據標準指引、條件審查、校驗糾錯、裁判偏離度提示等,都只能是人腦決策的輔助工具。關鍵之時還需要人來做決定,由人來擔任最終決策者。也許,隨著人工智慧技術的突破升級,算法決策替代人腦決策的空間會更大、質量也更高,但它依然是司法助手、工作夥伴,而不是獨立裁判的 「法官」。即便是 「強人工智慧」時代的 「奇點」到來,人類也會重新規劃自身主體地位的發展藍圖。
(作者馬長山系華東政法大學教授、博士生導師,本文首發於《法學研究》2020年第4期)(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)