我們是否能信任算法?不信任又能怎麼辦?

2020-12-13 雷鋒網

醫藥和刑事司法等行業引入了越來越多的算法和系統應用,隨之而來的算法倫理問題也引起了日益廣泛的公眾關注。

其中最根本的一個問題是我們是否應該相信我們所聽到的信息,以及算法和系統告訴我們的信息。

這要求人們能夠辨別算法和系統的真實性,這也體現了在算法研究過程中應用統計科學進行評估和驗證的可信度(即所謂的「智能透明」)的重要性。

劍橋大學邱吉爾學院院士、英國皇家學會院士、現任英國皇家統計學會主席、風險專家問題專家 David Spiegelhalter 從自身被算法誤導的經歷出發,基於算法在醫藥和刑事司法的應用案例,對算法的可靠性提出了質疑,因而利用統計科學對算法進行驗證評估顯得尤其重要。

文章最後,他也提到了在應用算法時,應該從哪些方面進行評估,遇到同樣困擾的研究者不妨借鑑一二。

正文內容如下:

一、序言

我們去年在葡萄牙度假時,一路都使用谷歌地圖進行導航。當我們行駛到古老的科英布拉大學城裡狹窄的街道時,聽信了谷歌地圖的指引並向左轉,結果前方道路突然變成了臺階,幸好我們及時剎車,原路返回。

從那以後,我就不怎麼相信谷歌地圖的導航了。

不只是導航算法,應用在醫藥和刑事司法行業中那些複雜各異的算法和系統都需要謹慎對待。例如英國用於評估累犯風險的系統 HART(危害評估風險工具),基於隨機森林算法而得。這一系統在可信度和公平性上引起了巨大的爭議,且不討論其在面部識別上的爭議,人權組織 Liberty 最近在報告中指出,司法預測算法的使用有損害人們權利的風險。

我們不能完全被人工智慧的「神秘感」所迷惑,如今大量媒體新聞充斥著機器學習和人工智慧的「神話」,我們不能偏聽偏信,因為這樣的新聞通常都是基於商業主張而發布。

從本質上講,很多算法都是通過獲取一些數據並使用規則或者數學公式來生成結果,輔助專業判斷。刑事司法中應用算法並不是什麼新鮮事件,早在數十年前,基於統計回歸的簡單的累犯評分系統就已經開始納入刑事司法使用,只是並不廣為大眾所知。基本量刑準則可以被認為是一種一致性算法,以此為基礎,法官對特定案件可以行使酌處權進行調整。

事實上,Liberty 評論司法預測算法的報告只是算法倫理問題的中的一個案例而已,目前從事算法,AI 和機器學習倫理問題研究的人甚至超過了從事技術研究的人,很多倫理問題的應對舉措也隨之而來,例如,針對司法的 Algo-care,FATML(ML的 公平性、問責制和透明度)社區建議所有算法需要發布一項社會影響聲明,在聲明中詳細說明:

  • 責任:出問題時該找誰。

  • 可解釋性:向利益相關者提供普適的語言解釋。

  • 準確性:確定錯誤和不確定性的來源。

  • 可審核性:允許第三方進行檢查和批評。

  • 公平:針對不同的受眾特徵。

美國在刑事司法中應用 COMPAS 系統進行累犯預測,輔助罪犯保釋決策。COMPAS 系統輸入 137 項特徵,評分為 1 到 10,將累犯風險分為低/中/高。

但是該系統是專有程序,完全是個「黑匣子」,COMPAS 系統曾被指控存在種族偏見,受到了強烈質疑,有人上訴反對 COMPAS 的評分結果,但以失敗告終。儘管如此,COMPAS 在大多數 FATM 標準上似乎都表現不佳。

因此,回歸到一個簡單的問題——我們可以信任算法嗎?

二、主動信任和值得信賴

在這個大量信息魚龍混雜,真假難辨的年代,各種網絡聲音常常爭辯激烈,我們都希望得到信任。

但正如哲學家Onora O』Neill)所言,我們不應該期望大眾信任自己,而應該主動證明自身值得信賴,這需要自身的誠實,能力和可靠性。奧尼爾這一提議簡單有力,英國國家統計局在修訂版的職業準則中,也將誠信作為第一要素。

要成為大眾所信賴的算法,需要在聲明中表達清楚以下兩點信息。首先,開發人員說清楚算法可以做什麼,如何進行驗證和評估。其次,算法在遇到特定案例時如何處理。

算法的驗證評估是一個非常複雜的話題,統計學在其中可以發揮很大作用,數十年來一直應用於數據驗證和評估。下面讓我們更詳細地了解這兩點:

1)算法和系統結果的可信度

正如路透社最近的一份報告所言,如今在人工智慧這一話題上,充斥著太多商業驅動的炒作言論。Eric Topol 去年在醫學 AI 發表權威評論,表示目前 AI 的炒作言論已經遠遠超出了科學言論,尤其是在算法驗證和實施準備階段。

按照FATML建議,算法和系統可以通過發表社會影響聲明來傳達其可信性。但還有一點似乎未被提及,那就是算法和系統所帶來的影響。理論上來說,算法的應用應該是有益的,但這一點無法得到充分保證,所以,FATML提議在聲明中增加這一點:

2)影響:實際使用中有什麼益處和危害?

20 世紀 60 年代那場「反應停」藥物災難事件中,因藥物造成胎兒四肢畸形,奪去了數以萬計嬰兒的生命。發生了這一史無前例的藥害醜聞以後,所有新藥的測試都需要經過極為嚴苛的評估模型。

統計學應用於結構化評估中是極為常見的,我和 Stead 等人通過長期研究,類比藥物測試評估模型,總結出了算法和系統的驗證評估模型,表 1 展示了藥物測試的四階段評估模型,以及算法和系統的驗證評估模型。

表1. 公認的藥物測試四階段評估模型,以及建議的算法評估模型

從已發表的文獻中發現,醫療和刑事司法行業的算法,其驗證評估都聚焦於階段 1,即數據集準確性。但數據集準確性僅僅是評估過程的開始。

目前邁入階段 2 的算法正在由少變多,階段 2 常應用圖靈測試,即將算法性能用來與人類「專家」進行比較。將人類「專家」和算法得出的判斷結果進行混合,由獨立專家來評估判斷結果的質量。在圖靈測試中,判斷結果是出自人類「專家」還是自出算法是不作考慮的。

例如,醫療 AI 公司 Babylon曾進行了一項階段 2 的驗證評估,將他們的診斷系統與醫生診斷結果進行對比,這一測試隨後在《柳葉刀》雜誌上被強烈批評。康奈爾大學人工智慧專業的Kleinberg 教授等人類比了累犯預測算法的評估流程和藥物測試的四階段評估模型,對人類決策與算法決策階段 2 比較進行了建模。

Topol 還指出,幾乎沒有任何前瞻性的驗證,能證明機器可以幫助臨床醫生有效地診斷或預測臨床結果。這也就意味著,很少有算法的驗證評估能邁入階段 3,即驗證系統在實踐中是否確實利大於弊。即便是簡單的風險評分系統也幾乎沒有在隨機試驗中進行階段 3 評估。

當然並不是完全沒有算法評估應用了階段 3,在心血管疾病預防領域,曾有 Cochrane 系統評價得出結論:「評分預測系統會稍許降低 CVD 風險因子水平,並在沒有危害的情況下為高危人群開具預防性用藥處方。」

算法可能會產生一些意料不到的影響。早在 1980 年代,我就參與了「計算機輔助診斷」的研究,當時在診所的角落裡放置了一臺笨拙的大型個人計算機。

在一項隨機試驗中,我們發現,即使是效果較差的算法也有助於改善診斷和治療急性腹痛的臨床表現,這並不是因為醫生聽取了計算機的結果,而是因為「計算機輔助診斷」這種形式鼓勵了醫生更為系統化地收集患者病史並做出初步診斷。

然而,通過類比藥物測試評估模型得出的算法評估模型存在其局限性。我們知道處方藥通常只對個人起作用,除了過度使用抗抑鬱藥和鴉片類藥物外,處方藥幾乎不會對整個社會產生影響。

而算法不一樣,其廣泛應用是可能會對全社會造成影響的,因此藥物測試評估模型在階段 3 採用基於個體的隨機對照試驗這種傳統做法,對於算法評估而言是不完全適用的,需要補充人群影響的研究作為輔助驗證。

英國醫學研究理事會應對複雜醫學幹預措施的評估模型與此類似,這一評估模型最初的版本與前文提到的藥物測試評估模型非常相似,但其隨後的修訂版轉為了更具迭代化的模型,對實驗方法的重視程度有所降低,將影響驗證的評估擴展到其他學科,而不再強調隨機對照試驗的應用。

出於監管目的,臨床算法被歐盟和食品藥品監督管理局(FDA)視為醫療設備,因此是不受表 1 中的藥物測試評估模型所約束的。

臨床算法不一定要通過階段 3 的隨機試驗,其更為注重的是技術,或者說是代碼本身的可靠性。但前提是,算法必須在實驗室中證明是具有合理性和準確性的,並能在實踐中有所益處,能證明這幾點有利於提高算法在社會影響聲明中的可信度。

三、向使用對象公布算法結果的可信性

當罪犯必須接受累犯風險預測系統的預測結果時,或者患者需要接受醫療輔助系統的診斷結果時,他們或他們的代表應該有權利獲得以下問題的明確答案:

當前有許多創新嘗試能讓複雜的算法更具可解釋性,減少「黑匣子」情況的出現。例如,由 Moorfields 眼科醫院和谷歌聯合開發的 Google DeepMind 眼部診斷系統,基於一種深度學習算法並精心設計,可以分層可視化地解釋從原始圖像到最終診斷結果之間的中間步驟。

雖然深度學習算法適合於圖像數據的自動分析,但是當輸入數據較少時,其有可能首先構建一個更簡單,更易於解釋的模型。

統計科學主要集中在線性回歸模型上,對特徵進行加權,構建評分系統。例如,Caruana 等人使用廣義相加模型 (Generalized Additive Model) 得出肺炎風險評分系統。

人們常說,算法的可解釋性與性能之間是無法兼得的,必須進行權衡。正是因此,累犯預測系統 COMPAS 受到了質疑。一項在線測試表明,未經過培訓的公眾可以達到和 COMPAS 系統一樣的準確度 (65% 的準確度),甚至可以通過簡單的基於規則的分類器和只需要年齡和犯罪前科兩個預測變量的回歸模型來匹配 COMPAS 的預測性能。進一步來說,不確定性評估是統計科學的核心組成部分。

四、透明化

算法要被大眾信賴,需要透明化,不過這種透明化不是魚缸式的透明,不能只是提供大量晦澀難懂的信息。而且透明化並不是必須要可解釋的,如果系統確實非常複雜,即使是提供代碼,也不能很好的滿足可解釋性。Onora O』Neill 再次為發展「智能透明」理念做出了重大貢獻,她認為信息應該:

最終的評判標準很重要:一個可信賴的算法應該有能力,向想要了解它推理過程的人展示它是如何發揮作用的。雖然大多數用戶可能很樂意「信任」算法的判斷結果,但利益各方還是有方法評估其可靠性。Lai&Tan 2019年發現,提供算法的個性化解釋和提供算法質量的普適保證一樣有效。

我們嘗試通過以上的評判標準完成一個算法的可信度聲明。新診斷乳腺癌婦女的預測算法,通過輸入疾病的詳細信息和可能的治療方法來輔助醫療診斷。我們將可能的術後治療的潛在利弊以文字,數字和圖形的方式表達出來,提供了多種級別和多種格式的解釋,並公布了算法甚至是代碼的全部細節,以供審查需要。

當然,這樣的方法是透明化的且有吸引力的,但它也可能導致「過度信任」,即算法的結果被視為是完全準確且毫無質疑的。真正值得信賴的算法應該公布其自身的局限性,確保它不會被公眾「過度信任」。

五、結論

要證明算法的可靠性,需要分階段的質量評估過程並應用強大的統計學原理。Topol 指出,臨床算法在推出和實施之前,需要進行嚴苛的研究,在同行評審的期刊上公布結果,並在真實環境中進行臨床驗證。刑事司法算法和系統應用需要採用同樣的方法。

最後,當聽到關於任何算法的聲明時,可提出的問題清單如下:

  1. 在現實世界進行嘗試有什麼益處?

  2. 是否能更簡單,更透明,更可靠?

  3. 我能夠向感興趣的人解釋清楚它是如何工作的嗎?

  4. 我可以向一個人解釋在特定情況下它如何得出結論嗎?

  5. 它知道何時處於不穩定狀態嗎?它能夠承認不確定性嗎?

  6. 人們是否帶著適當的質疑態度正確使用了它?

  7. 它在實踐中真的有幫助嗎?

其中,我認為問題 5 特別重要。

谷歌地圖在本不確定的路線中給出了錯誤導航,讓我對其不再信任。

但如果它能換一種方式,告知我「目前我無法幫助您」並很快恢復如常,這對我來說,才是值得信賴的行為。即算法知道自己什麼情況無法處理,並誠實地告知大家,這樣的謙卑態度才是值得我們嘉獎的。

via https://hdsr.mitpress.mit.edu/pub/56lnenzj  雷鋒網雷鋒網雷鋒網(公眾號:雷鋒網)


雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 無信任,不購買
    所以我們也能利用從眾心理來增強消費者對產品的信任。顧客好評顧客好評能從顧客的文字,圖片,視頻三個方面來證明產品的優點。當消費者對產品不信任時,我們可以針對消費者所面臨的風險都提供相對的解決方案,從而消除風險。
  • 不被信任怎麼辦 如何成為值得信任的人
    信任是別人對於自己的最大褒獎,每個人都從心底期待得到它,但有些人能夠很容易得到別人的信任,而有些人卻被別人重重設防,後者想必自己心裡也很不是滋味。小編現在就來講講如何成為值得別人信任的人。付出信任,相信別人。
  • SEC是社交信任與共識算法的結合
    SEC,以社交信任為基礎的下一代電商區塊鏈協議,是全球第一個以促進電商社交化的區塊鏈系統。SEC本質上通過分布式記帳交易關係和信任背書建立電商個體的信任基礎,並以此作為共識的基礎。SEC主鏈可用於商品交易,二手商品買賣,虛擬商品買賣,商品股權,商品眾籌等領域。
  • 《有翡》:兩個人能不能在一起,信任很重要
    此後,不管是有意還是無意,兩個人總能遇到一起,共闖江湖,謝允幾次三番救過她的命,阿翡對他也是越來越信任,兩個人的相處還是挺歡樂的。 但阿翡一直以為他就是個四處漂泊的人,沒想到他會是君上,這個發現讓她第一次有了懷疑,她應該也會想,這個人到底還有多少是她不知道的,這個人到底還有多少秘密?
  • RSAC 2019三大趨勢:當我們談論信任的時候我們在談論什麼
    他們把網絡空間中的「信任」比喻為人類世界中的水,是網絡空間能夠存在的基礎。Rohit Ghai對參會者講到:「我們所保護的,不僅僅是商業應用,基礎設施或者數據...我們在保護的是我們的信任」。阿迪·沙米爾在視頻致辭中說:「如果像我這樣的人都不能去現場做主題演講, 也許我們該重新考慮在哪裡組織(下一次RSAC)活動了。」  對於美國政府來說,不給阿迪·沙米爾頒發籤證或許可以認為是「零信任(Zero Trust)」安全理念的最佳實踐了。信任的前提是不信任,只有不相信任何人,才能去相信你能夠相信的。
  • 被誤解的區塊鏈信任
    從創造區塊鏈開始,中本聰和他的精神傳人做的都是「去信任」技術,即人與人之間的信任不可靠,不信任人的言行是第一假設,區塊鏈用算法解決不信任問題,去信任的技術保障「信息無疑」。但是,契約活動中的可信度不僅有「不信任」的成分,還有「相信」的成分。二者不是簡單的此消彼長的替代關係。區塊鏈擅長解決前者,卻不擅長後者。
  • 當孩子辜負了我們的信任時,我們要怎麼辦?
    孩子到了青春期,需要父母給予更多的信任,有的時候,不是做父母的的不信任孩子,是孩子的所思、所想、所為沒辦法讓我們信任。青春期的孩子,畢竟不是成人。他們會犯錯誤;他們會考慮不周;他們會做錯誤的決定。 當他們犯錯的時候,我們也能料到他們可能會錯上加錯,比如對我們撒謊。
  • 職場冷暴力:不被領導信任,被同事估孤立,怎麼辦?
    不被領導信任,有事也不喊你,同事間仿佛沒有你這個人,雖然還繼續在公司待著,但感覺非常難受,直接辭職吧,更為憋屈,進退兩難怎麼辦才好呢?有些人會覺得這樣「混吃混喝」不幹活的日子挺好的,一段時間後,你就會發現,除非公司是你家開的,否則你的價值只會越來越低,在激烈的職場競爭中,很快就會被淘汰或者被替換。既然在職場,當然不希望成為隱形人,要得到領導的信任和重視,需要找到問題的根源。
  • 當你信任的人,不信任你了
    ,處女座, 自行車那,民族才能,這麼些農村,在某些才能自學成才此次處處長此次此次明顯,錯別字寸步難行變成現在,摸出那包熊貓,怎麼才能在,明年初,瞄準農村,美贊臣,怎麼能從,瞄準農村,瞄準農村,瞄準農村,怎麼能從,瞄準農村,怎麼能從,怎麼能從,怎麼能創造,明年初,密支那,美廚娘,民族才能,瞄準農村,瞄準農村,瞄準農村,滿足你怎麼,處女座,某些女性怎麼,vn,夢想著,徐志摩女,徐志摩,明星子女只能,vnz
  • 信任的定義是什麼?
    信任的定義是什麼?從許多學者的觀點來看,我們可以大致理解:(1)信任是不可預知的未來所產生的期望 (2)信任是混亂的。我們無法理解我們是在完全理性還是完全非理性的思維下給出信任判斷。 同時,在考慮了遊戲中所有複雜的判斷因素後,這是一個簡化的判斷。 (3)信任交換的媒介主要集中在三個地方:金錢、真理和權力 (4)公眾信任可以說是個人信任的升華,是社會資本和文化價值的積累,或者是由弱歸納知識與許多個人信任的結合而產生的。
  • 夫妻之間的手機到底能不能看,是信任還是隱私?
    我們常說,兩個人在一起,組成一個家庭,成為一對夫妻,最重要的是互相信任,但就是這麼一句簡單的互相信任,在很多事情上表現的並不明顯,唯獨在偷看對方手機時,此時,信任這個詞是提到最多的。「你不相信我」?對方偷看你的手機,從本能上來講,可能確實是因為信任產生了危機,但也有可能是其它原因,並不一定就是要偷看你的通話記錄或微信聊天。所以當對方拿著你的手機時,水可不必過於緊張,過分的緊張反倒讓對方對你產生懷疑。「我們應該相互信任」。
  • 我們之間,只差了點信任
    當親近的人之間失去了信任就會變成世界上最陌生的人01信任是一道橋梁,它可以把兩顆尚有距離的心拉得更近,我們判斷某一個人是不是和我們一國,就看我們和那個人之間的距離沒有信任的關係,是很危險的,信任的反義詞,不一定是懷疑,也可能是否定,而信任就相當於肯定。設想一下,你所說的每一句話,都有人肯定你,那是一件非常高興的事情,而相反,如果你說的話被人全盤否定,你的內心肯定不止有憤怒,還有失望,尤其是被親近的人否定,那種感覺是不會有人想要感受的。
  • 兩個人產生信任危機怎麼辦?又該如何正確處理?
    為什麼以前如此牢固的關係,會出現相互間的不信任,深層次的問題在於一方觸碰到了另一方的利益,淺層次的原因在於自我的無限制猜疑。 當我們為了去滿足自身的需求,而變得虛偽且不誠實的時候,人與人之間的關係其實就容易產生一種危機。
  • 持續開放零信任安全能力,騰訊敏捷零信任MFA有哪些技術優勢?
    據楊育斌介紹,騰訊敏捷零信任遵循「SIM」三駕馬車技術架構,覆蓋雲端身份安全服務、雲端接入流量安全、雲端業務安全管理、雲端數據安全服務及持續信任管理五大安全能力,可及時發現、有效防禦雲管端安全風險。對于敏捷零信任的身份安全能力,程文杰在分論壇進行了深入解讀,他提到「身份安全是零信任的基礎」,如果沒有身份安全,零信任就是無根之木。
  • 持續開放零信任安全能力 騰訊敏捷零信任MFA有哪些技術優勢
    受2020年初疫情影響,企業移動辦公、遠程協作需求大增,傳統安全邊界逐漸瓦解,零信任安全市場激增。騰訊安全依託獨有的移動化敏捷多因素身份驗證(MFA)安全技術,加速完善敏捷零信任產品並獲得落地實踐。
  • 孩子不願跟家長溝通,是不被信任的後果,家長的信任是孩子的底氣
    導讀:孩子不願跟家長溝通,是不被信任的後果,家長的信任是孩子的底氣各位點開這篇文章的朋友們,想必都是很高的顏值吧,我們真的是很有緣哦,小編每天都會給大家帶來不一樣的育兒資訊,如果對小編的文章或者其他的什麼,有什麼一些意見的話歡迎在下方積極評論哦,小編每條都會認真看的。那麼本期的內容是:孩子不願跟家長溝通,是不被信任的後果,家長的信任是孩子的底氣!那麼我們就來看看吧!
  • 孩子不信任父母,與常說不信任孩子的10句話有關,該說信任18句話
    正文:這節我們分享:被信任的孩子,表現的狀態更優秀,我們一起學習第4課,信任話術的思維模式。01不信任的10句話,對孩子的傷害?首先能夠想到向父母老師求助的人,加起來竟然還不到7%,孩子不相信父母,比想像中更可怕。很多的家庭悲劇也是來源於孩子對父母的不信任。孩子為何不相信自己的父母,我們來反思:信任是互相的,你不信任孩子,孩子自然也不會相信父母。
  • 信任,信任,一切美好的事都從信任開始
    住院夥食補助費,比周至縣的通常標準高,當然,比不上西安,這我能理解。醫療費,在我運用周至縣法院以往判例的反擊下,保險公司不再扣10%的費用。殘疾賠償金,保險公司終於低下了高傲的頭承認是自己計算錯誤。交通費,也就那樣了,反正我方又拿不出正式票。總得來說,是90%的滿意度,特別是對誤工費和護理費標準這塊,但是,周至縣就是這麼一個經濟狀況,提得太高,法官也沒辦法往下判,這是唯一的遺憾。
  • AI也有偏見,我們該如何信任它們?
    但這絕不意味著我們不需要仔細審視它們,或是給予基於數據之上的AI系統無條件的信任。肖特利夫的MYCIN系統本質上是一個決策樹,屬於「透明」的模型——我們可以畫出從數據輸入開始完整的決策過程,從而評估MYCIN的決定。深度神經網絡的性能遠遠優於決策樹,但它是一個「黑箱」——我們幾乎不可能確切地知道它在算什麼。性能與可解釋性似乎此消彼長。
  • 一個人是否值得信任,就看這4點,很精闢
    所以在日常生活中,我們經常要與陌生人打交道,那麼當一個陌生人出現在你的面前,或者已經見過幾次面了,但他仍然算是生人時,你應該如何迅速辨別對方靠不靠譜,能不能繼續交往、合作呢?下面給大家介紹如何看出一個陌生人值不值得信任。