原創 心緣 智東西 收錄於話題#AI安全1個
數據隱私、算法攻防、道德倫理,AI安全難題如何破解?
作者 | 心緣
編輯 | 漠影
「刷臉」時代,安全何在?
此前據央視調查,在某些網絡交易平臺上,只花2元就能買到千張人臉照片,5000多張人臉照片標價還不到10塊錢。今年9月,廣西南寧的十幾名業主在不知情的情況下,被一位置業顧問以刷臉賣房的方式騙走了逾千萬元。
從手機號碼、身份證號、地址等文字信息,到指紋、人臉等生物信息,再到線上搜索、消費、駕駛路線等行蹤的數據信息,當人們越來越多的數據被採集,當AI算法與生活的聯繫更加緊密,人們愈發擔憂數據洩露與算法被攻擊所引發的安全風險。
如今飛速發展的人工智慧(AI)應用中,依賴海量數據、不具有確定性的深度學習算法仍是主旋律。在上周三的2020第三代人工智慧產業論壇上,清華大學人工智慧研究院院長、中國科學院院士張鈸教授的一番言辭發人深省。他提到全球前40個AI獨角獸的估值大約分布在70-500億區間,但銷量均基本不到估值的10%,也就是沒有找到市場,問題出在什麼地方?張鈸院士認為,這裡存在著算法與數據的不安全性。
縱然技術無罪,損失誰來買單?引發新一輪安全憂慮的AI,也可以成為破解安全難題的良藥。
本文福利:人工智慧基礎設施、設計研發以及融合應用面臨的安全風險日益凸顯。推薦精品研報《人工智慧安全框架(2020年)》,可在公眾號聊天欄回復關鍵詞【智東西139】獲取。
01.
數據隱私、算法攻防、道德倫理……AI安全問題關山難越
在金融、醫療、公共安全等AI應用場景中,需要用到的數據往往涉及個人隱私信息,而數據的簡單明文傳輸和利用很可能導致隱私洩露,以至造成嚴重後果。僅是在2020年,就發生過多起因個人信息洩露造成的詐騙案。
除了數據安全外,算法安全問題也不容小覷。
由於AI的決策邏輯和鏈路天然存在大量不確定性,如果不能很好地量化這種不確定性、提供可理解的決策邏輯和依據,一旦AI決策任務出錯,可能引起巨大風險,乃至威脅生命安全。
要讓每個決策具備極高的可靠性,更進一步是算法攻防安全。
算法普遍存在的「對抗樣本」特徵,導致AI系統存在被惡意攻擊的風險。基於對抗樣本技術,黑客可繞過整個網絡和系統安全防禦機制,僅通過簡單偽裝,就從AI算法引起的新漏洞讓應用出錯。
比如戴上一副「對抗樣本」眼鏡,就能破解手機或智能門鎖的人臉識別解鎖,或是偽裝成他人完成銀行和政務系統的身份認證,竊取財產。
穿著「對抗樣本」T恤,亦可逃開監控,在目標檢測算法下宛如來去自如、不被知曉的「隱形人」。
此外,AI的一些應用場景還涉及道德倫理問題。比如用深度偽造技術製作的「換臉」視頻,已經被一些不法分子用到黑產;再比如AI信貸風控模型中存在對於特定地區通過率較低的「倖存者偏差」,人臉識別的種族歧視等一系列算法公平性問題,以及技術濫用引發金融欺詐,甚至是政治宣傳引導輿論等等。
當惡性AI安全事件頻現,如何平衡AI發展與安全保護?面對公眾和企業日益關注的數據隱私保護、金融反欺詐、檢測防禦算法漏洞、精準甄別AI偽造素材等難題,一家名為瑞萊智慧RealAI的初創公司提出了一系列保障AI落地安全性的有效方法。
02.
用AI防火牆、編譯器解鎖AI安全難題
瑞萊智慧RealAI孵化自清華人工智慧研究院,深耕安全、可靠、可信、可擴展的第三代人工智慧,已經推出涉及隱私保護、AI「防火牆」、深度偽造檢測工具等多類涉及AI安全的平臺產品。
在瑞萊智慧RealAI CEO田天看來,當在應用中碰到技術難題,與其見一個解決一個,不如見一個問題就看到一類問題,並通過底層技術框架、平臺的突破,助力產業的升級。
經過兩年多的發展,RealAI第一次公開展示其基於第三代人工智慧技術手段的AI原生基礎設施藍圖,覆蓋算法可靠、數據安全、應用可控三個方面的安全難題。
1、提高算法可解釋性的機器學習建模平臺
針對金融等場景迫切需要更加可解釋的建模任務的需求,RealAI去年推出RealBox可解釋機器學習建模平臺,目前已在多家金融機構實際使用,並通過了中國人工智慧產業發展聯盟的首批可信AI認證。
基於可靠可解釋的AI平臺和算法,可以使得智慧理財產品風險可控,提高資產配置和利用效率。
2、增強算法安全的商用AI殺毒軟體和防火牆
面對算法可靠問題,RealAI開發了業內首個商用人工智慧安全平臺RealSafe。
這一平臺相當於是針對AI算法的殺毒軟體和防火牆,能對AI安全性進行全面的標準化檢測和增強,已檢測發現了一系列市場上主流AI產品的安全隱患,並提供了多種相應的防禦升級措施。整個檢測過程全界面化操作,用戶無需具備專業的模型安全算法知識和編程開發經驗。
大幅升級後的RealSafe2.0版本,將可評測的應用場景從人臉識別模型拓展到了目標檢測、圖像分類模型;在檢測抗對抗樣本攻擊的安全性基礎上,新增針對圖像分類模型的後門漏洞自動化檢測等功能;並提供了對抗樣本去噪方法、對抗樣本檢測方法、對抗訓練方法等安全性提升方案。
在AI安全平臺的保護下,企業可提供更加安全、受保護的刷臉支付系統,從而使得刷臉門禁、刷臉門鎖等產品更為安全可用。目前,RealSafe平臺已在工信部重大建設項目以及某電網公司落地應用,未來將集成更多安全風險的檢測能力。
3、解決數據安全問題的隱私保護AI編譯器
面對數據安全問題,尤其為解決AI應用過程中的數據孤島難題,RealAI最新推出業內首個編譯級的隱私保護機器學習平臺——RealSecure隱私保護機器學習平臺(RSC)。
該平臺結合了人工智慧、密碼學、分布式系統三大領域的技術突破,其核心模塊「聯邦AI編譯器」能夠自動將普通機器學習算法程序轉換為分布式、隱私安全程序,大幅降低隱私安全的AI商業應用門檻。
得益於底層編譯級的能力,該平臺通過實現「算子盤」和「數據流圖」兩大功能,具備三大性能優勢:
(1)訓練速度實現30倍以上提升:在加密算法方面應用全同態技術,打破半同態技術功能與性能上的桎梏,性能提升2-3個數量級;在AI算法優化方面,收斂速度更快,迭代次數少。
(2)白盒可驗證的安全性:以首創數據流圖形式,將所有中間計算過程安全透明的展現給用戶,內部算子執行完全公開,實現安全透明的隱私保護通訊協議。
(3)易用性:擺脫重複改寫的繁瑣工作,處理方式由「雕版印刷」轉變為「活字印刷」。
這使得金融等場景在合規、隱私保護的前提下,可實現基於多方數據聯合建模,從而顯著提高智能風控、反欺詐、小微普惠、精準營銷、AI醫療等智慧決策應用的效果。
4、精準判斷AI深度偽造內容的檢測工具
面對應用可控問題,RealAI推出DeepReal深度偽造檢測工具和一體機,能高效精準地判斷視頻、圖片等內容素材是否是經過AI偽造生成的,避免相應輿情。DeepReal入選了國家工信安全中心人工智慧優秀產品,基於其核心技術,RealAI獲得了GeekPwn2020年深度偽造檢測項目冠軍。
這一深偽檢測能力,可以幫助公共安全部門,提高對各個渠道虛假內容的管控能力,防範相應傳播風險。
03.
針對不同行業的差異化智能方案
在商業模式上,RealAI將其AI基礎能力與對行業業務的理解、對產業智能化升級方法論的認識做結合,打造了針對不同行業的智能化產品和解決方案。
例如在金融風控場景中,數據有偏問題是一個突出問題,傳統建模過程中用到的數據都是經過層層篩選、最終跑過整個借貸業務流程的「好」樣本,以及他們的貸後表現標籤。而如何評估沒有貸後表現的拒絕客群、挖掘其中的優質客戶一向是行業難題。RealAI採用自研半監督回撈模型,大幅提高對拒絕客群質量的識別能力,實現撈回客群與原風控放款客群風險一致下,幫助金融機構零成本提升10%的資產規模。
在理財場景中,需要對資產未來的流動性做出判斷,以提高資產配置效率。RealAI使用貝葉斯深度學習,大幅度提高流動性預測的精度,同時降低了不確定性,避免重大預測失誤,從而助力實現理財產品的動態管理模式,為基金創造了更多的可用投資資金,提高基金競爭力。
在傳統基建場景中,大壩結構安全性預測需要根據各類檢測器數據,來預測結構安全隱患。由於數據中噪聲大,存在缺失,RealAI通過生成式模型解決數據缺失問題,參數相互補全與異常檢測等,可大幅提高預測準確率。
在刷臉支付場景中,人臉識別技術往往受到對抗樣本等攻擊行為的威脅,RealAI用AI對抗攻擊算法全面發掘人臉模型漏洞,並提供相應的防禦提升方案,從而幫助提供更安全的刷臉支付系統。
瑞萊智慧RealAI CEO田天透露道,RealAI的下一步,將從研究、平臺和產業賦能三方面持續發力,基於第三代人工智慧技術打造AI原生基礎設施,並提供針對行業的智能化產品和解決方案,加速安全、可信、可靠的產業智能化升級。
04.
為什麼需要邁向第三代人工智慧?
如何打破現階段AI技術的局限,兼顧人們對數據安全和算法可靠的訴求?如何從基礎研究層面補齊算法短板,發展出安全、可靠、可信的AI?這是許多AI產學界學者專家,正著力尋找的答案。
今年9月,清華大學人工智慧研究院院長、中國科學院院士張鈸教授在《紀念《中國科學》創刊 70 周年專刊》上發表署名文章,首次全面闡述第三代人工智慧的理念。
在2020第三代人工智慧產業論壇中,張鈸院士再次詳細解讀了對於第三代人工智慧的觀點。他認為,數據安全性主要涉及兩點,一是智慧財產權保護,二是隱私問題;算法安全性是傳統信息處理中不突出的,是人工智慧特有的。
為什麼算法不安全?本質性問題有三點。
第一,向量是信息的展現形式,但如果應用到涉及語義的場景,向量跟語義空間映射是多對一。
第二,語義空間不是距離空間,是離散的層次空間,而向量是一個連續的空間,兩者根本對不上。比方說馬和石頭在語義上的相似性很低,但到了特徵空間,兩個詞就可能距離很近,非常容易受到幹擾的攻擊,致使算法推廣能力很差,應用場景受到很大的限制。
第三,缺少語義的基於條件概率建模的「黑箱」學習方法,對噪聲攻擊的安全性很差。傳統信息處理噪聲攻擊,只能降低質量、清晰度,現在攻擊算法可以讓機器把一張馬的照片看成一塊石頭。如果算法不安全、不魯棒,則難以實際應用。
這三條導致當前AI算法存在推廣能力差、很脆弱、易受噪聲幹擾、會犯嚴重錯誤等缺點。要解決這些問題,則需建立魯棒和可解釋的AI理論,發展安全、可信、可依賴、可擴展的AI技術,提升創新應用,也就是邁向第三代人工智慧。
第三代人工智慧的基本思路是將第一代人工智慧的知識驅動和第二代人工智慧的數據驅動結合,充分利用知識、數據、算法和算力這不可或缺的4個要素。張鈸院士認為,從目前我國發展情況來看,我們更要強調知識。
如感興趣關於第三代人工智慧的更多技術思路,推薦閱讀《邁向第三代人工智慧》全文。
文章連結:http://scis.scichina.com/cn/2020/SSI-2020-0204.pdf
05.
人工智慧安全框架(2020年)藍皮書解讀
在工業和信息化部網絡安全管理局的指導下,中國信息通信研究院聯合瑞萊智慧、百度、騰訊、360、中科院、新工所等等多家機構,聚焦當前AI基礎設施及設計研發階段面臨的安全風險,撰寫了《人工智慧安全框架(2020年)》藍皮書。
據中國信通院安全所信息安全研究部主任魏薇介紹,這本藍皮書的主要創新體現在三方面:一是針對AI風險視圖缺失問題,描繪了AI全生命周期的風險地圖;二是針對AI安全框架全球缺失的情況,提出了AI安全框架;三是針對AI安全技術實施缺乏指導的問題,撰寫了AI安全技術藍皮書。
該藍皮書主要包括四個部分,第一部分介紹了AI的安全風險和技術現狀,第二部分提出了AI安全框架,第三部分對詳細解讀如何實施AI安全技術,第四部分挑選三個重點領域介紹了AI重點應用的安全防護實踐。
藍皮書從六個方面提出AI安全目標,包括應用合法合規、功能可靠可控、數據安全可信、決策公平公正、行為可以解釋、事件可以追溯等。
魏薇說,在AI安全的這些技術熱點當中,聯邦學習、差分隱私機器學習和深度偽造,這幾個技術相對來說商用步伐最快,現在已經有工業及產業級的產品,並且在部分領域開展一些試點應用。對抗樣本攻擊和防禦、模型和解釋性等,目前主要處於學術研究轉為商用應用的探索期,是全球包括麻省理工等知名高校以及微軟谷歌等科技巨頭競相布局的一個重點方向。
總體而言,魏薇認為AI安全技術較多處於研究實驗試用階段,針對AI應用的成熟安全產品和服務體系目前相對較少,產學界都還在探索,希望在AI安全技術領域能有更多突破和貢獻。
06.
結語:AI產業正尋求新發展思路
在瑞萊智慧RealAI CEO田天看來,繼承自網際網路時代的經驗,當前AI基礎設施建設的重心集中在數據中心、算力平臺上,主要解決AI「溫飽」問題,為AI提供基礎運算環境。但隨著數據積累受場景限制、現有算力逼近極限,由大數據、大算力等外部驅動力帶來的AI產業「第一增長曲線」開始放緩。
而實現算法可靠、數據安全、應用可控這三項能力的AI原生基礎設施,將有助於驅動AI產業的「第二增長曲線」,在保證相同的數據、算力條件下,打開AI產業化全新市場空間。他提到,RealAI的目標就是補全AI原生基礎設施體系。
如今AI安全的重要性日益激增,在官方報告中也被越來越多提及,我們期待看到通過更多產學研界的開放式協作,探索更多有效的AI安全技術方向,為AI產業進一步拓展良性發展與落地空間。
本文福利:人工智慧基礎設施、設計研發以及融合應用面臨的安全風險日益凸顯。推薦精品研報《人工智慧安全框架(2020年)》,可在公眾號聊天欄回復關鍵詞【智東西139】獲取。
(本文系網易新聞•網易號特色內容激勵計劃籤約帳號【智東西】原創內容,未經帳號授權,禁止隨意轉載。)
喜歡此內容的人還喜歡
原標題:《數據風險、算法黑箱怎麼破?這家創企用AI化解安全難題》
閱讀原文