魚羊 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
一家清華孵化的公司,最近「口出狂言」了。
回顧2020的AI大事件,燒了微軟10000張GPU的GPT-3必定榜上有名。
這也讓人們不禁感嘆:這年頭,AI簡直就是「暴力美學」。
但就在行業內的大多數仍在大數據、大算力這個方向上狂奔的時候,這家公司另闢蹊徑找尋不一樣的AI落地之路:
AI落地,不是僅僅靠大數據、大算力就能解決的問題。
AI產業落地速度不及預期,是AI算法本身的問題。
是時候從AI自身底層能力增強出發,打開數據和算力之外的全新發展維度了。
還不只是說說而已,最近,在「2020第三代人工智慧產業論壇暨瑞萊智慧RealAI戰略發布會」上,他們還真就將清華實驗室裡最前沿的第三代人工智慧技術體系搬了出來,商用化落地了:
首個編譯級隱私保護機器學習平臺RealSecure,讓隱私保護學習從「雕版印刷」走向「活字印刷」
首個企業級人工智慧安全平臺RealSafe,相當於AI算法的「殺毒軟體」
還有可解釋機器學習建模平臺、拿下了世界冠軍的deepfake「殺手」……
張鈸院士還在親自給這家公司的產品路線定下了關鍵詞:發展安全、可信、可靠和可擴展的AI技術。
公司的名字,叫RealAI,孵化自清華人工智慧研究院。
所以,RealAI基於第三代人工智慧技術打造的產品,究竟有何不同?
AI發展的新維度,又具體指的是什麼?
一起來看個究竟。
RealSecure:首個編譯級隱私保護機器學習平臺
在AI技術越來越強調落地產業的當下,數據作為一種新型生產要素,是各行各業數位化、智能化轉型中繞不過去的基礎一環。
那麼,問題就來了:
現實的情況就是,在很多高價值商業場景,如金融、醫療、交通場景中,有價值的數據常常分散在不同的機構和用戶手中,形成了大大小小的數據孤島,明顯制約了AI能力的提升。
但想要數據出庫,打破數據孤島,卻又面臨著一個更為棘手的難題:隱私安全如何保障?
分布式隱私保護機器學習,就是為應對這一問題而生的一種新興解決方案,它能使多方合作完成學習目標,但又不需要各方傳輸原始數據,可以做到「數據可用不可見」。
這並不是一個全新的概念。事實上,早在2016年,谷歌就在這個技術方向上提出了聯邦學習的概念。但時至今日,相關技術的商業化應用仍然面臨著三大痛點:
1、性能差、速度慢
由於隱私保護機器學習需要多方配合執行,中間的通信就會造成很大的性能損失。
另外,多方需要以加密形式完成參數交換,加密會帶來高達百倍的性能損失。
同時,由於超參數設置等與現有的機器學習生態存在差距,隱私保護機器學習的速度慢了近千倍。本地只需花費幾十秒的模型訓練,在隱私保護下卻需要數小時;特徵篩選、調參、驗證又需要幾十上百次重複運行……
2、不兼容於現有機器學習生態,改動投入大
隱私保護機器學習不同於傳統機器學習,是分布式、密碼學、人工智慧三個領域的結合。
要想投入商用,各家機構需要組織團隊學習分布式、學習密碼學;學習使用新算法、新框架,並在新平臺下執行程序。
這相當於拋棄了長期以來人工智慧團隊積累下的經驗和方法論,重建隱私保護機器學習團隊,或堆人力將原有機器學習框架改寫成隱私保護機器學習框架。
投入與代價之大,正是隱私保護機器學習難以商業化落地的重要原因之一。
3、無法自證安全性
隱私保護最核心也最本質的問題是保障數據的安全,這就要求平臺自身的安全性也應該是可被檢驗的。
但當前的隱私保護機器學習模式是純黑盒的,安全性只能靠專家審計——由於平臺代碼量巨大,這對於商業化應用其實是不現實的。
且實際生產環境中,是否真的按照審計時提供的代碼邏輯執行,同樣會受到來自客戶的質疑。
而RealAI這次推出的隱私保護機器學習平臺RealSecure (RSC),就從底層技術創新出發,針對這三個問題來了個逐一擊破。
據RealAI介紹,RealSecure是業內首個編譯級隱私保護機器學習平臺,其研髮結合了人工智慧、密碼學、分布式系統三大領域的技術突破。其核心模塊隱私保護AI編譯器能夠自動將普通機器學習算法程序轉換為分布式的隱私安全程序。
密碼學+AI算法雙重優化,性能提升約40倍
藉助密碼學優化、AI算法優化等改進實現,RealSecure在性能上實現量級式飛躍。
在某實際風控場景中,RealSecure模型訓練相比某主流國產開源框架性能提升40倍,耗時從4小時40分鐘縮減至6分鐘。考慮到特徵工程與自動調參環境,隱私保護下完成全流程建模,總耗時實現從日級別到小時級別的飛躍。
繼承機器學習生態,實現「活字印刷」級隱私保護機器學習
而所謂的兼容主流機器學習生態,可以簡單理解為,通過RSC,已有的成熟機器學習算法無需改寫,只要調用函數,在AI編譯器裡重新編譯一遍,就能自動完成從普通機器學習算法到隱私保護機器學習算法的轉變。
這樣的功能基於算子層技術實現。
具體而言,就是將隱私保護機器學習算法公式表達向更細顆粒度解構,解構成「算子」,通過算子的靈活組合來適配機器學習算法公式,擺脫重複改寫的繁瑣工作。
RealAI CEO田天打了一個比方:
如果說此前將機器學習算法改寫成隱私保護機器學習算法的方式,是「雕版印刷」,RSC實現的就是「活字印刷」。「算子」就是活字印刷裡的一個個活字。
也就是說,RSC能完成現有機器學習算法平臺框架與隱私保護機器學習平臺框架的統一。
另外,RSC還對外提供了jupyter建模入口,讓數據科學家能夠以最熟悉的方式使用隱私保護機器學習,進一步提升了易用性。
安全透明,「所見即所信」
在安全性方面,RSC以首創數據流圖的形式,將所有中間計算過程、內部算子執行完全公開,底層執行的計算同樣是可審計的。
這就保證了兩點:
算法協議是安全的,所見即所信;
底層的執行與算法協議是一致的。
RealSafe:AI算法的「殺毒軟體」
數據隱私安全之外,針對算法的可靠性,RealAI這一次也全新升級了首個企業級人工智慧安全平臺RealSafe。
網絡安全時代,網絡攻擊的大規模滲透催生出殺毒軟體,來發現計算機潛在病毒威脅,提供一鍵系統優化、清理垃圾跟漏洞修復等功能。
而現在,越來越深入到人們日常生活中的AI算法們,也正在面臨類似的安全風險。
以人臉識別為例,去年,RealAI就通過一副印有特殊紋理圖案的對抗攻擊眼鏡,成功「刷臉」解鎖了他人的手機。
而量子位此前也曾報導過,有研究人員採用模型後門攻擊技術,僅用一條膠帶就把特斯拉忽悠瘸了,把35看成85,導致了異常加速。
是不是有些細思極恐了?
那麼,有沒有一個AI平臺,能一鍵檢測算法漏洞,並給出防護建議呢?
RealSafe做的,就是填補這麼一個空位,一方面能夠對AI模型的安全性進行全面檢測,另一方面能提供多種增強安全性的方案。
在模型安全性檢測方面,在全新升級之後,除了能針對對抗樣本攻擊,給出安全評分以及將檢測場景從人臉識別拓展到了目標檢測、圖像分類外,RealSafe 2.0還增加了模型後門檢測功能,能夠在不獲取模型結構及參數等具體信息的情況下,分辨出僅在特定輸入情況才會識別出錯平時表現正常的被植入後門的模型。
並且,整個檢測過程全界面化操作,用戶無需具備專業的模型安全算法知識和編程開發經驗。
而在模型安全性提升方面,RealSafe平臺提供包括對抗樣本去噪、對抗樣本檢測、對抗訓練在內的多種防禦解決方案,並可以自動化評估每種方案針對被測模型的安全性提升效果。
值得一提的是,受益於研發團隊豐富的AI對抗攻防經驗,RealSafe集成多項國際領先的AI對抗攻防算法,榮獲多項世界AI安全大賽冠軍,其中部分已開源成果作為代表性方法已被業內廣泛引用。
目前,RealSafe 已在工信部重大建設項目以及某電網公司落地應用。
「AI落地,不是僅靠大數據、大算力就能解決的問題」
事實上,從RealAI埋頭苦幹兩年,打造的一系列產品可以看出,這家從清華園裡走出來的公司,正在圍繞算法可靠、數據安全和應用可控三大方向,構建AI基礎設施能力。
而這,也正是張鈸院士今年以來反覆強調的第三代人工智慧之路。
在紀念《中國科學》創刊70周年的專刊中,張鈸院士作為通訊作者發表了文章《邁向第三代人工智慧》,指出是時候把第一代的知識驅動和第二代的數據驅動結合起來,通過利用知識、數據、算法和算力等4個要素,構造更強大的人工智慧。
而清華博士、RealAI CEO田天和他的團隊,則站在產業的角度,解讀了這種「另闢蹊徑」的必要性。
數據和算力,解決了AI的溫飽問題,作為「外部驅動力」,驅動了AI產業「第一增長曲線」的出現。
但隨著AI賦能傳統行業的逐步深入,這樣的增長模式瓶頸已然顯現。
田天指出,傳統行業由於場景複雜和隱私安全等因素,無法完全依賴行業大數據提供足夠信息,同時新一輪的算力躍進還未到來,這就導致AI在許多小樣本的高價值場景,如金融、工業、醫療等領域中,落地速度不如預期。
因此,想要進一步推進AI發展,在數據平臺和算力平臺之外,要從AI自身底層能力增強出發,打造AI原生基礎設施,發展出AI的「內生驅動力」,從而在相同的數據、算力條件下,更好地支撐AI賦能產業,打開AI產業化全新的市場空間。
而第三代人工智慧技術體系,包括貝葉斯深度學習、可解釋機器學習、AI安全對抗攻防、新一代知識圖譜、隱私保護機器學習等技術,恰恰為打造AI原生基礎設施提供了支撐。
也就是說,從產業化的需求來看,產業落地本身就是需要第三代人工智慧來開創新局面的。
那麼,RealAI會在這個過程中扮演一個什麼樣的角色呢?
田天給出的答案很「底層」:打造完整的AI原生基礎設施體系,使得所有場景不論大小、不論價值高低,均能在AI發展過程中受益。
而這,或許也就是RealAI與其他AI公司不同之處:通過與清華大學的緊密合作,能夠在技術上堅持長期主義,立志在工業界推動底層技術的變革。
田天說:
在應用中碰到技術難題時,我們不是見一個解決一個,修修補補,而是發現一個問題就看出一類問題,並通過底層技術框架、平臺的突破,助力產業的升級。
底層技術是我們最領先的一個優勢,未來會繼續保持下去。
— 完 —