同盾AI研究院深度學習首席專家李宏宇:解構知識聯邦,開創數據...

2020-12-22 雷鋒網

近日,同盾科技人工智慧研究院深度學習首席專家李宏宇做客雷鋒網公開課,以《知識聯邦:開創數據「可用不可見」新局面》為題進行分享。

此前同盾在數據聯邦、聯邦學習和安全多方計算的基礎上演化出統一框架體系「知識聯邦」,並基於知識聯邦體系發布了國產原創、自主可控的智邦平臺(iBond)及《知識聯邦白皮書》。

本次課程中,李宏宇詳細講述了知識聯邦的技術細節,以及信用分評估、多頭共債風險、用戶體驗A/B test等多個典型場景的聯邦學習應用案例。

以下為李宏宇課程全場和互動問答精選,雷鋒網AI金融評論做了不影響原意的編輯:

天平兩端:數據隱私性和便利性

兩年前,我們接觸到區塊鏈和聯合建模中數據安全需求,就已在探索聯邦學習應用。

近年來聯邦學習熱度變高,一個主要原因還是數據孤島現象,不僅僅有邏輯上的存在,也有物理上的。不止特徵變量是孤島,也可能是更關鍵的學習當中的標籤,形成了割裂的形象。

在機構間,尤其政府部門,很多數據沒有充分共享。又比如醫療,保險公司希望用醫院的數據做健康險或壽險的風險評估。銀行和稅務,也希望通過銀稅合作來獲取客戶的風險評估信息。

企業內部也如此:集團化的企業公司越來越大,子公司、分公司,就連部門內部的系統,都可能是自己分別開發的,數據之間完全孤立。

再微觀一點,每個用戶的數據都有很大的價值,想要生成一組通用的用戶畫像,要獲取到足夠多的用戶數據非常困難。

消除行業數據孤島現象,讓數據相互之間協作起來,必然是未來發展趨勢。

另一種現象,就是隱私換便利,數據不斷地洩露導致詐騙。

為什麼會不斷洩露?很大的一個原因,現在免費使用一些APP時,使用前都要用戶授權,獲取相關數據。這些其實都是你的個人隱私,個別內部人員可能會拿著你的數據對外變現,產生詐騙行為。

用戶隱私都赤裸裸暴露在網絡的服務提供者面前,個人隱私當成商品買賣已經是非常普遍的現象。有調研顯示,70%以上的社會公眾對於當前他們的個人信息是沒有安全感的。

近期也有傳聞說國外黑客論壇在出售中國很多金融機構的信息。不一定真實,但很多人心裡也會緊張。

現在國際上和國內上的立法慢慢出現,這兩年中國在數據安全和隱私保護相關已經做了很大的工作。

2019年有數據安全管理辦法,這也可能會是未來數據安全法的早期版本;數據交易服務安全要求也做了一些相應的新規定。今年3月份有個人金融信息保護技術的規範。

想要這些數據完全閉塞,不共享數據,這不現實,要把這些有經濟價值的數據充分利用起來。這就要在數據的隱私性和便利性之間尋求平衡。也正是這樣隱私保護的需求,未來會出現一系列新的技術浪潮。

有很多人對數據安全沒有非常清晰的認識。這裡我借用數據安全能力成熟度模型的定義來分享。

數據安全的核心,其實是以數據為中心的安全,它的目的仍然是保護數據的可用性、完整性和機密性。數據在安全的同時,要保證它可用。

合法合規的情況下,怎樣做數據交易?它的定義是,在數據供需雙方以數據商品作為交易對象。

這裡的重點就是:數據商品是什麼?直接拿原始數據買賣,屬於數據商品,而對原始數據加工處理後的一些數據衍生產品也屬於數據商品。

另外一個更被大家關心的,就是隱私保護,在國內更多時候會稱之為個人信息

什麼是個人信息?所有能夠單獨或結合識別特定自然人身份的那些信息,甚至是反映活動情況的信息,都叫個人信息。

什麼是共享?如果你是信息的控制者,你將信息共享給對方,就讓對方擁有了控制權,在這之後你可能就沒有撤回或是拒絕的權利了。

這是共享最大的一個痛點,新版的個人信息安全規範裡面會看到很多關於信息共享的要求。

有用性,這是數據的一個非常重要的特點,就是數據對於應用一定要有具體的含義,要不然這個數據就沒有價值了。

為打破數據割裂和避免隱私洩露,數據可用不可見就成為一個重要的目標。數據可用不可見,即充分利用對各方的數據,讓數據保持對外開放,同時能夠讓數據不直接共享,不離開機構或個人

在楊強老師的課程裡有提到過,數據不動模型動,這是能夠解決數據可用不可見的一種方式。但它的核心是要去訓練一個模型。而數據可用不可見,不一定需要做建模這件事。

還有很多時候可能只是想做計算,這就不再是訓練模型的事情,而是開放和不共享的問題。

開放不共享,就像國家之間在能源材料的合作中,每個國家有一些核心資源如鐵礦石,類似於機構的基本生產數據。

很多國家禁止出口這種核心的資源,相當於是不能直接共享。但對於鐵礦石加工後的鋼鐵製品,他們卻開放出口的。

也就是說,數據經過加工之後,形成了一種半成品的形態,它是可以開放出去使用的,而不是用一種直接共享或直接訪問原始數據的方式。

這樣看來,我們其實可以也做到數據可用,但又不可見。換句話說就是,「懂你不認識你」。

懂你不認識你」主要針對個人用戶。舉個例子,很多人的瀏覽習慣或行為會涉及到個人隱私,這些數據是不希望直接對外共享的。

但是我們又很希望能夠獲取到很多便利服務,讓手機更懂自己,在需要的時候能夠提供相應的推薦,讓軟體做得很智能、很貼心。這時就可以採用數據可用不可見的形式。

為了實現數據可用不可見這個目標,傳統的中心化計算模式,也就是大數據經常會做的中心化聚集,把數據存儲聚集再學習訓練,已經不能滿足要求。

中心化不可行,那就讓數據分散在各個機構形成,依然保留著所謂的小數據模式——相對來講是小數據,當然也有很多機構的數據量已經很大——採用分布式或去中心化方式計算或學習。

原始數據直接共享不可行,我們可以採用兩種方式,一是對數據進行加密,加密後也不破壞原始數據的統計特性。

第二種方式,可以將數據知識化,也就是說將數據轉化成為一種模型策略的知識,然後再把這些分散的知識聚合在一起,實現數據的可用。這就是知識聯邦的大致構想。

知識聯邦全景圖

知識聯邦從名字上看,有清晰的兩個主題:知識和聯邦。

什麼是知識?這個概念源自於我們談論數據和信息。

數據一般被認為是原始素材,客觀描述客觀事物的數量、屬性、位置等關係。

信息則是經過加工處理之後、具有邏輯關係的數據,通常會是對決策有價值。

知識,更多是在信息層上再進一步地歸納演繹之後,沉澱下來的有價值的信息。通常情況下,知識被認為是與決策有關的。

智慧是有了知識之後,才能進一步預測和判斷未來,這可能是未來智慧城市或智慧決策的目標。

數據、信息和知識經常被混用,三者的界定和使用者有很大關係。

比如某個經過加工的數據,它可能對某人而言是一種信息,但對另外一個人來說可能只是一個數據。

在某種語境下產生的一個知識,在另外的語境裡可能就是信息,甚至是根本沒有任何意義的數據。

從知識再跳到聯邦,其實聯邦才是我們的重心,其實想做的事情,最終是希望通過一種安全的方式解決數據孤島現象。

在知識聯邦裡,聯邦本質其實是一種數據的安全交換協議

之前還有數據聯邦,其實它跟知識聯邦差別很大。數據聯邦更多是一種數據集成方法,它實際上就是聯邦資料庫系統,將不同來源的資料庫集成之後方便查詢。關鍵是它不涉及到隱私保護的機制。

知識聯邦其實是一套理論框架體系,目的是將數據聯合起來,轉換成為有價值的知識,同時在聯合的過程當中採用一些安全的數據交換協議。目的是有效利用各參與方的數據來進行知識的共創、共享和推理。

聯邦學習更強調怎樣訓練、學習、建模,創造知識。但事實上還有很多常識、先驗知識或領域知識不需要讓機器學習就可以去共享的,比如多源知識推理,這也屬於數據可用不可見。

在真正的實踐中,我們採用一種弱中心化方式。過去強中心化大數據集成方式是不可行的,主要是安全存在很大隱患。

但完全的去中心化,也很難兼顧效率。尤其是在進行共識計算的時候,效率非常低。弱中心化方式更多是一種強中心化和去中心化的折衷,在中心節點只進行計算,不對數據集成存儲,可以達到安全和效率的兼顧。

在知識聯邦的框架體系裡,我們不僅僅可以進行聯邦學習,同時也可以進行安全多方計算,也可以進行安全多方共享和安全多方推理。

事實上整個知識聯邦,與很多技術有一定關係,比如可執行環境和隱私計算。前者依託硬體,可以成為知識聯邦的一種硬體化實現方式。

隱私計算更關注的,是隱私數據從產生、收集、保存,甚至到銷毀,所有環節中保護(隱私數據)的方法。但在使用中,它偏於計算,而不包含學習的一些過程。

知識聯邦可以根據不同方式進行分類。

根據數據的特點分類分成跨樣本的聯邦、跨特徵的聯邦,甚至還有同時基於這兩種形式的複合型聯邦。

跨樣本的聯邦更多是同構的數據,數據特徵一致,但數據擁有方式不同。跨特徵的聯邦,更多會存在不同的機構間。當然這還是要有相同的、有交集的用戶才能進行跨特徵的聯邦。

除了這兩種形式之外,更複雜的是既要跨樣本又要跨特徵複合型聯邦。

根據聯邦應用目的分類可以分為聯邦計算、聯邦學習、聯邦推理等。剛才提到聯邦學習包含的主要是訓練和預測兩個階段。

最早谷歌做聯邦學習,更強調訓練。訓練結束後,模型預測直接發送到各個客戶端的手機,用戶自行預測。但在跨特徵聯邦,聯邦訓練和聯邦預測都會遇到非常複雜的問題。

聯邦計算,類似於安全多方計算。

聯邦推理,更多是知識層上的推理過程。

比如疫情期間,為了調查患者周圍的可疑人群,會涉及到很多數據,包括行為軌跡、社交網絡、住宿交通等等。

但這些放在一起不是單純再訓練,是想把已有的知識做更多的知識演繹,推理出來新的知識,最終鎖定嫌疑人群。

根據對象類型知識聯邦也可以分為是個體間、機構內和機構間的聯邦。機構間的聯邦大家都比較熟悉了,機構內部的聯邦其實也非常多。

比如大型跨國機構希望把在中國境內獲取到的數據,能夠幫助他們在東南亞、甚至是其他國家能夠有更大的幫助,但會涉及跨境數據交換的問題,此時機構內的聯邦就發生了。

根據聯邦階段分類分為信息層、模型層、認知層,和知識層聯邦。

信息層:主要發生在聯邦的數據轉到第三方的伺服器之前,需要先把所有數據加密,或通過某種形式轉換成為有價值的信息。

模型層:發生在模型訓練過程中,跟之前提到的聯邦訓練的過程實際上是一致的。

認知層:也發生在模型訓練過程中,但並不把模型參數聚集在一起聯動,而是把局部訓練之後產生的粗淺認知進行聯邦,變得更合理。

知識層:前面形成很多認知結果之後,把它存成知識庫。這種知識庫其實每一家機構都有,能夠組成一個知識網絡。如果在知識網絡上不斷推理和演繹,挖掘出更有價值的知識,能提前預判事情的發生,最終形成合理決策。

比如疫情爆發最終導致全球股票、期貨大跌; 比如黑龍江等地成為二次爆發疫情的高風險區,其實這些都是知識推理的過程。

具體來看,信息層聯邦在隱私保護方面,對加密技術要求更高。加密技術沒有到位,就無法很好保護參與方數據。所以信息層的聯邦一般要求數據脫敏加密之後,一定是以密文形式在第三方伺服器上計算。

信息層更多應用在聯邦計算的過程當中,比如金融經常出現的多頭共債問題。在大產品的運維和升級過程中,經常會做的比如A/B test,這些都可以在信息層完成。

信息層也可以做聯邦學習的工作,但它不是在每一個參與方向去做訓練學習,而是把所有的密文數據直接放在第三方伺服器上,再在密文上訓練學習。

除此之外,還可以在信息層上做聯邦檢索。比如失信人員黑名單的查詢,這也是一個普遍存在的需求。

跨特徵聯邦時,需要做的用戶對齊可以在信息層上完成。

模型層,是用本地數據訓練本地模型,把模型參數變化加密之後,傳送到第三方進行聚合。

認知層,是在每一個參與方訓練本地的數據,提取本地的模型的特徵表達,加密之後上傳到第三方伺服器,實現集成。

這種應用主要出現在多模態智能信貸、智能身份認證。

在跨樣本聯邦中,認知層有點類似於機器學習裡的集成學習,不過聯邦會更關心數據隱私保護。

關於知識聯邦的更多技術細節,可以查看我們近期發布的白皮書。

何為工業級應用產品智邦平臺?

智邦平臺的核心有四大模塊,第一是任務場景

現在平臺中的任務場景還需要定製開發,一個場景需要定製一個模型。一個常見問題是,以前有很多面向不同任務場景已經建成的模型,現在還沒有辦法快速聯邦化。

第二個模塊是功能服務。智邦平臺解決的是真實應用中會遇到的問題,比如模型發布,參與方之間的數據貢獻怎麼衡量?費用怎麼統計?

第三個模塊是開放計算平臺。平臺會模塊化,並支持開放式、自動化建模,方便快速建模的操作。

第四個模塊是基礎設施。基礎設施更多是一些通用組件,提供底層服務。計算平臺和相關依賴採用容器化方式,能讓部署更方便快速。

除了四個核心模塊這裡有兩個關鍵的中間件,一是通信設施,二是數據交換沙箱。

跨樣本聯邦相對來講比較容易落地,但跨特徵聯邦必須要有這麼一個多元異構數據的交換沙箱才能夠完成,尤其是在內網外網的通訊。這裡涉及到的更多工作就不再展開了。

跨樣本時,有很多深度模型、樹模型都可以直接採用,但跨特徵聯邦很多模型需要定製。

尤其是在金融行業,大家更關心模型的可解釋性,所以很多時候都不用深度模型,而會選擇樹模型。智邦平臺就提供了包括深度模型、樹模型在內的一些聯邦算法可供用戶選擇

跨樣本聯邦中還有一個常見問題是,用戶數據太少,也就是小樣本的問題。平臺中也提供了基於小樣本進行聯邦(學習)的方案。

簡單來講,平臺三大亮點是:安全、智能和實用。平臺通過聯邦的數據交換沙箱和安全交換協議來解決安全性問題;平臺提供多種智能模型供大家自由選擇;同時從貢獻的評估到計費,平臺提供了一系列功能解決實際應用問題。

網絡安全方面,將網絡安全域劃分成參與方的私有域、交換域和聯邦域三部分,數據交換發展在交換域,聯邦集成是在聯邦域完成。

數據安全和隱私保護方面,從隱私數據處理到模型數據的傳輸,平臺提供了多種安全加密方式,保證不同機構間交集外所有用戶數據的安全性。

不過對於聯邦平臺的安全性和隱私保護等級,目前為止還沒有一個類似等保的標準,能對平臺工具進行等級認證。

事實上,對於數據安全,應該要從數據流通的全過程進行評估。對每一個涉及到數據隱私的地方,都要衡量採用的隱私技術所能達到的隱私保護等級。我們也在聯合多家單位一起推動相關等級認證標準的確立。

在金融行業應用中,很多時候大家弄不清楚哪些數據屬於隱私、敏感程度達到什麼程度。今年3月,央行出臺的個人金融信息保護技術規範,把很多金融信息分成了 C1、C2、C3的等級。根據敏感等級,可以採用不同的技術手段進行數據去標識化和脫敏。

在聯邦應用中,經常會涉及到的主要還是C2級數據。C1級敏感數據,更多是標記信息。不過C1、C2、C3的劃分也具有相對性,當相同的信息組合在一起,敏感度也會升級。所以考慮數據隱私保護,必須要在一開始就要做數據分級完整規劃。

總的來說,智邦平臺是參照知識聯邦體系打造出來的一站式聯邦平臺。平臺在算法能力方面,不僅支持聯邦學習,還支持安全多方計算;也提供了非常樸實有效的一些算法;同時提供了聯邦特徵選擇方法,來保證參與方的數據質量。

安全機制方面,平臺提供了多種加密算法,比如在數據安全對齊中,平臺可以保證參與方交集外數據不會洩露。同時保證,標籤信息在訓練中不會參與傳輸。

而平臺最核心的聯邦數據安全交換沙箱則可以實現對數據標準化和脫敏處理,同時封裝了一系列數據安全交換協議,供聯邦使用。

實施應用方面,平臺在本地計算可以採用Spark計算方式,效率高,也方便和現有的機構大數據生態打通。同時系統採用容器化方式,方便部署實施。

五大應用場景詳解

智能金融風控統建模方式裡,運營商如果沒有y數據,無法單獨建模;雙方又都不可能暴露自己隱私數據。

智邦平臺中會先由中間方協調者分發一個模型,然後分別基於本地的數據計算梯度。

儘管運營商沒有標籤信息,但平臺在這裡採用了計算換安全的方式,也是基於不經意傳輸(OT)方法,把所有可能梯度都匯集到有標籤的一方,讓它篩選和聚合。這時可以在y標籤沒有被傳輸的情況下,快速完成模型迭代。

當然,這可能會讓計算成本高一點,但聯邦建模的隱私性肯定是要遠遠大於傳統聯合建模。如果不考慮通信問題,這兩種建模方式的收斂速度基本上一致。準確性也差不多。

小微企業信貸智能信審企業信審相對更複雜,會有公開數據、自有數據或是第三方數據,各方數據匯集在一起,形成完整信息模型,這是很大的工作量,於是我們有了這樣一個信審模型。

不過如果能利用調查、工商、司法等信息,可以進一步做聯邦推理,這時的信審才能算是完整的。

用戶行為聯合建模這是典型的跨樣本應用場景,要做的是無感認證

簡單說,輸入密碼的時候,我們每個人都有一些固定的輸入行為習慣,這些行為習慣能通過學習方法提取出相應特徵。

這就可以在密碼保護的同時,加一層無感認證,在輸密碼的時候自動判斷用戶行為,判斷輸密碼的是否為用戶本人。

但是每個用戶端不可能暴露自己的數據,同時也很難採集到每個用戶很多行為數據,這就要用到基於小樣本的聯邦元學習。

聯邦元學習的隱私性肯定會要大於非聯邦方式;準確率也會比非元學習高很多。

多頭共債累積風險聯邦計算很多機構都借貸評估時都會面臨一個問題:這個用戶有沒有在其他家做過貸款?他的風險是不是已經透支得差不多了?

這時就希望能得到很多其他機構的數據,這個過程通常不需要去訓練學習,而是會利用一些簡單的知識進行判斷。

累計借貸風險可以通過安全的統計計算方式,在保證各家數據隱私不會洩露的前提下,匯總計算出該用戶的累計借貸風險。

用戶體驗A/B test在自動化大運維平臺體系做A/B test,我們通常會分流出來一批用戶,然後判斷軟體上的某些改變會否讓他們的瀏覽行為習慣發生變化,是否會對他們有偏好上的影響。

我們可以統計用戶的信息,但不是直接收集用戶操作行為數據,而是分別在用戶端對他們的行為習慣進行統計計算,最終形成整體的統計特徵作為統籌決策的依據。

現實應用中,我們會面對很多分散的小數據,知識聯邦的目標是通過安全多方計算和學習,做到數據可用不可見,同時知識共建可共享。

智邦平臺作為知識聯邦參照實現的聯邦平臺,會逐漸形成一套開放的作業系統,用戶可以組建和參與不同的任務聯盟,或者從模型商店中選用不同的模型。系統逐步開放開源給大家,讓更多用戶參與其中,這也是我們整個智能開放作業系統的願景。

智邦平臺對銀行消金非常有價值,可以持續提升其核心競爭力,並提高其風控質量,讓其數據價值變現。同時,也可以幫助相應機構提升行業影響力,並滿足監管對於數據安全和隱私保護的要求。

總結一下,知識聯邦的落地實施有三個重點:

首先是連接,也就是連接多方,讓多方參與進來,才會有聯邦數據安全交換的問題。其次是智能,安全多方應用最終目的還是智能化應用,從多方數據中安全的提取和利用智能知識才是關鍵。最後是開放,一個體系框架的發展和落地應用需要大家廣泛的參與。

知識聯邦是一個開放的體系,智邦平臺也是一個開放的平臺,未來會逐漸開放出去,和大家合作共贏。

互動問答精選

問:一個子模型被攻擊,在模型聯盟過程當中會造成怎樣的安全風險?是否存在較完善的防禦策略?

李宏宇:其實模型攻防策略,不只是在聯邦過程產生,現在很多模型訓練都會遇到,這些策略都可以在聯邦中使用。如果子模型只是被幾次攻擊,而整體數據量比較大的話,在長時間的訓練過程中,攻擊的影響會逐漸退化掉。

另外,如果其他參與方很多且數據量非常大的時候,一個參與方的模型被攻擊,相對影響還是會有,但不會那麼明顯。

問:怎麼分配利益?如何衡量各方的貢獻?

李宏宇:智邦平臺提供了聯邦特徵選擇的方法,來保證用戶數據質量,遴選那些對於整個模型精度有提升、有幫助的特徵。模型精度提升的效果就是衡量貢獻並進行利益分配的一個標準。貢獻度評估方法其實有很多種,但在聯邦應用中落地實施還需要進一步技術突破。

問:聯邦學習或知識聯盟是否只是大廠的機會?

李宏宇:倒不一定。聯合建模也好,做聯邦也好,這都是應用導向的。但現在最困難的一個問題是,怎樣把這機構間多元異構數據給標準化和統一化,這才是最大的痛點,大廠也不一定能解決這個問題。

現在的關鍵是誰能把這個問題解決掉,其它建模或計算就都可以在這樣的基礎平臺上去完成,並創造價值。各種企業都有機會。

問:準確性提升算誰的?

李宏宇:在整個聯邦過程中,模型提升通常有一定的應用目的。通常會有一家模型需求方,用自有的數據訓練出的準確度不高,但是如果引入其它聯邦方的數據時,精度就會大大提升。這個時候準確性提升的功勞是誰的?這個問題顯而易見,難的是如何量化這種貢獻。

問:樣本對齊和加密模型訓練與對策,區別在哪裡?

李宏宇:樣本對齊是發生在模型聯邦訓練之前的一個工作,主要是尋找參與方之間的共同用戶(交集)。樣本對齊面臨最多的問題是,參與方都不希望交集外的數據還被洩露出去。現在智邦平臺做到已經達成了這個目標。

樣本對齊要想做到充分安全,也就是交集內用戶也不對外可見,還是有很大挑戰的,這需要與訓練過程結合在一起才能實現。

後臺回復「知識聯邦」 ,即可獲得完整版《知識聯邦白皮書》。

雷鋒網雷鋒網雷鋒網

相關焦點

  • 中國聯邦學習「五大流派」
    同盾科技與知識聯邦同盾科技同樣是從2018年起著手研發聯邦學習,2019年開始搭建知識聯邦的雛形,由同盾科技人工智慧研究院院長李曉林牽頭研發工作。同盾科技人工智慧研究院深度學習首席專家李宏宇表示,知識聯邦在借鑑一些相關技術的同時,也具備一定的獨創性,尤其是在認知層和知識層聯邦都是自主創新的。
  • 同盾「智邦知識聯邦平臺」通過中國信通院大數據產品測評
    中新網6月30日電 近日,中國信通院第十批大數據產品能力評測結果評審會圓滿結束。經過產品資料審核、測試報告審核、質詢與答疑、集中評議等環節的嚴格審核,華為、阿里、百度、同盾科技等40家企業的68款產品通過此次權威測試。
  • 同盾李曉林:解決時代困境,知識將成為AI3.0的「第四要素」
    之前,他是學界精英,佛羅裡達大學終身教授;現在,他是同盾科技人工智慧研究院的院長。平時與人交談時,他語言溫和,但一旦涉及專業問題時,立即進入學者氣場。在談及知識聯邦相關話題時,這種轉變尤為明顯。這是他帶領研究院夥伴們提出的理論體系,希望一種更安全的方式,利用好現有數據,搭建一個開放的智能大腦,最終推動人工智慧3.0時代的到來。
  • 微眾銀行首席AI官楊強:萬字圖文詳談聯邦學習最前沿
    幾個例子:首先是在金融領域,比如信貸風控、市場營銷,都需要大量的數據訓練。大額貸款風控的案例又非常少。要是來做深度學習模型,只用少量這種大額貸款的樣本是遠遠不夠的。另外一個例子是智慧城市。智慧城市有很多的攝像頭,每一個攝像頭可以獲取的數據其實是有限的,希望聚合不同攝像頭的一些數據。但如果它們來自不同的公司,或涉及用戶隱私,就無法簡單粗暴合併。
  • 諸多的AI企業,困在了「數據和算法」裡
    但是,數據與算法不安全性,就像是深度學習這項技術的阿喀琉斯之踵。 「幾乎所有的AI企業都沒有賺到錢,而根源問題在於人工智慧技術本身的缺陷——數據與算法的不安全性。」 對於目前AI企業的生存困境,清華大學人工智慧研究院院長張鈸院士的這番話很直接。
  • 百度研究院2020十大科技預測:將有多家AI模型工廠、AI數據工廠出現
    「2020年,全球範圍內將出現多家AI模型工廠、AI數據工廠。」這一觀點並不是「某專家」拍腦袋給出,而是來自百度的AI實踐。剛剛,百度研究院發布了2020年十大科技趨勢預測,涵蓋了AI工業化生產、晶片、自動機器學習、多模態深度語義理解、物聯網、區塊鏈、量子計算等多個領域。
  • ...個性化學習平臺「符號樹」用AI技術深度解構知識和能力模型
    36氪近日獲悉,人工智慧個性化學習平臺「符號樹」科技宣布獲得數百萬元人民幣天使輪融資,此輪融資由達晨創投投資。本輪融資將用於進一步加強智能系統的技術研發、教研、人才引進和市場推廣。符號樹科技的產品核心是一個擁有優質教學資源的專家系統,針對不同學生不同的認知水平、學習特點和學習需求等進行深度分析和精確診斷,生成針對不同學生的「個性化學習方案」,讓專家系統為學生匹配最優的AI老師對學生進行一對一的輔導。這套邏輯對於教育創新前沿的人來說,並不陌生。
  • 星雲公開課回顧|《AI金融》系列課程之楊強:聯邦學習概述與四大...
    以下為楊強老師演講全文我們這次的課程系列,與當前大家在工業界和學術界非常重視的一個議題相關,就是如何利用數據做人工智慧的模型,同時又能夠保護用戶的隱私,保護數據的安全。很多同學聽說過深度學習,聽說過監督學習,可能沒有聽說過聯邦學習。
  • 不要上手就學深度學習!超詳細人工智慧專家路線圖,GitHub2.1k星
    機器之心報導機器之心編輯部這個學習路線圖幾乎涵蓋了人工智慧領域的所有內容,點點滑鼠,就能連結所需知識。如果你想成為數據科學家、機器學習或者 AI 專家,而又苦於找不到合適的學習方法,本文將提供一組思路清晰、簡單易懂的人工智慧專家路線圖。這是一家德國軟體公司 AMAI GmbH 近期發布的 GitHub 項目——AI 專家路線圖(AI-Expert-Roadmap)。該路線圖幾乎涵蓋了 AI 領域所有的知識點,並且每個知識點都有詳細的文檔。
  • 從零入門聯邦學習(二):快速部署FATE開發環境
    3 月 5 日,機器之心聯合微眾銀行開設的公開課《聯邦學習 FATE 入門與應用實戰》第一課正式開始,微眾銀行人工智慧部高級研究員馬國強為大家介紹了聯邦學習技術、應用以及開源框架 FATE。
  • 是誰「挖」走了首席科學家?
    此前曾作為斯坦福計算機系的副教授,師從機器學習的大師級人物 Michael I. Jordan。據說他的課程火爆異常,曾有超過800名學生選修。Moeednc2011年,吳恩達創建了谷歌的深度學習團隊,領導傳說中的「谷歌大腦」項目,也就是著名的「讓貓識照片」。2014年,在當時的百度深度學習研究院(IDL)常務副院長餘凱推動下,吳恩達加盟百度,並創立了百度在矽谷的研究院。
  • 大會直擊|微軟亞洲研究院劉鐵巖:深度學習成功的秘密
    在人工智慧高歌猛進,人們期待深度學習無往不勝之時,作為人工智慧學者,我們必須保持冷靜,分析深度學習技術的短板,開展針對性研究將其克服,從而助力人工智慧的長期繁榮。事實上,今天深度學習成功的主要因素:超大規模訓練數據、複雜的深層模型、分布式並行訓練,也正是影響其進一步發展的障礙。
  • 同盾通過全球軟體領域最高級別認證
    據官方數據顯示,截至2020年6月,全球通過CMMI認證的企業中,僅有12.5%左右達到5級認證。通過CMMI5級評估認證,意味著同盾可為國內外用戶提供更成熟的行業解決方案和更高質量的服務,同時也為公司產品的持續創新和升級奠定堅實的技術基礎。最近十年,隨著社會化分工的加劇、政府及企業追求提升效率、降低成本的訴求越來越高,企業服務市場開始得到快速的發展。
  • 聯邦學習 OR 遷移學習?No,我們需要聯邦遷移學習
    與此同時,基於遷移學習的的特性,FTL 的參與方可以擁有自己的特徵空間,而無需強制要求所有參與方都擁有或使用相同特徵的數據,這使得 FTL 適合於更多的應用場景。本文關注聯邦遷移學習方法,在介紹聯邦學習和遷移學習相關知識的基礎上,重點探討向經典聯邦學習中引入遷移學習的目的和意義。
  • 2021,要不斷學習!吳恩達等 AI 大佬發表新年寄語
    吳恩達在 Deeplearning.ai 網站的 The Batch 網刊上發布新年寄語,希望給熱愛深度學習的朋友們一些參考。 去年,吳恩達分享了自己每年寒假都會閱讀很多的書,制定一個學習的小目標,即使是度假也會帶著沉重的書箱子,這些都對 Coursera 的創立有所幫助。
  • 同盾科技發布PB級複雜信息自動化處理指標計算平臺——極溯
    將這些數字串聯在一起的,是一臺低延遲、可擴展、高可靠的處理引擎,同盾科技自研的大數據極速處理平臺——「極溯」。極溯,取自極往知來,追本溯源之意。 同盾極溯是如何實現了快、準、穩的統一?準:全流程打通大數據平臺 極溯實現了與大數據平臺的深度結合,與傳統模式指標計算相比,可實時回溯歷史數據計算指標值,在配置指標的過程中已在大數據平臺創建了離線任務,當需要使用時便可實時生效。不僅有效利用歷史數據,在深度結合大數據平臺後,還能喚醒鋪底數據,新增的指標去計算沉睡的數據,賦予數據更大的意義,更加接近真實環境。
  • 「2019人工智慧案例TOP100」榜單出爐 百度、商湯、同盾等企業上榜
    客戶越是下沉,徵信數據就越缺乏,個人違約成本較低,也進一步加劇了金融機構的信用風險。目前金融機構在貸前審核、貸中監控和貸後管理等環節還是存在不同程度的痛點,如何高效、合規地利用金融科技打造智能化、數位化和精細化的風險管理體系成為行業要點。
  • 加速聯邦學習產業落地:星雲Clustar聯手Xilinx全球首創聯邦學習...
    ,(NASDAQ: XLNX))達成深度合作,雙方基於賽靈思Alveo 加速卡以及星雲Clustar的同態加密技術方案實現定製化工藝突破,推出全球首款聯邦學習加速卡。該加速卡的面世,將滿足聯邦學習中高強度、高負荷的計算需求,解決聯邦學習產業化落地面臨的「算力問題」這一核心挑戰,加速聯邦學習產業化進程。
  • 星環科技作為信通院隱私計算聯盟成員亮相2020數據資產管理大會
    近日,中國信息通信研究院、中國通信標準化協會、中國網際網路協會聯合舉辦的「2020數據資產管理大會」在京召開。會議匯集了行業領軍專家、知名大咖,對金融、政務等領域的數據資產管理問題展開深入探討。星環科技首席隱私計算科學家伊人受邀在【金融論壇】上帶來題為《金融AI數據隱私保護的破局之法》的精彩演講,探討多方數據安全前提下AI協作的聯邦學習方案和系統,並結合風控等場景,討論其對於金融數據資產保護、資產治理與價值挖掘的技術優勢。
  • 對話楊強教授:聯邦學習不僅是技術 更是一個開源生態的建立|SDBD2020
    8月25日,遷移學習和聯邦學習領域的發起人楊強教授在SIGKDD·SDBD2020 第二屆智能數據和區塊鏈應用國際研討會上帶來他《用戶隱私,數據孤島和聯邦學習》的專題分享。楊強教授目前擔任微眾銀行的首席人工智慧官,香港科技大學計算機與工程系的講座教授以及系主任,深耕於人工智慧領域,在業內享有盛譽。