Cloudopt 開源基於機器學習的隱私保護引擎 —— Baize (白澤)

2021-01-11 開源中國

白澤是中國古代神話中地位崇高的神獸,祥瑞之象徵,傳說中白澤可以預測吉兇,是令人逢兇化吉的吉祥之獸。白澤亦能說人話,通萬物之情,曉天下萬物狀貌。

白澤是直接運行在瀏覽器上且基於機器的隱私保護引擎,能夠有效的阻擋跟蹤腳本、惡意廣告腳本。使用 JavaScript 開發,可以運行在 Node.js、瀏覽器環境中。

傳統的過濾方式是使用過濾規則進行過濾,但這些過濾規則都是基於開源組織、公益組織或個人手動更新的,需要耗費大量的人力進行維護。我們模仿殺毒軟體的啟發式引擎,基於集成學習,提出了一種自動有效的機器學習方法。通過腳本的多維度特徵來學習並創建分類器從而阻止跟蹤腳本及惡意廣告腳本。

我們收集了 Alexa top 100 網站中的首頁所有的網絡請求,合計 11764 行作為訓練。同時為了達到更好的測試效果,我們選取了國內的一些知名網站且不包含在訓練集中的網站的首頁網絡請求,合計 760 行。

我們對測試集的數據進行了測試,白澤獲得了高達 91.8% 的準確率。它能以 65% 的準確率識別出絕大多數的惡意請求。

name acc auc recall Baize 91.8% 78.3% 80.2%

絕大多數情況下,預測一個網絡請求是否安全僅需要 0.1 ms。

英文文檔:

https://github.com/cloudoptlab/baize

中文文檔:

https://github.com/cloudoptlab/baize/blob/master/README_ZH.md

相關焦點

  • Cloudopt AdBlocker 發布基於機器學習的隱私保護瀏覽器擴展
    通過攔截常見第三方跟蹤系統保護您的隱私。5. 保護您對抗惡意和釣魚攻擊。6. 阻止腳本從危險網站下載東西。 白澤是中國古代神話中地位崇高的神獸,祥瑞之象徵,傳說中白澤可以預測吉兇,是令人逢兇化吉的吉祥之獸。白澤亦能說人話,通萬物之情,曉天下萬物狀貌。
  • 保護隱私快速訓練,Facebook開源Opacus,用差分隱私訓練PyTorch
    機器之心報導編輯:小舟、陳萍隱私保護是機器學習領域的重要倫理問題之一,而差分隱私(DP)是行之有效的隱私保護手段。那麼,如何方便地使用差分隱私來訓練機器學習模型呢?近日,Facebook 開源了 Opacus 庫,支持以這種方式訓練 PyTorch 模型。近日,Facebook 開源了一個新型庫 Opacus,它支持使用差分隱私來訓練 PyTorch 模型,擴展性優於目前的 SOTA 方法。同時,Opacus 庫支持以最少代碼更改來訓練模型,且不會影響訓練性能,並允許在線跟蹤任意給定時刻的隱私預算。
  • 隱私保護機器學習是啥?清華系創企RealAI推全球首款編譯級產品
    (注釋:隱私保護機器學習並不是一個全新的概念,類似的術語還包括聯邦學習,但為了強調隱私保護的理念,文章中我們使用隱私保護機器學習一詞。)當業界都在討論,「強監管下的數據應用」會不會造成「數據用不了」,AI沒了數據,人工智慧變人工智障,怎麼辦?
  • 阿里正式開源輕量級深度學習端側推理引擎「MNN」
    阿里近日正式開源了輕量級深度學習端側推理引擎「MNN」。與 Tensorflow、Caffe2 等同時覆蓋訓練和推理的通用框架相比,MNN 更注重在推理時的加速和優化,在大規模機器學習應用中具有優勢。本文詳細闡述了MNN背後的技術框架和規劃。 近日,阿里正式開源輕量級深度學習端側推理引擎「MNN」。
  • 清華系AI公司瑞萊智慧發布首個企業級隱私保護機器學習平臺
    原標題:清華系AI公司瑞萊智慧發布首個企業級隱私保護機器學習平臺
  • Cloudopt Next 更新至 2.0.8.0-BETA - OSCHINA - 中文開源技術...
    Cloudopt Next 是一個非常輕量級且現代的、基於 Kotlin 編寫的全棧開發框架,同時支持 Java 和 Kotlin
  • ...AI發布首個企業級隱私保護機器學習平臺與升級版AI模型殺毒軟體
    RealAI重點發布了兩款產品:隱私保護機器學習平臺RealSecure和人工智慧安全平臺RealSafe2.0 版本。隱私保護機器學習平臺RealSecure為解決AI應用過程中的數據孤島難題,隱私保護機器學習被學術界與產業界公認為是一條可行之路。
  • 清華系RealAI發布首個企業級隱私保護機器學習平臺與升級版AI模型...
    本次會議上,第三代人工智慧技術及解決方案提供商瑞萊智慧RealAI正式發布了旗下兩款最新AI產品——隱私保護機器學習平臺RealSecure和人工智慧安全平臺RealSafe2.0 版本,並聯合北京智源人工智慧研究院設立「安全人工智慧創新中心」,其參與撰寫的《人工智慧安全框架》也於會上正式首發。
  • 字節跳動隱私保護論文入選 NeurIPS 2020 聯邦學習 Workshop
    自歐盟 2018 年出臺《通用數據保護條例》(GDPR)以及國內涉及數據隱私的法律法規逐步開始建立後,聯邦學習逐漸成為保護數據隱私的一個利器。它可以在雙方不公開各自隱私數據的情況下,實現機器學習模型的協同訓練,因此受到了越來越多企業的關注,產生了很多落地應用。
  • 瑞萊智慧RealAI發布首個企業級隱私保護機器學習平臺與升級版AI...
    藍鯨TMT頻道12月9日訊,在2020第三代人工智慧產業論壇暨瑞萊智慧RealAI戰略發布會上,瑞萊智慧RealAI 正式發布旗下兩款第三代AI新品——隱私保護機器學習平臺RealSecure和人工智慧安全平臺RealSafe2.0
  • 開發者必備:基於 Linux 生態的十大AI開源框架盤
    Deeplearning4j遵循Apache 2.0開源協議,提供了基於AWS雲服務的GPU運算支持,以及微軟伺服器框架的支持。官網: http://deeplearning4j.org/2. Caffe:廣受歡迎的深度學習框架
  • 開發者必備:基於Linux生態的十大AI開源框架盤點
    and Learning Center,BVLC),基於BSD 2-Clause開源許可協議發布。OpenCyc是Cycorp公司推出的一個基於Cyc的開源版本,而Cyc是目前全球最龐大、最完備的通用型知識庫與常識推理引擎。
  • 隱私保護新突破:高斯差分隱私框架與深度學習結合
    機器之心發布機器之心編輯部人工智慧中的隱私問題已經公認為一個重要並且嚴肅的問題。近日,賓夕法尼亞大學的研究組開發了一個新的數據隱私分析框架,可以在多個類型的機器學習問題中有效保護個人隱私。這個框架現已成功和深度學習結合,並在多個需要保障隱私的深度學習任務中達到最高準確率。什麼是差分隱私在這個大數據時代,如何妥善獲取和使用與真人相關的數據,漸漸成為迫切需要解決的問題。沒有人希望自己生個病,上個網,買件衣服都會被人隨意知曉,更別提手機裡沒有修過的自拍了。
  • 如何在機器學習的框架裡實現隱私保護?
    編者按:數據時代,人們從技術中獲取便利的同時,也面臨著隱私洩露的風險。微軟倡導負責任的人工智慧,因此機器學習中的隱私保護問題至關重要。本文介紹了目前機器學習中隱私保護領域的最新研究進展,討論了機密計算、模型隱私和聯邦學習等不同層面的隱私保護方法。作者 | 張輝帥在大數據和人工智慧的時代,人們能夠更方便高效地獲取信息。
  • ...2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必不可少
    另外,雷鋒網 AI 研習社在原文的基礎上補充了部分開源項目,為 AI 開發者提供更加詳細的 AI 項目和資源。機器學習是用數據來學習、概括、預測的研究。近幾年,隨著數據的開發、算法的改進以及硬體計算能力的提升,機器學習技術得以快速發展,不斷延伸至新的領域。
  • 字節跳動隱私保護論文入選NeurIPS 2020聯邦學習...
    字節跳動隱私保護論文入選NeurIPS 2020聯邦學習Workshop 字節跳動在隱私保護上的最新研究,有利於打消聯邦學習上對標籤數據安全的顧慮,進一步推動隱私計算的發展。自歐盟2018年出臺《通用數據保護條例》(GDPR)以及國內涉及數據隱私的法律法規逐步開始建立後,聯邦學習逐漸成為保護數據隱私的一個利器。它可以在雙方不公開各自隱私數據的情況下,實現機器學習模型的協同訓練,因此受到了越來越多企業的關注,產生了很多落地應用。
  • Edge瀏覽器隱私保護排名墊底 微軟回應是為了優化用戶體驗
    近日,一份歐洲研究論文聲稱微軟的Edge瀏覽器存在重大隱私風險,其隱私保護評測得分在六大主流瀏覽器中排名墊底。萊斯教授稱團隊嚴格按照GDPR(歐盟通用數據保護條例)進行調研,其結果具有可參考性。 這一結論迅速在社交新聞站點Reddit上引發了廣泛討論。有用戶指出,Brave瀏覽器有著強大的廣告攔截功能,而Chrome、Firefox等瀏覽器也相繼屏蔽第三方cookie以保護用戶隱私。但也有一部分用戶認為Edge使用體驗較好,從用戶個人角度難以發現其隱私漏洞。
  • 什麼是 SeetaFace 開源人臉識別引擎
    可是令人尷尬的是,這個領域迄今尚無一套包括所有技術模塊的、完全開源的基準人臉識別系統!我們希望改變現狀,因此開源了SeetaFace人臉識別引擎。該引擎由中科院計算所山世光研究員帶領的人臉識別研究組研發。代碼基於C++實現,且不依賴於任何第三方的庫函數,開源協議為BSD-2,可供學術界和工業界免費使用。
  • SeetaFace開源人臉識別引擎介紹
    可是令人尷尬的是,這個領域迄今尚無一套包括所有技術模塊的、完全開源的基準人臉識別系統!我們希望改變現狀,因此開源了SeetaFace人臉識別引擎。該引擎由中科院計算所山世光研究員帶領的人臉識別研究組研發。代碼基於C++實現,且不依賴於任何第三方的庫函數,開源協議為BSD-2,可供學術界和工業界免費使用。
  • 從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...
    雖然研究者們在機器學習領域取得了讓人興奮的成果,不過我們仍然處於機器學習發展的早期階段。對於剛接觸機器學習的開發者來講,想要理解什麼是機器學習,首先要搞懂三個部分:輸入、算法、輸出。算法:如何處理和分析數據機器學習算法可利用數據執行特定的任務,最常見的機器學習算法有如下幾種:1.監督學習。監督學習使用以及標註過的和結構化的數據,通過制定一組輸入數據集合所需的輸出,機器可以學習如何識別目標並且映射到其他的學習任務上。