白澤是中國古代神話中地位崇高的神獸,祥瑞之象徵,傳說中白澤可以預測吉兇,是令人逢兇化吉的吉祥之獸。白澤亦能說人話,通萬物之情,曉天下萬物狀貌。
白澤是直接運行在瀏覽器上且基於機器的隱私保護引擎,能夠有效的阻擋跟蹤腳本、惡意廣告腳本。使用 JavaScript 開發,可以運行在 Node.js、瀏覽器環境中。
傳統的過濾方式是使用過濾規則進行過濾,但這些過濾規則都是基於開源組織、公益組織或個人手動更新的,需要耗費大量的人力進行維護。我們模仿殺毒軟體的啟發式引擎,基於集成學習,提出了一種自動有效的機器學習方法。通過腳本的多維度特徵來學習並創建分類器從而阻止跟蹤腳本及惡意廣告腳本。
我們收集了 Alexa top 100 網站中的首頁所有的網絡請求,合計 11764 行作為訓練。同時為了達到更好的測試效果,我們選取了國內的一些知名網站且不包含在訓練集中的網站的首頁網絡請求,合計 760 行。
我們對測試集的數據進行了測試,白澤獲得了高達 91.8% 的準確率。它能以 65% 的準確率識別出絕大多數的惡意請求。
name acc auc recall Baize 91.8% 78.3% 80.2%絕大多數情況下,預測一個網絡請求是否安全僅需要 0.1 ms。
英文文檔:
https://github.com/cloudoptlab/baize
中文文檔:
https://github.com/cloudoptlab/baize/blob/master/README_ZH.md