AI過濾「垃圾」 讓用戶快速找到有價值的郵件

2021-01-09 中國郵箱網

中國郵箱網訊 1月6日消息 目前,全球每天發出的3000億封電子郵件中,至少有半數屬於垃圾郵件。郵件服務供應商的首要任務自然是過濾掉這些垃圾郵件,以確保用戶能夠快速找到真正具有價值的重要郵件。

但垃圾郵件的檢測本身相當複雜。首先,垃圾郵件與正常郵件之間的界限非常模糊,而且評判標準往往會隨時間推移而有所變化。截至目前,各家郵件服務商普遍採用自動化垃圾郵件檢測方法,而機器學習已經成為其中最有效、也最受青睞的核心選項。雖然我們或多或少還是會看到垃圾郵件,但在機器學習算法的強大支持之下,大多數垃圾郵件已經被從收件箱中直接清除。

那麼,機器學習技術是怎麼確定哪些是垃圾郵件、而哪些屬於正常郵件的?在本文中,我們將具體聊聊其中的工作原理。

挑戰所在

垃圾郵件有著多種不同風格。有些只是些市場調研的信息,只是想引誘收件人打開郵件或者傳播虛假信息。但也有一些屬於偽造型郵件,目標是引導收件者點擊惡意連結或下載惡意軟體。

但二者的共同點在於,它們都跟收件人的實際需求沒有半毛錢關係。垃圾郵件檢測算法需要找到可靠的垃圾郵件過濾方法,在屏蔽不必要內容的同時,避免清理掉那些用戶希望接收並查看的真實郵件。此外,算法本身還得持續適應新的趨勢性動態——例如由新冠疫情引發的群體恐慌、選舉消息以及加密貨幣社區的迅速升溫等等。

靜態規則適合解決這類需求。例如,如果郵件包含大量抄送方、正文部分極短以及主題部分全部大寫,那麼其很可能屬於垃圾郵件。同樣,某些發送方的域名可能已經被列入垃圾郵件黑名單。但在大多數情況下,垃圾郵件檢測主要還是依賴於對郵件內容的具體分析。

樸素貝葉斯機器學習

機器學習算法使用統計模型對數據進行分類。在檢測垃圾郵件這一使用場景下,經過訓練的機器學習模型必須能夠根據郵件中的詞彙順序,判斷其可能屬於垃圾郵件抑或是正常郵件。

不同的機器學習算法都具備一定的垃圾郵件檢測能力,但目前最受關注的仍然是「樸素貝葉斯」算法。顧名思義,樸素貝葉斯算法以「貝葉斯定理」為基礎,即基於先驗知識對事件的概率做出描述。

之所以被冠名以「樸素」,是因為它首先假設觀測的特徵只獨立存在。例如,如果使用樸素貝葉斯機器學習方法來預測是否會下雨,那麼只需要溼度及溫度等少數特徵,即可對是否降雨這個事件做出預測。

在檢測垃圾郵件時,情況無疑更為複雜。我們的目標變量為給定電子郵件屬於「垃圾」或者「非垃圾」。其特徵則為電子郵件正文中包含的單詞或單詞組合。簡而言之,我們希望根據文本內容判斷出當前郵件屬於垃圾郵件的可能性。

這裡需要強調的是,檢測垃圾郵件時使用的各項特徵不一定彼此獨立。例如,我們可以將詞彙「烤」、「奶酪」和「三明治」結合起來,其在郵件語境下是否連續存在將表達出完全不同的含義。另一個更明確的例子就是「不」和「好玩」,獨立與非獨立分析將帶來徹底相反的結論。但好消息是,雖然文本數據內的特徵獨立性往往非常複雜,但只要正確加以配置,樸素貝葉斯分類器同樣能夠有效處理大部分自然語言處理任務。

關於數據

垃圾郵件檢測屬於有監督機器學習問題。這意味著您需要為機器學習模型提供大量垃圾郵件與正常消息示例,幫助其從中找出相應模式以準確將二者區分開來。

大多數電子郵件服務商都擁有自己的標記郵件數據集。例如,每當您在Gmail帳戶內將一封電子郵件標記為垃圾郵件,谷歌方面就會使用這部分數據訓練自己的機器學習算法。(請注意,谷歌使用的垃圾郵件檢測算法要比本文示例複雜得多,而且他們還擁有一套用於防止「報告垃圾郵件」功能遭到濫用的完善機制。)


目前也有不少值得一試的開源數據集,例如加利福尼亞大學歐文分校的垃圾郵件資料庫數據集以及安然垃圾郵件數據集。但請注意,這些數據集僅供教育及測試使用,對於生產級機器學習模型的創建沒有太大實際意義。

自行託管電子郵件伺服器的供應商可以創建起專門的數據集,並根據具體行業及用語對機器學習模型加以調整。例如,金融服務類企業的數據集在內容上將與建築類企業存在巨大差異。

訓練機器學習模型

儘管近年來,自然語言處理技術取得了令人振奮的進步,但人工智慧算法本身仍然無法像人類那樣順暢理解語言內容。

因此,開發垃圾郵件檢測類機器學習模型的一大關鍵步驟,在於準備數據以進行統計處理。在訓練樸素貝葉斯分類器之前,必須通過特定步驟整理出垃圾郵件與正常郵件的語料庫。

考慮一套包含以下語句的數據集:

Steve想為聚會買點烤芝士三明治

Sally正為晚飯燒烤雞肉

我買了奶油芝士做蛋糕

在訓練模型以及隨後對新數據進行預測時,我們首先需要對文本數據進行「令牌化」,而後將其添加到機器學習算法當中。在本質上,令牌化是指將文本數據拆分成較小的部分。如果您將上述數據集按用詞進行拆分,那麼將獲得以下詞彙。請注意,每個詞只出現一次。

Steve、想為、聚會、買、烤、芝士、三明治、Sally、正、晚飯、燒烤、雞肉、我、買了、奶油、蛋糕

我們可以刪除掉那些垃圾郵件和正常郵件中都會出現的詞彙,因為這些詞彙沒法幫我們區分出郵件本身的性質。這些被稱為「停用詞」,常見的例子包括這、那、是、要、某等。在以上數據集中,刪除停用詞之後,我們的詞彙量將快速縮減為5個。

我們還可以使用其他技術,例如「詞幹提取」與「詞條化」等,藉此將詞彙轉換為更基礎的形式。繼續來看我們的示例數據集,其中的「買了」和「買」有著相同的詞根,「烤」和「燒烤」也有相同的詞根。通過這樣的處理,我們可以進一步簡化機器模型。

在某些情況下,大家還可以考慮使用雙詞(包含兩個詞的令牌)、三詞(包含三個詞的令牌)或者更長的N字令牌。例如,使用雙詞形式對上述數據集進行標記,將得到「芝士蛋糕」表達;三詞形式則會帶來「烤芝士三明治」表達。

在數據處理完成之後,您將獲得一份術語表,這些術語定義了機器學習模型中的各項特徵。接下來,您需要確定哪些詞彙或者詞彙序列(如果使用N詞表達)與垃圾郵件及正常郵件相關。

在訓練數據集上訓練機器學習模型時,需要根據不同術語在垃圾郵件及正常郵件中出現的次數為其分配權重。例如,如果「贏大獎」屬於其中一項特徵,而且只出現在垃圾郵件當中,那麼任何具有此特徵的郵件都很可能被歸類為垃圾郵件。與之對應,如果「重要會議」只出現在正常電子郵件中,那麼任何具有此特徵的郵件都很可能被歸類為正常郵件。

在數據處理完成,並對各特徵分配了權重之後,您的機器學習模型即可過濾垃圾郵件。在收到一封新郵件之後,其中的文本將接受標記並按照貝葉斯公式運行。郵件正文中的每個術語均將乘以其權重,權重的總和即代表該電子郵件屬於垃圾郵件的可能性。(實際計算過程要更為複雜,但這裡為了簡便起見,我們直接求取所有權重之和。)

使用機器學習技術實現高級垃圾郵件檢測

聽起來很簡單,但樸素貝葉斯機器學習算法在處理大部分文本分類任務(包括垃圾郵件檢測)時都取得了不錯的效果。

但它仍然不夠完美,這是肯定的。

與其他機器學習算法一樣,樸素貝葉斯算法無法理解語言的上下文,只能依靠詞彙之間的統計關係來判斷一段文本是否屬於某個類別。這意味著,如果發件人在郵件末尾添加一些符合正常郵件條件的詞彙,或者將符合垃圾郵件特徵的某些術語替換為其他同義詞或相關詞,那麼樸素貝葉斯算法很可能將垃圾郵件錯誤判斷為正常郵件。

樸素貝葉斯方法當然不是唯一能夠檢測出垃圾郵件的機器學習算法。其他流行的算法選項還包括遞歸神經網絡(RNN)與transformers,它們都能高效處理電子郵件及文本消息等有序數據。

最後需要注意的是,垃圾郵件檢測一直在不斷發展。就在開發者利用AI乃至其他技術檢測並過濾電子郵件中的有害消息時,垃圾郵件發送者也在尋求新的方法,希望騙過檢測系統、將垃圾郵件發送到收件者手中。也正因為如此,電子郵件服務商才需要持續運用用戶的數據改進並更新其垃圾郵件檢測器。

來源丨The Next Web

相關焦點

  • 郵件營銷:容易引發垃圾郵件過濾器的明顯字彙及詞語
    撰寫營銷郵件時若將這些規則謹記在心,你將取得比一般更好的傳送率,這意味你將打破令人沮喪的業界水平,後者據稱至少有20%的電子郵件從來無法送達收件箱。如果你曾經為到底哪些特定詞語會觸發垃圾郵件過濾器感到苦惱,我們這就列出一些特別明顯及較不明顯的詞語。
  • 什麼郵箱垃圾郵件少?
    很多商務人士由於垃圾郵件的煩惱,從免費郵箱升級到了VIP郵箱。因為VIP郵箱垃圾郵件少,而且像tom的VIP郵箱不僅有專業的反垃圾系統,還可以無限容量存儲資料。 很務人士由於垃圾郵件的煩惱,從免費個人郵箱升級到了VIP郵箱。
  • 中國信息協會信息安全專業委員會發布《郵件安全網關產品對比...
    2020年12月27日 中國信息協會信息安全專業委員會對外發布了《郵件安全網關產品對比》測試報告(以下簡稱報告),此次測評的主導廠商為北京天空衛士網絡安全技術有限公司,橫向參照對比的廠商有賽門鐵克軟體(北京)有限公司(Symantec)、思科中國有限公司(Cisco)、準能科技(北京)有限公司(ForcePoint)、北京天空衛士網絡安全技術有限公司
  • 格力空調怎麼清洗過濾網 格力空調清洗過濾網步驟有哪些
    導讀 ​空調用久了之後室內機室外機或者室外機都有可能會沾滿灰塵,需要我們進行保養和清洗。那麼,格力空調怎麼清洗過濾網呢?格力空調清洗過濾網步驟有哪些?
  • 如何找到值得Follow的Twitter用戶
    寫這篇文章主要是看到Mashable上面寫的一篇10種方法找到Twitter上值得Follow的人(10 Ways to Find People on Twitter)People Search(Twitter用戶搜索)1. Twitter People Search;2. Tweepz;3. TweepSearch;4.
  • 淨水行業風向有變,方太為何潛心研究選擇性過濾技術?
    一、傳統淨水技術的「天花板」:安全和健康無法兼得在分析方太「NSP選擇性過濾技術」之前,先普及一下現有的淨水技術都有哪些優缺點。目前,市場上常見淨水膜技術主要有三大類:一是超濾,二是反滲透,三是納濾。可以看出,以上三種或者三代淨水技術存在的共同問題是,無法實現「選擇性過濾」,即過濾掉對人體有害的物質如病菌、重金屬等,同時還能保留對人體有益的礦物質。由於有害重金屬和有益礦物質物理屬性非常相似,實現選擇性過濾的技術難度非常高,這也是以上三代技術都無法真正滿足用戶需求的原因所在。
  • 回復率100%的郵件,買家最愛這9種! - 雨果問答-跨境電商權威知識...
    The 「best email pitch」I ever received. / 我曾收到的「最好的電子郵件」。要點分析:1)表明他不是垃圾郵件發送者。2)提到競爭對手的名字以引起收件人的注意。3)提供實際演示視頻,以了解最終產品的外觀。TipsWhat You Can Learn?
  • 輕鬆選擇:谷歌為Gmail引入多個郵件籤名
    谷歌剛剛宣布了 Gmail 郵件服務的一項新功能,允許用戶在發件時從多個郵件籤名中挑選其中一個。 這項變化將於未來幾周內,陸續向 G Suite 訂閱和 Gmail 個人用戶推送。對於那些只使用一個帳號來處理私人、工作等事務的用戶來說,這顯然是一件能夠幫你省下大量時間的改進。
  • 什麼是電子郵件營銷?電子營銷、郵件營銷知識普及課
    電子郵件營銷知識普及電子郵件營銷,六字拆分開來。第一種拆法:電子郵件和營銷顧名思義即為通過電子郵件、電子郵箱來進行的營銷活動。第二種拆分:電子、郵件營銷電子可以暫時理解為電子信息工程或者網際網路、網絡。郵件營銷即為通過郵件、郵箱,將商業性內容發送到指定用戶的郵箱,以實現郵件營銷目標的電子郵件營銷方式。郵件營銷沒有早期晚期,若真要以時間來論,最早出現的模式應是博客RSS訂閱。
  • 懂得選擇性交友的3大星座,眼神銳利,能自動過濾「垃圾」
    引言「好的朋友能夠幫助我們變得更優秀,壞的朋友會阻礙我們進步,今天就給大家分享,選擇性交友的3大星座,眼神銳利,能自動過濾垃圾。」天秤座天秤是一個對自己要求的很高的人,為了保持好的身材,他們可以不吃油炸油膩的食品,也會堅持去健身房鍛鍊。
  • 英語音標記憶順口溜 怎樣快速記憶
    英語音標記憶順口溜 怎樣快速記憶英語音標怎樣記憶呢,有哪些順口溜呢,怎樣才能快速記憶呢,下面小編為大家總結一下,僅供大家參考。英語音標諧音記憶[i:]、[?]、[?:]、[?]、[u:]、[?]、[??]、[?]、[ɑ:]、[?]、[e]、[?]
  • 使用小水泵玩轉大魚缸,不是不可以,但是下列過濾形式根本不行
    而水妖精和內置過濾還有一個非常嚴重的弊端,那就是我們只要一動,必定魚缸裡雜質滿天飛,小魚缸飼養小型觀賞魚,水質尚可以迅速恢復,如果是較大魚缸,沒有其他過濾形式為主,垃圾又太多的話,幾乎是清洗一次就渾濁一次,水質一定是越來越混,根本無法調理。
  • 電子郵件客戶端也要變
    這項新功能今天已經向部分市場的測試人員開放,它將允許Windows 10用戶直接從任務欄中訪問新聞、股票和天氣信息的Feed。用戶能夠快速瀏覽天氣信息,而無需打開開始菜單、安裝第三方應用程式或在線查看。 任務欄功能會彈出一個迷你內容源,可以個性化地提供最新的體育新聞、頭條新聞和天氣信息。
  • iPhone技巧篇 如何添加HTML風格郵件籤名
    【手機中國 軟體】如今使用iPhone手機的用戶是越來越多,而iOS系統在更新之後的功能也越來越強大,所以我們目前使用iPhone不僅僅是撥打電話和發送簡訊了,越來越多的人開始使用iPhone來上網收發郵件,不過話說回來,iPhone默認的郵件籤名 「發自我的iPhone」實在是有些官方,那麼我該如何去掉默認的籤名,設計一個屬於自己的個性化郵件籤名呢
  • 垃圾分類專欄丨蛤蜊殼、堅果殼屬於什麼垃圾?
    蛤蜊殼等垃圾也是冰城夏季常見的生活垃圾,今天市城管局垃圾分類專家就來跟大家分享下這類生活垃圾如何分類。 蛤蜊殼是屬於什麼的垃圾?蛤蜊殼雖然是在廚房中烹飪時所產生的垃圾,但它在粉碎機裡不容易被粉碎、不易腐爛,所以屬於其他垃圾。其實,我們常吃的各種堅果果殼等也都是屬於是其他垃圾,在扔這類垃圾的時一定投放到其他垃圾的垃圾桶中。
  • 總是收到無關的工作郵件?這個有意思的工具可以幫你消滅它們
    儘管《微信》《企業微信》《釘釘》等即時溝通 app 的出現提高了溝通的效率,但郵件在我們的工作、生活中還是有不可或缺的作用。比如工作出現爭端的時候,你就可以直接甩出一封郵件。但由於或隱私洩漏,或訂閱內容過多等,我們收到的「垃圾郵件」越來越多,幹擾噪音也越來越大。那麼,我們有沒有什麼好 app 可以更好地管理郵件呢?天吶!
  • Microsoft Outlook 2019 for mac(電子郵件和日曆工具)
    你最重要的電子郵件位於「重點」選項卡上,而雖然其他郵件仍可輕鬆訪問,但卻位於「其他」選項卡上,免除幹擾。系統將就移至「其他」的電子郵件進行通知,並且你可隨時切換選項卡以快速瀏覽。  2、使用 @提及功能引起注意  如果想要在電子郵件或會議邀請中引起某人的注意,可以在電子郵件或會議邀請的正文中鍵入 @ 符號,後跟他的姓名。
  • 斑馬ai怎麼樣,揭秘最受用戶歡迎教育產品『好在哪裡
    而與此同時,低年齡段少兒教育相關的課程也在快速的發展,主打AI智能教育,課程從原來大家最為關注的英語課程拓展到數理思維、語文、編程以及各種興趣課程。  今年已步入2021年,各大平臺的在線教育的競爭會更為激烈。