如今,手機已經成為人們日常生活必不可少的工具之一。雖然各種社交APP層次不窮,但手機簡訊以其操作簡單、方便快捷等諸多優點一直都是用戶間溝通的基礎方式。手機簡訊在為人們帶來極大便利的同時,隨之而來的諸多垃圾簡訊問題日益嚴峻,廣告信息、欺詐簡訊、謠言散布等簡訊內容,嚴重危害了社會公共安全。據360手機衛士安全中心發布的數據,2019年全國垃圾簡訊攔截總量約為320億條,平均每天收到垃圾簡訊超過5000萬條。據統計,各類垃圾內容中,冒充類簡訊佔所有垃圾簡訊的92.8%,多以銀行詐騙、網際網路虛假網購、電信詐騙等內容為主。垃圾簡訊泛濫,已經嚴重影響到人們正常生活、運營商形象乃至社會穩定。
面對激烈的市場競爭,各大運營商及相關部門都在尋求一種快速、有效的垃圾簡訊識別方法。通過垃圾簡訊的精準識別,以完善用戶的通訊環境,為有關部門提供有效依據,維護運營商利益。本案例基於思邁特軟體的數據挖掘平臺Smartbi Mining進行建模,使用隨機森林文本分類算法建立合理的簡訊識別模型,對垃圾簡訊進行識別,解決運營商和手機用戶的困擾。
1
目前我國垃圾簡訊的現狀:
Ø 垃圾簡訊黑色利益鏈由於簡訊的方便、低成本等特點,垃圾簡訊已經形成了黑色利益鏈,嚴重為害社會公眾安全。由於監管缺失,一些不良組織通過各式各樣的渠道收集個人手機信息,並將手機信息賣給有需求的商家和業務人員獲取利益,同時商家等通過發送廣告推銷、詐騙等垃圾短息,來謀取利益,嚴重危害了簡訊用戶的信息安全及正常生活。
Ø 缺乏法律保護目前,雖然我國頒布了有關調整或者規範簡訊的法律、法規、政策性文件,如公安部、信息產業部、中國銀行業監督管理委員會聯合發出《在全國範圍內統一嚴打手機違法簡訊息的通知》等,但是以規範簡訊業務的制度法來說,仍屬空白。對垃圾簡訊的識別並追蹤,找到垃圾簡訊發送的種子用戶,不僅能夠打擊該類違法分子,還能彌補法律空白。
Ø 簡訊內容日益多變垃圾簡訊的投放方式和內容的不斷改進及變化,導致垃圾簡訊的攔截效果越來越差,傳統的基於敏感詞過濾方法不僅易受到同義詞、字符等幹擾,且不能很好適應垃圾簡訊的快速變化。因此,垃圾簡訊過濾方法的改進優化成為運營商需要重點解決的問題。
2
垃圾簡訊識別的主要步驟如下所示:
1. 數據獲取,獲取所需數據集;
2. 數據預處理,對數據進行文本中文分詞、停用詞過濾處理等;
3. 建模準備,將分詞結果分別轉換成文檔-詞條矩陣,並劃分測試集與訓練集;
4. 模型構建與評價,構建隨機森林模型,並建立評價指標精確率、召回率、F1值對模型分類效果進行評價。
5. 分析結果,總結和建議。
3
3.1
目前,某運營商已經積累了大量的垃圾簡訊數據。經過加工處理數據如圖3-2所示。本案例收集了295755條簡訊文本數據,欄位說明見表3-1。
表3-1 欄位說明
欄位名稱
類型
欄位說明
_c1
整型
0表示正常簡訊,1表示垃圾簡訊
_c2
字符串
簡訊內容
圖3-2 數據集
為了方便識別欄位含義,這裡接入一個元數據編輯節點取別名,如圖3-3所示。
圖3-3 元數據編輯
3.2
1、分詞
中文分詞是指將一整段文字切分為具有最小語義的詞條信息,即以詞作為基本單元,使用計算機自動對中文文本進行詞語的切分,將文本數據轉化為機器可識別的形式。英文單詞之間是由空格作為分界符的,中文則是由字為基本書寫單位,詞語之間沒有明顯的區分符,因此,中文分詞是中文信息處理的基礎與關鍵。分詞結果的準確性,對後續文本挖掘有著重要影響。如在進行特徵的選擇時,不同的分詞效果將影響詞語在文本中的重要性,從而影響特徵的選擇。
這裡接入一個分詞節點將text列進行分詞,_c2_seg為分詞後的字符串型結果,_c2_seg_words為分詞後的WrappedArray類型結果,分詞輸出結果如圖3-4所示。
圖3-4 分詞
2、停用詞處理
中文表達中常常包含許多功能性詞語,相比於其它詞彙,功能性詞語並沒有太多的實際含義。最常用的功能性詞語是限定詞,如「的」、「一個」、「這」、「那」等。這些詞語的使用較大的作用僅僅是協助一些文本的名詞描述和概念表達。在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為停用詞。
我們選擇_c2_seg_words列,接入一個停用詞處理節點,自定義停用詞列表,如圖3-5所示,輸出結果如圖3-6所示。
圖3-5 停用詞列表
圖3-6 停用詞處理
3、TF-IDF
由於文本數據無法直接用於建模,因此需要將文本表示成計算機能夠直接處理的形式,即文本數位化。TF-IDF算法即將文本數據進行數值化。TF意思是詞頻,IDF意思是逆文本頻率指數,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF值越高,說明該詞越重要。
我們接入TF-IDF算法進行抽取變換,輸出結果如圖3-6所示。
圖3-6 TF-IDF
整個的數據預處理流程圖如圖3-7所示。
圖3-7 數據預處理
3
本案例採用隨機森林算法模型,通過特徵選擇_c2_seg_words_filtered_idf列,目標標籤為target,整體模型訓練預測如圖3-8所示。
圖3-8 構建模型
隨機森林參數配置如圖3-9所示。
圖3-9 參數配置
3.4
通過評估節點接入,如圖3-8所示,評估結果如圖3-10所示。
分析結果得出F1分數達到0.91,說明該模型效果比較不錯的。
該模型能較好地識別出垃圾簡訊,有效進行垃圾簡訊過濾,解決運營商及用戶的困擾。並且由上述分析提出以下建議:
ü 對於垃圾簡訊過濾可結合傳統匹配方法與基於內容的分類方法,不斷優化識別模型以適應垃圾簡訊內容形式的不斷變化。
ü 對於垃圾簡訊泛濫問題,應當健全法律機制,結合垃圾簡訊識別系統,從根源上進行遏制,從而建立一個良好的通信環境。
本案例運用簡訊數據,對垃圾簡訊進行識別。重點介紹了文本數據的處理及轉換過程,以及隨機森林文本分類算法在實際案例中的應用。主要實現了垃圾簡訊的精確識別,通過獲得以上挖掘結果,為相關運營商提供一種解決垃圾簡訊過濾問題的方案。