利用數據挖掘平臺,通過數據建模,解決垃圾簡訊帶來的困擾

2021-01-19 騰訊網

如今,手機已經成為人們日常生活必不可少的工具之一。雖然各種社交APP層次不窮,但手機簡訊以其操作簡單、方便快捷等諸多優點一直都是用戶間溝通的基礎方式。手機簡訊在為人們帶來極大便利的同時,隨之而來的諸多垃圾簡訊問題日益嚴峻,廣告信息、欺詐簡訊、謠言散布等簡訊內容,嚴重危害了社會公共安全。據360手機衛士安全中心發布的數據,2019年全國垃圾簡訊攔截總量約為320億條,平均每天收到垃圾簡訊超過5000萬條。據統計,各類垃圾內容中,冒充類簡訊佔所有垃圾簡訊的92.8%,多以銀行詐騙、網際網路虛假網購、電信詐騙等內容為主。垃圾簡訊泛濫,已經嚴重影響到人們正常生活、運營商形象乃至社會穩定。

面對激烈的市場競爭,各大運營商及相關部門都在尋求一種快速、有效的垃圾簡訊識別方法。通過垃圾簡訊的精準識別,以完善用戶的通訊環境,為有關部門提供有效依據,維護運營商利益。本案例基於思邁特軟體的數據挖掘平臺Smartbi Mining進行建模,使用隨機森林文本分類算法建立合理的簡訊識別模型,對垃圾簡訊進行識別,解決運營商和手機用戶的困擾。

1

目前我國垃圾簡訊的現狀:

Ø 垃圾簡訊黑色利益鏈由於簡訊的方便、低成本等特點,垃圾簡訊已經形成了黑色利益鏈,嚴重為害社會公眾安全。由於監管缺失,一些不良組織通過各式各樣的渠道收集個人手機信息,並將手機信息賣給有需求的商家和業務人員獲取利益,同時商家等通過發送廣告推銷、詐騙等垃圾短息,來謀取利益,嚴重危害了簡訊用戶的信息安全及正常生活。

Ø 缺乏法律保護目前,雖然我國頒布了有關調整或者規範簡訊的法律、法規、政策性文件,如公安部、信息產業部、中國銀行業監督管理委員會聯合發出《在全國範圍內統一嚴打手機違法簡訊息的通知》等,但是以規範簡訊業務的制度法來說,仍屬空白。對垃圾簡訊的識別並追蹤,找到垃圾簡訊發送的種子用戶,不僅能夠打擊該類違法分子,還能彌補法律空白。

Ø 簡訊內容日益多變垃圾簡訊的投放方式和內容的不斷改進及變化,導致垃圾簡訊的攔截效果越來越差,傳統的基於敏感詞過濾方法不僅易受到同義詞、字符等幹擾,且不能很好適應垃圾簡訊的快速變化。因此,垃圾簡訊過濾方法的改進優化成為運營商需要重點解決的問題。

2

垃圾簡訊識別的主要步驟如下所示:

1. 數據獲取,獲取所需數據集;

2. 數據預處理,對數據進行文本中文分詞、停用詞過濾處理等;

3. 建模準備,將分詞結果分別轉換成文檔-詞條矩陣,並劃分測試集與訓練集;

4. 模型構建與評價,構建隨機森林模型,並建立評價指標精確率、召回率、F1值對模型分類效果進行評價。

5. 分析結果,總結和建議。

3

3.1

目前,某運營商已經積累了大量的垃圾簡訊數據。經過加工處理數據如圖3-2所示。本案例收集了295755條簡訊文本數據,欄位說明見表3-1。

表3-1 欄位說明

欄位名稱

類型

欄位說明

_c1

整型

0表示正常簡訊,1表示垃圾簡訊

_c2

字符串

簡訊內容

圖3-2 數據集

為了方便識別欄位含義,這裡接入一個元數據編輯節點取別名,如圖3-3所示。

圖3-3 元數據編輯

3.2

1、分詞

中文分詞是指將一整段文字切分為具有最小語義的詞條信息,即以詞作為基本單元,使用計算機自動對中文文本進行詞語的切分,將文本數據轉化為機器可識別的形式。英文單詞之間是由空格作為分界符的,中文則是由字為基本書寫單位,詞語之間沒有明顯的區分符,因此,中文分詞是中文信息處理的基礎與關鍵。分詞結果的準確性,對後續文本挖掘有著重要影響。如在進行特徵的選擇時,不同的分詞效果將影響詞語在文本中的重要性,從而影響特徵的選擇。

這裡接入一個分詞節點將text列進行分詞,_c2_seg為分詞後的字符串型結果,_c2_seg_words為分詞後的WrappedArray類型結果,分詞輸出結果如圖3-4所示。

圖3-4 分詞

2、停用詞處理

中文表達中常常包含許多功能性詞語,相比於其它詞彙,功能性詞語並沒有太多的實際含義。最常用的功能性詞語是限定詞,如「的」、「一個」、「這」、「那」等。這些詞語的使用較大的作用僅僅是協助一些文本的名詞描述和概念表達。在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為停用詞。

我們選擇_c2_seg_words列,接入一個停用詞處理節點,自定義停用詞列表,如圖3-5所示,輸出結果如圖3-6所示。

圖3-5 停用詞列表

圖3-6 停用詞處理

3、TF-IDF

由於文本數據無法直接用於建模,因此需要將文本表示成計算機能夠直接處理的形式,即文本數位化。TF-IDF算法即將文本數據進行數值化。TF意思是詞頻,IDF意思是逆文本頻率指數,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF值越高,說明該詞越重要。

我們接入TF-IDF算法進行抽取變換,輸出結果如圖3-6所示。

圖3-6 TF-IDF

整個的數據預處理流程圖如圖3-7所示。

圖3-7 數據預處理

3

本案例採用隨機森林算法模型,通過特徵選擇_c2_seg_words_filtered_idf列,目標標籤為target,整體模型訓練預測如圖3-8所示。

圖3-8 構建模型

隨機森林參數配置如圖3-9所示。

圖3-9 參數配置

3.4

通過評估節點接入,如圖3-8所示,評估結果如圖3-10所示。

分析結果得出F1分數達到0.91,說明該模型效果比較不錯的。

該模型能較好地識別出垃圾簡訊,有效進行垃圾簡訊過濾,解決運營商及用戶的困擾。並且由上述分析提出以下建議:

ü 對於垃圾簡訊過濾可結合傳統匹配方法與基於內容的分類方法,不斷優化識別模型以適應垃圾簡訊內容形式的不斷變化。

ü 對於垃圾簡訊泛濫問題,應當健全法律機制,結合垃圾簡訊識別系統,從根源上進行遏制,從而建立一個良好的通信環境。

本案例運用簡訊數據,對垃圾簡訊進行識別。重點介紹了文本數據的處理及轉換過程,以及隨機森林文本分類算法在實際案例中的應用。主要實現了垃圾簡訊的精確識別,通過獲得以上挖掘結果,為相關運營商提供一種解決垃圾簡訊過濾問題的方案。

相關焦點

  • 數據挖掘究竟在挖什麼?我們如何充分利用它?
    因此,檢查一個人是否可以從可用數據中為特定應用目標提取簡明而可行的見解是自然而然的。這就是數據挖掘任務的來源。原始數據可能是任意的、非結構化的,甚至是不適合自動處理的格式。例如,手動收集的數據可能來自不同格式的異構數據源,但不知何故需要通過自動化電腦程式進行處理以獲取見解。 為了解決這個問題,數據挖掘分析人員使用一系列處理流程,將原始數據收集,清理並轉換為標準格式。
  • 一個資深數據人對數據挖掘解讀
    (四)算法拆解和自行開發一般會利用python、c、c++,自己重新編寫算法代碼。例如,通過自己的代碼實現邏輯回歸運算過程。甚至,根據自己的業務需求和數據特點,更改其中一些假定和條件,以便提高模型運算的擬合效果。尤其,在生產系統上,通過C編寫的代碼,運行速度比較快,較易部署,能夠滿足實時的運算需求。
  • 數據挖掘技術在軌跡數據上的應用實踐
    每天滴滴都會為上千萬人提供出行服務,在這一過程中積累了海量軌跡數據。這些軌跡數據來自於公共服務,本文介紹如何利用這些數據回饋大眾,改善出行體驗。1. 背景首先簡要介紹一下什麼是數據挖掘。
  • 大數據+體育:數據挖掘在體育商業領域的應用及其原理
    那麼這些看似繁雜枯燥的數據是否真的能為球隊帶來價值呢?在回答這個問題之前,我們先來看看什麼是數據挖掘技術,數據挖掘技術泛指從數據集中發掘出特定模式或信息的過程,在大數據+體育背景下,便是利用龐大、實時、精準的資料庫得出能夠為球隊戰略制定提供參考與反饋信息的數據分析過程,有效地幫助球隊管理者發現從市場至每一個個體的異常(Anomalies),模式(Patterns)和相關度(Correlations
  • 數據挖掘工具主要有哪幾種?
    在較淺的層次上,它利用現有資料庫管理系統的查詢、檢索及報表功能,與多維分析、統計分析方法相結合,進行聯機分析處理(O乙心),從而得出可供決策參考的統計分析數據;在深層次上,則從資料庫中發現前所未有的、隱含的信息。
  • 數據為劍,助力實戰!中山舉行「智慧公安大數據」建模大賽決賽
    5月28日下午,中山市公安局舉行「智慧公安大數據」建模大賽決賽,中山市副市長、公安局局長鄭澤暉,市公安局領導黎少康、黃金輝、周平衛出席活動並為獲獎團隊和建模能手頒獎。據了解,此次智慧公安大數據建模大賽是今年開展「智慧公安」建設工作的一個重要舉措。此次大賽共有33個分局和局直單位、47個基層單位,共計54個模型報名參賽。
  • 如何通過數據分析深度挖掘數據的價值
    隨著科技的高速發展,數據在人們生活和決策中所佔的比重越來越大,大數據的熱浪已然覆蓋了整個時代。大數據一直在積極賦能眾多產業,包括金融、醫療、農業、教育等,如何在各個行業中深度挖掘大數據價值,讓決策者的選擇有據可依,這就需要用數據分析來深度挖掘數據的價值。
  • 通過數據交換平臺解決企業數據問題
    什麼是數據交換平臺 數據交換平臺就是把不同來源、不同特性的數據在邏輯上和物理上有機地集中,從而為企業應用系統提供全面的數據共享。通過數據交換平臺解決企業數據一致性和數據可靠傳輸問題,打破企業信息孤島,建立企業數據中心,最終實現數據的共享發布應用。
  • 8個用於數據挖掘的優秀開源工具
    8個用於數據挖掘的優秀開源工具 很多的數據科學家和機器學習工程師都有其熟悉的數據挖掘工具,但市場上也不乏許多開源的數據挖掘工具。OrangeOrange是一款開源的,基於組件的數據挖掘軟體,用於機器學習和數據可視化。它包括一系列數據可視化、搜索、預處理和建模技術,並且可以用作Python程式語言的模塊。
  • 浪潮大數據分析平臺專題及常見問題 - CSDN
    以上三大陣營各有特點和優勢,形成了大數據時代三足鼎立的格局。  1.平臺解決方案廠商  以IB M、微軟、惠普、ORACLE, EMC等為代表的傳統IT巨頭,通過「硬體+軟體+數據」的整體平臺向用戶提供大數據一站式解決方案。IBM在過去幾年連續投入160億美元,收購了30多家與大數據相關的企業,初步實現了大數據行業應用的布局。
  • 讓數據活起來 讓建模精起來山東省公安廳機關數據建模大賽決賽側記
    聲情並茂的建模介紹,精彩生動的PPT展示,激烈的思維交鋒……11月13日上午,在山東省公安廳機關數據建模大賽決賽現場,來自交警、經偵、食藥環偵等部門的數據模型一決高下。「即將進入5G時代,大數據運用風起雲湧,數據建模與應用正逢其時,為公安工作插上了騰飛的翅膀。我們要立足實戰實效、民警減負、群眾滿意,通過大賽提煉一批有實戰價值的可複製、可推廣的模型,推動智慧警務提檔升級。」山東省公安廳副廳長修濰青在現場為選手加油鼓勁。經過初賽的洗禮,山東省公安廳機關數據建模決賽的角逐更加激烈。
  • 諸葛用戶數據分析平臺——聚焦業務場景數據應用價值挖掘
    諸葛用戶數據分析平臺(Insight)一個基於用戶全生命周期的精細化運營平臺 從用戶獲取、活躍、留存到轉化率,核心數據採集、分析、洞察於一體,挖掘增長契機,提高運營決策效率;通過360°用戶視圖,深度還原用戶的使用場景,找到用戶行為偏好,幫助產品經理提升產品體驗,提升用戶留存;針對市場DSP投放、SEM推廣、移動推廣等實現全渠道監測,用數據復盤營銷Campaign,不斷優化獲客成本
  • 歐德蒙積木雲2.0:通過人工智慧技術 深度挖掘健康數據
    作為一家智能健康服務公司,歐德蒙的人工智慧自學習平臺——積木雲2.0發布,通過人工智慧技術,深度挖掘健康數據,幫助用戶感知健康信息,避免健康風險。硬積木——健康解決方案攜手成品共建健康大數據積木雲1.0時代,歐德蒙將智能健康硬體模塊植入傳統健康設備中,對傳統健康設備進行改造或升級,智能健康硬體模塊包括心率模塊、血壓模塊、血氧模塊、睡眠模塊、計步模塊等,這些基礎模塊傳感器對用戶健康數據進行採集和上傳。
  • 【乾貨】Kaggle 數據挖掘比賽經驗分享
    此文分享筆者在參加數據挖掘比賽過程中的一點心得體會。1.Kaggle 基本介紹Kaggle 於 2010 年創立,專注數據科學,機器學習競賽的舉辦,是全球最大的數據科學社區和數據競賽平臺。在 Kaggle 上,企業或者研究機構發布商業和科研難題,懸賞吸引全球的數據科學家,通過眾包的方式解決建模問題。
  • 楊東出席寧夏公安機關首屆大數據建模大賽頒獎儀式
    這次建模比賽緊緊圍繞大數據平臺「全警建、全警用」的工作要求,堅持引導與激勵並重,推廣與培育並行,集中展示了全區公安大數據智能化應用中的好經驗、好成果。各參賽隊伍圍繞破案打擊、治安防控、反恐維穩、情報研判、規範執法、服務群眾和隊伍建設等主題,交流切磋、取長補短,共同研究大數據建模服務實戰的思路方法,能夠緊扣實戰需求,充分利用網絡大數據平臺中的各類資源,提煉數據分析模型,實現了實戰需求與數據資源的直接對接,業務工作與技術支撐的有機融合。
  • 激流勇進,百度AI 10篇論文入圍國際頂尖數據挖掘會議KDD 2020
    ACM SIGKDD國際數據挖掘與知識發現大會(簡稱 KDD),由 ACM 於1995年創辦,是世界數據挖掘領域的頂級學術會議,有數據挖掘領域「世界盃」之稱,是目前AI領域影響力最廣、規模最大的國際頂級會議之一。
  • 中信銀行信用卡中心招數據挖掘、產品經理、人工智慧等崗位
    數據挖掘崗工作地點:福田區職位描述:1、負責大數據挖掘算法及人工智慧技術的基礎研究和技術組件的開發工作,以及數據挖掘工具和算法的研究引入。2、結合卡中心的業務場景開展組合營銷、動態規劃等領域數據挖掘項目的方案制定、項目實施落地及優化,負責卡中心各業務場景的人工智慧技術可行性驗證和落地部署。
  • 騰訊聯合安全計算平臺問世,助力企業打破打破數據孤島
    9月11日,在2020騰訊全球數字生態大會大數據專場上,騰訊雲AI平臺總監陶陽宇透露,騰訊目前正在打造聯合安全計算平臺,將安全加密技術與大數據計算、人工智慧相結合,能夠有效解決跨機構跨公司之間的數據協作問題。陶陽宇介紹,騰訊很早就提出了通用意義下的聯合安全計算的概念。
  • 「金猿產品展」朗數大數據中臺——全方位一站式大數據服務平臺
    基於體系化設計、融合多年行業經驗、打破相關技術門檻,實現對海量數據集中管理、一站可視化完成開發、深度挖掘數據價值,助力企業數據治理規範化、數據開發多元化、運維監控透明化、數據服務便捷化、數據資產精益化、數據安全全面化、數據平臺智能化。目前,此產品在環保、製造、農業等多個行業應用。
  • MIT博士生、北大校友,利用自監督算法,解決數據集中常見難題
    一些已有的解決辦法事實上,此前為了解決「不均衡」數據集,研究者們已經嘗試過多種方法。僅僅是主流算法,就分為七種:重採樣(re-sampling):分為對少樣本的過採樣、及多樣本的欠採樣,但這2種方法,都有欠缺的地方。