基於文本分類技術的惡意代碼檢測工具

2020-11-22 電子產品世界

作者張東紅中國科學院軟體研究所 (北京 100864)

本文引用地址：http://www.eepw.com.cn/article/201808/391178.htm

　　張東紅,碩士生，曾獲得「2012國際青年創新大賽」特等獎，以及「第十三屆『五四杯』大學生創業計劃競賽」二等獎。

摘要：惡意代碼對人們的工作和生活帶來了嚴重的威脅，對惡意代碼進行檢測也變得越來越重要。一種有效的惡意代碼檢測方式是借鑑機器學習技術，訓練檢測模型並使用其檢測新樣本中是否含有惡意代碼。為達到此目的，使用操作碼特徵的檢測方法近年來深受歡迎。用於高效、可配置地反彙編多種平臺多種格式類型的可執行樣本，避免基於遞歸下降反彙編算法的 IDA Pro 遇到的各種問題;本文還重新設計和實現了「飛鼠」惡意代碼檢測系統，自動化地採集、標記、處理樣本，提高反彙編成功率。

1 「飛鼠」惡意代碼檢測系統

　　針對此問題，論文根據線性掃描反彙編算法實現了低精度的反彙編工具D-light，用於高效、可配置地反彙編多種平臺多種格式類型的可執行樣本，避免基於遞歸下降反彙編算法的 IDA Pro 遇到的各種問題;論文還重新設計和實現了「飛鼠」惡意代碼檢測系統，自動化地採集、標記、處理樣本，在兼容 IDA Pro的基礎上，同時支持線性掃描反彙編工具 D-light，並能夠根據配置選擇相應算法實現惡意代碼檢測。論文通過實驗分析指出，使用線性掃描反彙編算法提取操作碼特徵，能夠在允許一定程度的反彙編代碼不準確的情況下，提高反彙編成功率，增加可利用的樣本數目;訓練數據集樣本量的大幅增加可以彌補樣本反彙編質量小幅度降低的損失，最終超越，或保持，基於 IDA Pro 的檢測模型的檢測效果。實驗中還發現，使用多項式核函數的支持向量機分類算法在實踐中有著更好的性能和應用價值。如圖1和圖2所示。

2 網際網路與病毒發展現狀

　　隨著計算機技術的高速發展和計算機網絡的不斷普及，計算機和網際網路已經深入到人們日常生活和工作的方方面面。根據中國網際網路信息中心在2018年1月發布的《第41次中國網際網路發展狀況統計報告》，截至2017 年12 月，我國網民規模達7.72億，全年共計新增網民4074 萬人，網際網路普及率達55.8%，相比較於2016年底提升了2.6%。同時我國在線政務服務用戶規模達到4.85 億，佔總體網民的62.9%，通過支付寶或微信城市服務平臺獲得政務服務的使用率為44.0% 。

　　日益便捷的網絡互聯環境和成熟的計算機技術，也為網絡攻擊的產生與傳播提供了極大的便利條件，每年新增的軟體數量呈現出持續性增長的趨勢。在賽門鐵克(Symantec)公司2010 年發布的安全報告中指出，賽門鐵克公司相比於2008 年捕獲到169323 個新型軟體，2009 年共捕獲到了2895802個新型軟體。根據中國網際網路應急響應中心(CNCERT/CC )在2017年5月發布的《2016 年中國網際網路網絡安全報告》，CNCERT/CC 通過自主捕獲以及與廠商交換獲得的移動網際網路惡意程序數量約205萬個。

3 「飛鼠」的設計

　　基於特徵碼的靜態惡意代碼檢測流程可以分為三部分，首先需要獲取惡意代碼，然後對現有已知的惡意代碼進行特徵分析，提取相應的特徵碼;然後匯總整理，將提取的特徵碼存入特徵庫;最後，在對未知的可執行樣本進行檢測時，根據特徵庫中的特徵碼逐項進行匹配。如果待檢測樣本中包含特徵庫中的特徵信息，則認為該樣本是惡意代碼，反之，則認為是非惡意代碼。如圖3。

4 「飛鼠」系統特徵訓練檢測模型

　　在獲取到包含惡意代碼樣本和非惡意代碼樣本的原始實驗數據集，並進行預處理和數據集劃分之後，對訓練集數據首先使用線性掃描反彙編工具進行反彙編處理。然後從反彙編代碼中提取操作碼特徵。在完成操作碼特徵提取之後，會首先根據訓練集中操作碼特徵的數據特徵選擇一定的操作碼特徵對樣本進行向量化表示。最後將描述樣本的特徵向量輸入分類模型中進行訓練，得到用於惡意代碼檢測的惡意代碼檢測模型。測試階段，使用相同的線性掃描反彙編方法對未知樣本進行反彙編提取其操作碼特徵。根據訓練階段選擇出來的操作碼特徵子集對未知樣本進行向量化描述。最後將該描述向量輸入到訓練階段得到的惡意代碼檢測模型進行檢測，得到最終的惡意代碼檢測結果，惡意代碼或者非惡意代碼。

　　在惡意代碼檢測工作中，可以定義混淆矩陣(confusion matrix)來記錄相應的檢測結果數據。如表 1所示，TP 表示將惡意代碼檢測成為惡意代碼的樣本數，FP 表示非惡意代碼檢測成為惡意代碼的樣本數，FN 表示惡意代碼檢測成為非惡意代碼的樣本數，TN 表示非惡意代碼檢測成為非惡意代碼的樣本數。

5 結論

　　論文提出的解決方案，主要思想是通過訓練樣本數量的大幅增長來彌補操作碼特徵略微不準確的問題，所以在該解決方案中通過 D-light 反彙編工具獲取大量稍微有些不準確的反彙編代碼提取操作碼特徵來訓練惡意代碼檢測模型。在對反彙編代碼的質量和數量對惡意代碼檢測性能影響的實驗研究中，通過使用D-light反彙編提取操作碼特徵訓練得到的惡意代碼檢測模型與使用IDA Pro反彙編提取操作碼特徵訓練得到的惡意代碼檢測模型進行對比分析，發現使用 D-light反彙編提取操作碼特徵訓練得到的惡意代碼檢測模型的檢測性能更好一些，驗證了本文提出的使用線性掃描反彙編算法提取操作碼特徵訓練惡意代碼檢測模型的解決方案是有效和可行的。此外，在對比分析實驗中，本文還發現使用多項式核函數支持向量機分類算法的惡意代碼檢測模型在實踐中檢測性能表現最好。

　　參考文獻：

　　[1] 中國網際網路信息中心.第 41 次中國網際網路發展狀況統計報告[J]. 中國經濟報告, 2017(4).

　　[2] Nataraj L,Karthikeyan S,Jacob G,et al.Malware images: visualization and automatic classification[C]//Proceedings of the 8th international symposium on visualization for cyber security. ACM, 2011: 4.Fossi M, Egan G, Haley K, et al. Symantec global internet security threat report[J]. Volume 1, 2010.

　　[3] Fossi M,Egan G,Haley K,et al.Symantec global internet security threat report [J]. Volume XVI, 2011.

　　[4] 國家計算機網絡應急技術處理協調中心.2016 年中國網際網路網絡安全報告[M/OL].北京: 人民郵電出版社,(2017).http://www.cert.org.cn/publish/main/upload/File/2016_cncert_rep -ort.pdf.

　　本文來源於《電子產品世界》2018年第9期第75頁，歡迎您寫論文時引用，並註明出處。

相關焦點

一文淺析Office惡意宏代碼如何隱藏和破解

含有惡意宏的Office附件在APT攻擊、勒索病毒等攻擊事件中被廣泛使用，黑客在製作惡意宏時通常會使用一些技巧來隱藏宏代碼，防止安全人員對宏代碼直接進行分析。
Python文本處理工具都有哪些?

從網頁上獲取文本數據之後，依據任務的不同，就需求進行根本的文本處理了，譬如關於英文來說，需求根本的tokenize，關於中文，則需求常見的中文分詞。那麼，Python文本處理東西都有哪些呢?今天就跟隨小編一起來了解下吧!
攻擊者利用惡意軟體繞過DNA檢測,或引發「生物戰」

然而，基於此開展的網絡攻擊對於人類本身來說，或許是一場災難。在學術期刊《自然生物技術》上發表的一篇題為《網絡生物安全：合成生物學中的遠程DNA注入威脅》的研究論文記錄了如何使用惡意軟體破壞生物學家的計算機，以替換DNA測序中的子字符串。攻擊者可以利用《合成雙鏈DNA和統一的篩選協議v2.0系統供應商的篩選框架指南》的漏洞繞過協議，從而開展攻擊。
mac 惡意軟體使用run-only AppleScripts繞過檢測

AppleScript 文件包括源碼和編譯的代碼，但是啟用了"run-only"後就只有編譯後的版本了，不再有人類可讀的原始碼，使得逆向分析幾乎不可能。 Sentinel One安全研究人員在2020年底發現了一個新的OSAMiner樣本，雖然分析過程非常艱難。
實踐入門NLP:基於深度學習的自然語言處理

特別是最近兩年，基於深度學習的自然語言處理逐漸取得了一定進展，在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題，而這些應用的實現，基本依賴於底層技術和模型的進步，再加上自然語言處理領域也算是一個多學科交叉的行業，自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
黑客通過惡意軟體繞過DNS檢測,或引發倫理災難

打開APP 黑客通過惡意軟體繞過DNS檢測，或引發倫理災難 Sandra1432 發表於 2020-12-02 15:51:16
CopyCat 代碼克隆檢測發布,劍指開源軟體抄襲

為了在抵制開源軟體抄襲的問題上盡一分力，我們正式推出了 CopyCat 代碼克隆檢測服務。CopyCat 是我們在 NiCad Clone Detector 項目的基礎上對性能進行優化和調整而推出的代碼克隆檢測服務，是基於 NiCad 技術的代碼克隆檢測技術。
NLP的文本分析與特徵工程

摘要在本文中，我將使用NLP和Python解釋如何為機器學習模型分析文本數據和提取特徵。自然語言處理（NLP）是人工智慧的一個研究領域，它研究計算機與人類語言之間的相互作用，特別是如何對計算機進行編程以處理和分析大量自然語言數據。NLP常用於文本數據的分類。文本分類是根據文本數據的內容對其進行分類的問題。
加密貨幣挖礦惡意軟體使用Windows installer繞過技術

加密貨幣挖礦惡意軟體開始使用一些包括Windows installer在內的新的繞過技術。加密貨幣挖礦惡意軟體數量不斷增長的一個原因是其暴利性，另一個原因是可以在系統中不被檢測到，尤其是使用了不同的混淆技術後更難檢測。研究人員發現，攻擊者在不斷的向加密貨幣挖礦惡意軟體中添加混淆技術來繞過AV的檢測。
NLP中的文本分析和特徵工程

語言檢測，文本清理，長度測量，情緒分析，命名實體識別，n字頻率，詞向量，主題建模前言在本文中，我將使用NLP和Python解釋如何分析文本數據並為機器學習模型提取特徵。NLP(自然語言處理)是人工智慧的一個領域，研究計算機和人類語言之間的交互，特別是如何編程計算機來處理和分析大量的自然語言數據。NLP經常被應用於文本數據的分類。
「Python爬蟲與文本實例技術與應用」培訓班通知

為提升相關科技工作者的技術水平，北京博宏科睿教育科技有限公司特舉辦2018年第二期「Python爬蟲與文本挖掘實例技術與應用」培訓班，本次培訓從爬蟲的基本知識入手，使用Python作為實現工具，一步步講述網絡爬蟲的實現，具體內容如下：【培訓目標】 1.讓學員儘快掌握python語言的基本結構與語法與數據類型，
萬字長文綜述:給你的數據加上槓桿—文本增強技術研究進展及應用

自然而然，在現有數據基礎上，運用文本增強技術來擴充樣本集，是一件又快又省，性價比很高的事。很多研究也已經表明，這種方法可以明顯提高模型的性能 [1-3]；(2) 分類任務中樣本分布不均衡的場景除了一些基準 benchmark，真實場景中大部分文本分類任務中的各類別樣本數目都是不均衡的，很多時候樣本數最多類別的數目可能比最少的類別高兩個數量級。
能信安亮相2020高交會,展示「移動互聯安全」新技術

圍繞本屆大會「科技改變生活,創新驅動發展」的主題,能信安重點展出業界領先的基於人工智慧技術的移動應用安全檢測與分析系統、加固系統、移動智能終端檢測系統、無線通信安全檢測系統,並將技術和產品融入到金融、教育、APP檢測機構等應用場景中,向行業展示全新的智能化移動安全解決方案。
百度世界2020文心ERNIE吸引眾多開發者目光推動NLP技術向產業落地

比如NLP領域常見的文本審核任務，需精準分類出正常文本和敏感文本，是一個典型的文本分類問題。但在實際的數據收集中，正常樣本與敏感樣本的數量很容易失衡，經常會遇到9：1（90%的正常樣本），甚至差異更大的情況，但又要求訓練出的模型能夠更全召回敏感文本。這種情況就需要文本「數據增強」的功能，來豐富和擴展敏感樣本的數量，讓數據更豐富、比例更適合。
真假易辨維基百科即將推出彩色代碼文本

WikiTrust由Wiki實驗室研發，它通過使用一種特定的算法根據編輯者之前對維基百科的貢獻來計算出該編輯者的信譽度，根據其信譽度使用不同的彩色代碼將新編輯的文本內容顯示出來。這種功能基於一種極其簡單的理論：信息在頁面上被保留的時間越長說明這些信息越正確越可信。
20個編寫現代 CSS 代碼的建議 - OSCHINA - 中文開源技術交流社區

而Flexbox則是專門的用於進行布局的工具。並且在寫樣式代碼的時候還需要加上特定的瀏覽器前綴支持也是個麻煩活，幸虧現在也是有很多工具可以輔助我們進行這樣的開發:在生產環境下使用Minified代碼為了提升頁面的加載速度，在生產環境下我們應該默認使用壓縮之後的資原始碼
深度學習的NLP工具

為什麼去年可以工作的代碼和最新發布的深度學習框架不適配？為什麼一個很直白的基線這麼難以建立？在今天的世界中，這些都是自然語言處理（NLP）的研究員遇到的問題。我們來看一個假想的博士學生。我們叫它亞歷山大，他剛開始機械翻譯（NMT）的研究。有一天早上他看到了Google 最著名的論文「注意力是你全部需要的」，其中介紹了Transformer 模型，完全基於注意力機制。
RXThinkCMF_TP6 v2.2.0 旗艦版發布,優化富文本編輯器上傳本地圖片...

v2.2.0版本更新1、【解決】解決富文本編輯器上傳本地圖片報錯的問題;2、【優化】優化富文本編輯器上傳文件`upload_json.php`的圖片域名，
MTPE系列之一-什麼是CAT工具?

典型的CAT工具是支持雙語文件格式並具有內置翻譯記憶庫的文本編輯器。CAT工具功能拼寫檢查器，自動更正—自動突出顯示並修復拼寫和語法錯誤。上下文中查看—以源語言和目標語言實時顯示包含圖像，文本框大小和布局的多媒體文檔。集成的機器翻譯 -針對連接的MT引擎的句段的建議翻譯。
快速、簡單、準確的安捷倫魚類 DNA 檢測技術成為海產品種類鑑定和...

快速、簡單、準確的安捷倫魚類 DNA 檢測技術成為海產品種類鑑定和標籤信息驗證的常規檢測方法 2010 年 3 月 8 日，佛羅裡達州奧蘭多市，匹茲堡儀器博覽會（Pittcon) 2010—安捷倫科技公司（紐約證交所代碼：A）日前發布了一套系統，加速和簡化了利用 DNA 鑑定食用魚種類的分析過程

基於文本分類技術的惡意代碼檢測工具

相關焦點

一文淺析Office惡意宏代碼如何隱藏和破解

Python文本處理工具都有哪些?

攻擊者利用惡意軟體繞過DNA檢測,或引發「生物戰」

mac 惡意軟體使用run-only AppleScripts繞過檢測

實踐入門NLP:基於深度學習的自然語言處理

黑客通過惡意軟體繞過DNS檢測,或引發倫理災難

CopyCat 代碼克隆檢測發布,劍指開源軟體抄襲

NLP的文本分析與特徵工程

加密貨幣挖礦惡意軟體使用Windows installer繞過技術

NLP中的文本分析和特徵工程

「Python爬蟲與文本實例技術與應用」培訓班通知

萬字長文綜述:給你的數據加上槓桿—文本增強技術研究進展及應用

能信安亮相2020高交會,展示「移動互聯安全」新技術

百度世界2020文心ERNIE吸引眾多開發者目光 推動NLP技術向產業落地

真假易辨 維基百科即將推出彩色代碼文本

20個編寫現代 CSS 代碼的建議 - OSCHINA - 中文開源技術交流社區

深度學習的NLP工具

RXThinkCMF_TP6 v2.2.0 旗艦版發布,優化富文本編輯器上傳本地圖片...

MTPE系列之一-什麼是CAT工具?

快速、簡單、準確的安捷倫魚類 DNA 檢測技術成為海產品種類鑑定和...

百度世界2020文心ERNIE吸引眾多開發者目光推動NLP技術向產業落地

真假易辨維基百科即將推出彩色代碼文本