關於如何使用機器學習來做異常檢測的7個問題

2020-11-23 電子產品世界

導讀

本文引用地址:http://www.eepw.com.cn/article/202007/416171.htm

異常檢測的一些入門問題。

問問題是學習的最好方法之一。但有時你不知道從哪裡開始,或者該問什麼 —— 尤其是在你還比較熟悉的異常檢測之類的話題上。在這種情況下,最好傾聽別人的問題,讓他們的思路來指導你的學習。以下是我們在「[Ask Me Anything: Anomaly Detection](https://www.tibco.com/events/ask-me- anything-webinar-anomaly-detecing-machine -learning)」網絡研討會上收到的一些問題,可以幫助你入門。

離群點和異常值的區別是什麼?

離群值是遠離分布的位置或者平均值的觀測值。然而,它們並不一定代表異常行為或由不同過程產生的行為。另一方面,異常是由不同的過程生成的數據模式。

異常檢測在藥品中有什麼應用嗎?

異常檢測在藥物生命科學領域有許多應用。包括在製藥生產中使用統計過程控制(SPC)或質量控制(QC)和多元過程控制(MSPC)圖表進行過程監控和質量控制。及時發現異常是避免異常事件發生,遵守安全標準的關鍵。發現櫃檯交易中的異常情況,可以用來打擊醫藥零售數據中的處方濫用。實時檢測多參數臨床試驗數據中的異常,有助於保證臨床試驗的成功。

GANs也用於異常檢測嗎?如果是的話,能否提供一個行業用例

生成對抗網絡(GANs)是一種新的無監督學習方法,在識別異常方面非常有效。由於GANs是設計成迭代的,並且對抗性訓練的目的是利用重構樣本來優化減少殘差損失,因此它們在半結構化和非結構化數據中工作得很好。它們在醫學圖像分析(幫助放射學家發現難以識別的腫瘤)、面部識別、文本圖像轉換等方面非常有用。

數據相關性會影響異常檢測嗎?我們可以用什麼方法,怎樣減少這些影響?是否最好在開始異常檢測之前清除和刪除關聯數據?

正如在網絡研討會上提到的,我們不認為相關性會影響異常檢測,但我們有許多可用的技術來幫助確定如何處理相關變量。一個建議是使用主成分分析(PCA)這樣的技術來減少維數。

建議使用什麼樣的算法適合於檢測與識別網絡活動或數據中的不尋常活動有關的異常?

正如在網絡研討會上提到的,有許多方法和算法可以很好地用於異常檢測的各種應用和用例。其中有遞歸神經網絡(RNN)、生成對抗網絡(GAN)、隔離森林、深度自編碼器等。如果你對網絡/圖分析特別感興趣,用來識別網絡圖異常的兩種主要方法是直接鄰居離群點檢測算法(DNODA)和社區鄰居算法(CNA)。

在我目前的工作中,「新穎性」是我們努力去發現的主要東西。質量控制圖對於已知的模式很有效,但是自動識別新模式比較困難。我希望能得到一些在這方面有所幫助的工具的想法。

對於單變量質量控制圖,西方的電氣規則可以用於檢測少數常見的模式。經典的多元方法,如偏最小二乘(PLS),會捕獲到涉及不止一個變量的模式,但不能被單變量方法檢測。自動編碼器是最全面的工具,將涵蓋最廣泛的不同模式。它可以捕獲多變量、循環、非線性和交互的模式。你使用一組正常數據訓練autoencoder,在訓練集中沒有出現的新數據中出現的任何模式都將被標記。

通過做PCA來減少維度會影響數據集中的異常嗎?它會導致異常現象的消失嗎?如果是這樣,如何預防呢?

做PCA將會在原始數據集中捕獲一些百分比的方差。因此,我們使用PCA進行異常檢測的方法是計算原始點到低維空間中表示的點的「距離」。距離越大(即在將觀測結果映射到低維空間時「丟失」的越多),我們就越認為它是一種異常。

英文原文:https://www.tibco.com/blog/2020/01/27/7-questions-on-how-to-use-machine-learning-for-anomaly-detection/


相關焦點

  • 機器學習如何做好分布外異常檢測?谷歌這篇 NeurIPS 2019 論文提出...
    谷歌在 NeurIPS 2019 論文中提出並發布了針對基因組序列 OOD 檢測的現實基準數據集,進而提出一種基於似然比的解決方案,可顯著提高 OOD 檢測的準確性。AI 科技評論將谷歌對該方法的官方解讀編譯如下。深度學習科學家要成功部署機器學習系統,需要系統能夠區分出異常數據或與訓練中使用的數據有顯著差異的數據。
  • 數據科學和機器學習面試問題集錦
    在過去的幾個月裡,我面試了許多公司涉及數據科學和機器學習的初級職位。介紹一下我自己,以讓你對我有一定了解。我還有最後幾個月就研究生畢業,我的碩士是機器學習和計算機視覺,我之前的大部分經驗是研究/學術,但在一個早期創業公司待過8個月(與機器學習無關)。這些角色包括數據科學、通用機器學習和專精自然語言處理及計算機視覺。
  • Python機器學習7:如何保存、加載訓練好的機器學習模型
    本文將介紹如何使用scikit-learn機器學習庫保存Python機器學習模型、加載已經訓練好的模型。學會了這個,你才能夠用已有的模型做預測,而不需要每次都重新訓練模型。本文將使用兩種方法來實現模型的保存和加載:Pickle和joblib。
  • 資源| 25個機器學習面試題,期待你來解答
    選自Medium機器之心編譯參與:Geek AI、王淑婷、思源機器學習有非常多令人困惑及不解的地方,很多問題都沒有明確的答案。但在面試中,如何探查到面試官想要提問的知識點就顯得非常重要了。在本文中,作者給出了 25 個非常有意思的機器學習面試問題,這些問題都沒有給出明確的答案,但都有一定的提示。
  • 使用Flask部署機器學習模型
    沒有多少人會談論如何部署你的機器學習模型。把你的模型投入生產意味著什麼?它需要什麼?這些都是每個數據科學家需要回答的關鍵的職業定義問題。這就是為什麼我決定寫下這個教程來演示如何使用Flask來部署機器學習模型。我們將首先了解模型部署的概念,然後討論Flask是什麼,如何安裝它,最後,我們將深入到一個問題陳述中,學習如何使用Flask部署機器學習模型。
  • Jeff Dean兩年AMA全盤點:26個關於谷歌大腦和機器學習未來的問題...
    兩年的AMA下來,Jeff Dean基本上借著網友提問對谷歌大腦的相關情況做了非常全面的回答,不僅有很多「是什麼」和「為什麼」,還有很多「未來會如何」。雷鋒網 AI 科技評論把這些問答做了個整理,相信還對谷歌大腦有任何疑惑的讀者看完以後都會得到滿意的解答。
  • 機器學習:Python中的四種機器學習技巧
    而算法可以利用多種技術來獲得輸出。Python的機器學習技巧機器學習回歸算法倒退就是回到以前的狀態: 一個往往比較落後的狀態。在有關統計學的書籍中,您會發現回歸可以衡量一個變量的平均值和其他值的對應值如何相互關聯。
  • 算法應用|機器學習python應用,簡單機器學習項目實踐
    上一篇文章中介紹了機器學習的簡單知識,還有python中進行機器學習實踐需要的生態環境,接下來將會通過鳶尾花分類這個例子對機器學習做一個簡要的介紹。通過一步一步地實現這個項目來介紹以下內容。導入和使用python中機器學習的各個方面的類庫。導入數據,並通過描述性分析、可視化等對數據進行分析。創建六個模型,並從中選擇準確度最高的模型。
  • 數據科學家必備的5種離群點/異常檢測方法
    當觀察值只是一組數字並且是一維時,很容易識別它,但是當你有數千個觀察值或多維值時,你需要更聰明的方法來檢測這些值。這就是本文將要介紹的內容。為什麼我們關心異常?離群點的檢測是數據挖掘的核心問題之一。數據的不斷擴展和持續增長以及物聯網設備的普及,使我們重新思考我們處理異常的方式,以及通過觀察這些異常情況可以構建的用例。
  • 深度| 機器學習對抗性攻擊報告,如何欺騙人工智慧?
    我們不妨將Master的60連勝視為人工智慧與人類交鋒的信號和警報,在人工智慧時代人類如何完成自身的「刷新升級」值得每個人思考。同時其帶來的安全問題也急需安全專家去突破。隨著人工智慧和機器學習技術在網際網路的各個領域的廣泛應用,其受攻擊的可能性,以及其是否具備強抗打擊能力一直是安全界一直關注的。之前關於機器學習模型攻擊的探討常常局限於對訓練數據的汙染。
  • 如何使用PySpark來利用機器學習模型對流數據進行預測?
    來源:Pexels概述流數據是一個在機器學習領域蓬勃發展的概念學習如何使用PySpark來利用機器學習模型對流數據進行預測我們將介紹流數據和Spark Streaming的基礎知識,然後深入到實現部分在數據預處理階段,我們需要轉換變量,包括將分類變量轉換為數字變量,創建分箱,去除異常值和很多其他的事。Spark保留了在數據上定義的所有轉換的歷史記錄。因此,無論何時發生故障,它都可以追溯轉換的路徑並重新生成計算結果。我們希望Spark應用程式7 x 24小時持續運行。並且每當故障發生時,我們都希望它能儘快恢復。
  • 關於RPA的7個常見問題
    事實上RPA主要替代的是人類重複性的工作,讓人可以集中經歷完成高附加值的工作,比如完成前臺與客戶交互的複雜任務,後臺的流程由高效的RPA來完成,從而提高整體效率。RPA只是將人力從低附加值的工作中解放出來,而不是替代人。3、 RPA只是降低成本首先使用RPA能夠降低成本。
  • 在機器學習回歸問題中,你應該使用哪種評估指標?
    如果你像我一樣,你可能會在你的回歸問題中使用R平方(R平方)、均方根誤差(RMSE)和均方根誤差(MAE)評估指標,而不用考慮太多。儘管它們都是通用的度量標準,但在什麼時候使用哪一個並不明顯。R方(R)R代表模型所解釋的方差所佔的比例。R是一個相對度量,所以您可以使用它來與在相同數據上訓練的其他模型進行比較。
  • 如何使用 Julia 語言實現「同態加密+機器學習」?
    但這種方法存在一些問題:機器學習模型一般都很大,而用戶的設備實際上可能沒有足夠的存儲空間或算力來運行模型機器學習模型一般都會頻繁地更新,你可能不會想在網絡上頻繁傳輸這麼大的模型開發機器學習模型需要大量時間和計算資源,你可能會想通過向使用該模型的用戶收費來收回成本接下來,常用的解決方案是將模型作為應用程式接口(API)在雲上公開。
  • Quora是如何使用機器學習的?
    作者丨Nikhil Dandekar譯者 丨 Teixeira10譯者註:在本文中,作者從提問,解答,閱讀等方面介紹了Quora在2017年是如何將機器學習應用於網站的,同時給出了使用的模型。以下為譯文:2015年,公司的工程副總裁Xavier Amatriain,關於如何在Quora上使用機器學習給了一個很好的答案。
  • ML.NET 0.7 發布,微軟開源的跨平臺機器學習框架
    微軟發布了 ML.NET 0.7,此版本側重於為基於推薦的機器學習任務提供更好的支持,主要實現了異常檢測、增強了機器學習 pipeline 的可定製性,並且支持在 x86 應用程式中使用等。
  • 機器學習算法中的7個損失函數的詳細指南
    介紹想像一下-你已經在給定的數據集上訓練了機器學習模型,並準備好將它交付給客戶。但是,你如何確定該模型能夠提供最佳結果?是否有指標或技術可以幫助你快速評估數據集上的模型?當然是有的,簡而言之,機器學習中損失函數可以解決以上問題。
  • 想快速部署機器學習項目?來看看幾大主流機器學習服務平臺對比吧
    通過使用機器學習雲服務,你可以開始構建第一個工作的模型,只要一小個團隊,就可以從機器學習的預測中獲得有價值的信息。許多人已經討論過不同的機器學習的策略。現在讓我們來看看市場上最好的機器學習平臺都有哪些服務。什
  • [CVPR 2018論文筆記] 真實監控場景中的異常事件檢測
    最近UCF的CV研究中心就在CVPR18上發表了一篇關於監控視頻異常事件檢測的論文(Real-world Anomaly Detection in Surveillance Videos, arxiv 1801.04264),提出了一種基於深度多實例排序的弱監督算法框架,同時提出了一個新的大規模異常事件檢測數據集。這篇筆記主要對這篇文章進行介紹,也算是幫助自己理解,若有錯誤煩請指正。
  • 17個機器學習的常用算法!
    在機器學習領域,人們說起回歸,有時候是指一類問題,有時候是指一類算法,這一點常常會使初學者有所困惑。選前k個最小距離的樣本;4. 根據這k個樣本的標籤進行投票,得到最後的分類類別;如何選擇一個最佳的K值,這取決於數據。一般情況下,在分類時較大的K值能夠減小噪聲的影響。但會使類別之間的界限變得模糊。一個較好的K值可通過各種啟發式技術來獲取,比如,交叉驗證。另外噪聲和非相關性特徵向量的存在會使K近鄰算法的準確性減小。