PHM建模方法論之「 數據特徵提取 」

2021-02-19 天澤智雲CyberInsight

PHM建模方法論包括6大步驟,分別是數據採集、數據預處理、特徵提取、模型建立、預測與診斷以及可視化。

數據特徵提取步驟是整個過程的第3步,目的是通過採用合適的數據分析方法,從原始數據中提取與建模相關的有效特徵來建立模型。

常用的特徵提取方法,包括時域特徵提取,頻域特徵提取,以及時頻域特徵提取。

時域特徵提取通常包括的參數較多,比如有RMS(有效值)、峰峰值、峭度、裕度、歪度、均值、均方根、脈衝因數、波形因數、波峰因數等等。 

上圖展示了4種不同健康條件下軸承的振動信號。從這4個圖裡邊我們可以看出,軸承的健康程度不同,振動信號波形的幅值也不相同,並且波形的特徵也不相同。通常來講,當軸承出現磨損以後,振動信號的峰峰值幅值有效值,以及峭度值都會增大。

上圖展示了柴油機4種不同健康狀態下,振動信號的特徵參數。從這4張圖裡邊我們也可以看出來,不同狀態下所對應的特徵參數也是存在一定的差異。

頻域特徵提取主要包括頻帶能量提取和特徵頻率提取。

所謂頻帶能量提取是指,在頻譜內指定的頻段內提取所對應的能量。特徵頻率提取是指在特定的頻率點提取該點鎖定的幅值。頻帶能量提取通常會在FFT頻譜或功率譜裡邊來進行。以FFT頻譜為例,當要提取某一個頻段內所對應的能量時,可以把該頻段內所有的幅值進行相加,來作為該頻段內所對應的能量。

以滾動軸承為例,當軸承出現磨損時,通常會在頻譜中出現共振頻帶頻率簇,並且在包絡譜中出現軸承故障特徵頻率。如上圖所示,磨損的軸承會在4000-8000Hz頻段內出現一個共振頻帶,因此,可以將該頻段所對應的能量作為區分發電機軸承磨損和正常的一個特徵參數。

另外,對共振頻帶進行解調後可以得到包絡譜,通過包絡譜可以清晰地看到,軸承對應的故障特徵頻率。因此,可以把特徵頻率作為特徵參數,然後提取特徵頻率所對應的幅值。

常用的時頻域分析提取方法包括短時傅立葉變換(STFT)和小波分析。時頻域分析特別適用於分析非平穩信號,然後針對非平穩信號的特徵提取可以考慮時頻域分析。 

時頻域分析的主要優點是可以在時間、頻率以及幅值三個維度來觀察信號的特徵。

上圖是某個典型非平穩信號的STFT結果。從圖中我們可以清晰地看到,在E1、E2、E3、E4這4個位置出現了能量比較集中的區域,而且對應的頻率以及時刻均不相同。因此,可以把這4個區域所對應的能量作為該信號的一個特徵,用於後續分析,而4個區域的能量則可以通過幅值相加進行對應。

另外,小波分析也是時頻域分析的一種常用方法。不同於短時傅立葉變換,小波分析所採用的基函數是一種幅值衰減、可伸縮、可平移的小波基,而短時傅立葉變換是基於FFT來進行的,而FFT基數函數是一種無限長的正弦函數。所以說通常情況下,小波分析要優於短時傅立葉變換,但小波分析也有自身的一些缺點。 

上方左、右兩圖分別採用Cmor3-3小波和Db8小波對齒輪箱高速端進行振動分析,對比兩圖可以發現,採用不同的小波,對最後的分析結果會產生較大的影響。 

那麼,在實際中應如何去選擇小波基呢?一個是可以通過經驗的方法;另外也可以多嘗試幾種小波,選擇分析效果最好的一種。

特徵選擇的目的是提升模型輸入與建模目標的相關性並降低冗餘度,避免「維度災難」,同時為後續數據處理提供更好的理解。特徵選擇還有助於減少傳感器的安裝數量,比如,當評估軸承的健康狀態時,若振動特徵更能夠體現軸承狀態,可以只增加振動傳感器,而不選擇溫度或其他類型的傳感器。此外,通過特徵選擇還可以提高算法的計算效率。

特徵選擇的常用方法:

— 利用專家領域知識選擇相應的變量(如,軸承特徵參數通常選擇RMS、峰峰值、峭度值、歪度;與風電機組振動相關的參數通常選擇功率、轉速、風速)

— 嘗試將多個變量進行組合,選擇模型性能最優的變量組合,如分類模型

— 全局優化及搜索算法,如遺傳算法,適用於解決大規模特徵選擇問題

— 啟發式變量選擇方法,如向前選擇法、向後選擇法

— 互信息法,即某個特徵與某之間的互信息最大,表明該特徵越有效,後續選擇個特徵進行建模

— Fisher score,即選擇得分最高(樣本方差越大,得分越高)的特徵來作為有效特徵

降維可以減少計算量,提高計算效率,提高模型的泛化能力。常用的降維方法是基於PCA(主成分分析)的降維,它是通過空間轉換,將高維數據轉化為低維數據。通過PCA降維可以減少原參數之間的相關性,降維之後的數據仍可保留原數據的大部分信息。

如上圖所示,三角形表示二維空間的數據。將三角形朝兩個不同的方向來進行投影,其中,在豎直方向投影后數據的區分度並不是很大,而在水平方向上投影后數據的區分度相對來說比較大,因此我們通常選擇水平方向做為數據區分度最大的方向,而這個方向也就是前面提及的「主成分」。

如上圖所示,PCA降維流程包括以下主要步驟:

首先對原始數據進行特徵提取,然後對提取到的特徵進行標準化處理;

接著計算標準化處理後特徵的協方差矩陣,進行特徵值分解,得到多個特徵值及其對應的特徵向量;

此時,通常會選擇比較大的特徵值及其對應的特徵向量來計算主成分。

通過利用上述原則,便完成了包含原始數據大部分信息的主成分的提取。 

相關焦點

  • 專注圖關係數據挖掘,「極驗」發布圖數據建模平臺「疊圖」
    36氪獲悉,7月11日,「極驗」舉行Graph Learning 創新大會暨極驗 2019 圖數據建模平臺發布會,並發布新產品——圖數據建模平臺。36氪曾多次報導極驗。極驗成立於 2012 年,是一家驗證安全技術服務提供商。
  • 一家「傳統」IT上市公司的人工智慧「新路」
    機器之心:所以稱神州泰嶽 NLP 技術「自成一派」的原因主要還是在選擇以本體論為核心的語義理解技術路徑上。能否再具體介紹一下你們的技術研發方法論?另外案事描述一般特別短小,幾乎沒有統計的特徵,沒法根據詞頻統計重複出現的詞彙。如果我們單純靠深度學習,其實效果並不好,就必須結合的晉博士的理論進行結合,當然結合方式有深淺之分。機器之心:在公安場景中,每個刑警基於自己的斷案經驗,可能都會有一套專屬的斷案方法論,比如需要搜集哪些線索、哪些線索最有價值。
  • GAN不只會造假:捕獲數據中額外顯著特徵,提高表徵學習可解釋性...
    用GAN提取信息糾纏的顯著特徵現有的無監督學習可解釋表徵的方法著重於「從數據中提取獨立不糾纏的顯著特徵」,但是這一方法忽略了顯著特徵的糾纏可能會提供有用信息。而認識到這些信息糾纏,可以提高表徵的可解釋性,從而提取出更高質量和廣泛的顯著特徵。
  • 「小豬佩奇」:成功兒童 IP 背後的商業邏輯和方法論
    媒體對《小豬佩奇》的報導大致可提取為四組數據:(以上評論來自公眾號「愛蓮子」)可見《小豬佩奇》具備以下特徵:用戶體驗佳、用戶規模大、變現模式成熟、持續生命力強、口碑傳播廣,是少有的「名利雙收」的兒童 IP。
  • R 語言之數據分析高級方法「主成分分析」和「因子分析」
    本節主要總結「數據分析」的「主成分分析」和「因子分析」的思想。通過學習《 R 語言實戰 》關於這兩種方法的解釋,我們很容易理解這兩種方法其存在的意義。——降維。我們將要面對的數據實在是太大,變量實在太多,因此計算機所承受的壓力也會越來越大。信息過度複雜是多變量數據最大的挑戰之一,特別是在還要考慮變量間交互關係的時候,變量增加時交互關係的量是按階乘關係在往上漲的,所以降維在很多時候能夠起到減少大量工作量的作用,是數據分析很重要的一個思想。以上是「主成分分析」與「因子分析」聯繫,有共同的目的。
  • GAN不只會造假:捕獲數據中額外顯著特徵,提高表徵學習可解釋性,效果超越InfoGAN | IJCAI 2020
    用GAN提取信息糾纏的顯著特徵現有的無監督學習可解釋表徵的方法著重於「從數據中提取獨立不糾纏的顯著特徵」,但是這一方法忽略了顯著特徵的糾纏可能會提供有用信息。而認識到這些信息糾纏,可以提高表徵的可解釋性,從而提取出更高質量和廣泛的顯著特徵。也就是說,要實現更好的可解釋性,需要同時考慮非糾纏和信息糾纏的顯著特徵。
  • KDD Cup 2018 冠軍「 first floor to eat latiao」:為什麼取這個...
    提到 KDD Cup,相信數據挖掘領域的同學並不陌生。作為目前數據挖掘領域最有影響力、最高水平的國際頂級賽事,KDD Cup 至今已舉辦 21 屆,每年都會吸引世界數據挖掘界的頂尖專家、學者、工程師、學生等前來參賽,被外界譽為大數據領域的「奧運會」。
  • 宣講通知|香港科技大學數據建模理學碩士學位課程(MSc DDM)
    各場宣講會都將由香港科技大學理學院數據建模(DDM)項目教授主講,內容主要涵蓋香港科技大學學校簡介、數據建模(DDM)項目介紹、招生要求及問答環節等。) (MSc)項目簡稱:MSc(DDM)修讀模式:全日制或兼讀制項目修業周期:全日制:1年;兼讀制:2年由物理系和數學系合辦的理學碩士(數據建模) (MSc) 課程,旨在培養理工科學生從數據中提取信息的數據建模能力,以滿足數據建模相關行業需求。
  • 「智能」的產生,本質上是非結構化數據結構化的過程
    每天了解一點創投圈2019 年 9 月 19 日,IT 桔子邀請循環智能(Recurrent)聯合創始人&CEO 陳麒聰為人工智慧社群,帶來「挖掘非結構化客戶交互數據,Recurrent.ai 的商業化之路」
  • Python數學建模技巧之pandas數據處理
    在建模競賽中,大家最了解的科學計算工具或者是程式語言的話,估計很多人都是MATLAB。
  • 如何使用特徵提取技術降低數據集維度
    如果這些特徵數量與數據集中存儲的觀察值數量相差無幾(或者前者比後者更多)的話,很可能會導致機器學習模型過度擬合。為避免此類問題的發生,需採用正則化或降維技術(特徵提取)。在機器學習中,數據集的維數等於用來表示它的變量數。
  • 全面解讀用於文本特徵提取的神經網絡技術:從神經概率語言模型到...
    選自arXiv作者:Vineet John機器之心編譯參與:吳攀、李亞洲、蔣思源文本特徵提取是自然語言處理的核心問題之一,近日,加拿大滑鐵盧大學的 Vineet John 在 arXiv 發布了一篇關於用於文本特徵提取的神經網絡技術的綜述論文。機器之心對該論文進行了編譯介紹,論文原文可點擊文末「閱讀原文」查閱。
  • 用符號提取,快速完成Excel數據分列
    01.數據工具 - 分列 分列的作用:可以將拆分單元格的內容和分發到多個相鄰的單元格的各個組成部分。例如,如果工作表中包含的一列「全名」,您可以將該列拆分為兩個列「名字」和「姓氏」的列。選中需要進行分列的單元格後,在「數據」選項卡中找到「數據工具」組,點擊「分列」,就會出現「文本分列導向」,在這個窗口中我們可以看到有兩個選項:「分隔符號」和「固定寬度」。
  • 「人物特寫」清華大學鄧志東:「特徵提取+推理」的小數據學習才是...
    人類基於「特徵提取+推理」的小樣本、小數據學習人類的科技發展史反覆告訴我們,並不是你有多大雄心、投入多少人力物力,就一定會取得多大的技術突破和成功,有時候其實只是一種歷史的偶然和巧合。當然這種偶然也是建立在大量準備基礎之上的必然。這就是我們常說的,必然中的偶然、偶然中的必然。下一次的技術突破或爆發,應該具備哪些條件?
  • 不會做特徵工程的 AI 研究員不是好數據科學家!上篇 - 連續數據的...
    然而面對實際問題時,收集到的數據往往不是像數據集中那樣整理好的,直接用來跑模型會帶來各種各樣的問題。這時候我們就開始回憶起「特徵工程」這一組容易被忽略但解決問題時不可或缺的硬功夫。數據科學家 Dipanjan Sarkar 近日就發布了兩篇長博客介紹了一些基本的特徵工程知識和技巧。這篇為上篇,主要介紹連續型數值數據的特徵工程處理方法。雷鋒網 AI 科技評論全文編譯如下。
  • 關於PHM,這是有史以來聽到最接地氣的解說
    特徵(Features)從原始信號中提取出的關鍵信息,和應用直接相關、緊耦合的信息,通過數學運算、統計計算得到,從數據分析的角度直接提取的能夠描述數據狀態的一些凝練信息。數據驅動的PHM技術的分析流程通過5S方法論指導工業智能化的落地。
  • 楊強申省梅等AI大咖共談「跨域學習」,搞定小數據才是王道 | CNCC 2020
    理想雖好,但現實卻是——哪有那麼多高質量、標註數據可用,更多的依舊還是小數據。這也正是工業界往往需要大量人力去收集、標註數據的原因。即便如此,「隱私」、「法律」和「專業性」等種種約束,註定了這種方法跟不上AI落地的行進速度。此局又該如何破解?
  • 數據時代幾何處理與建模的研究進展與趨勢
    傳統的幾何處理算法在海量數據面前的瓶頸和短板也慢慢呈現,如何快速有效且魯棒的處理海量幾何數據,從中提取我們需要的信息,比如精確建模,快速成型和瀏覽,高效智能的變形,語義分析,和組織管理到交互,這些問題也慢慢影響著傳統幾何處理方法的發展。
  • 今日Paper|2019-nCoV傳播預測;行人重識別;協同時態建模;舞蹈生成等
    目錄用綜合方法預測2019-nCoV傳播的結束 通過被動WiFi傳感和數據挖掘了解社會事件中的人群行為用於RGB-紅外行人重識別的交叉模態配對圖像生成CTM:面向動作識別的協同時態建模Music2Dance:使用WaveNet的音樂驅動的舞蹈生成 用綜合方法預測2019-nCoV傳播的結束 論文名稱:Predictions
  • 提取圖像數據的特徵,讓機器「看見」
    ,基於結構形態的特徵提取與基於幾何分布的特徵提取。[ 導語 ] 人眼可以看到圖像的視覺信息,包括顏色特徵、紋理特徵、形狀特徵和空間關係特徵,但這種信息並不能讓計算機「看見」。想要讓計算機處理這種視覺信息,就要將圖像的視覺信息轉化成計算機能夠識別和處理的定量形式,也就是圖像特徵提取。下面將介紹兩種方法--基於結構形態的特徵提取與基於幾何分布的特徵提取。