數據清洗在新能源功率預測中的研究綜述和展望

2020-12-27 電氣新科技

新能源功率預測是提高新能源場站控制，保障高比率新能源發電接入電網安全穩定運行的關鍵技術。目前，由於通信故障、設備異常、人為限電等不確定性問題，導致新能源場站的實測數據中含有高比例異常數據，進而降低了功率預測的精度。有效的數據清洗可以提高數據質量，使新能源功率預測結果更加精確。

福州大學電氣工程與自動化學院、福建省電器智能化工程技術研究中心、福建省莆田供電公司、福建莆田荔源集團的研究人員武佳卉、邵振國、楊少華、肖頌勇、吳國昌，在2020年第11期《電氣技術》雜誌上撰文，首先概述了數據清洗的主流方法；然後對異常數據進行詳細分類，從異常值剔除和缺失值重構兩個方面重點闡述和分析了現有數據清洗方法的基本思路、應用條件以及優缺點；最後指出了未來數據清洗中值得關注的問題和方向。

隨著全球經濟的快速發展，能源的需求量逐年遞增。面對不可再生能源枯竭和全球環境汙染問題，新能源以其安全性、環保性和可再生性等優勢在世界範圍內得到了高度重視和廣泛應用，並呈現出良好的發展前景。

據統計，在2019年第一季度，我國新增風電裝機容量478萬kW，累計併網裝機容量達到1.89億kW，全國風電發電量1041億kWh，同比增長6.3%；新增光伏裝機容量478萬kW，累計併網裝機容量達到1.797億kW，全國光伏發電量440億kWh，同比增長26%。

然而，由於新能源發電的隨機性和不確定性，新能源大規模併網後對電力系統的穩定運行造成了巨大的挑戰。提前對新能源進行發電功率預測，能夠協助調度部門調整運行方式，進而保證電網的安全和穩定。近十年來，國內外許多學者都致力於研究新能源的功率預測方法，並取得了豐富的成果。

進行新能源功率預測時，需要對從新能源場站收集到的海量原始數據進行挖掘。然而，由於電場運行時機組棄風、棄光、檢修、極端天氣情況、外界電磁幹擾或設備故障等原因，導致原始數據中存在大量不完整的數據和異常的數據。這些不良數據嚴重影響預測模型的參數估計，造成預測精度低、預測偏差大等後果。因此在功率預測前，有必要進行有效的數據清洗處理。

目前針對新能源功率預測的數據預處理方面的綜述較少，因此有必要對新能源功率預測背景下的數據清洗方法進行綜述和展望。本文從異常值剔除和缺失值重構兩個方面，詳細地闡述、分析和歸納了新能源異常數據的類別和清洗方法。最後對數據清洗在新能源功率預測中需要進一步研究的方向進行了展望。

1 考慮數據清洗的新能源功率預測

精確的功率預測有利於調度部門的決策，可以提高新能源場站的控制性能，進而減少棄風、棄光所導致的發電損失，解決供需不平衡所帶來的系統穩定性問題，增強新能源場站的市場競爭力。然而，精準的功率預測依賴於準確的測量數據，因此有效的數據清洗是新能源功率預測必不可少的步驟。

新能源功率預測時所用到的數據有數值天氣預報（numerical weather prediction, NWP）數據、新能源運行實測數據和新能源地理信息數據等。

當下學者主要以預測變量和被預測量為數據清洗對象。其中，預測變量可以為風速、輻照度等，被預測量一般為新能源機組輸出功率。圖1所示為採用文獻計量分析法得出的數據清洗方法分類示意圖。

圖1 數據清洗方法分類

2 異常值剔除

2.1 功率曲線中異常數據的分類

功率曲線是新能源發電的預測變量與被預測量之間的關係曲線。學者們根據異常數據的分布特徵，把出現頻率高的異常數據類型分成了4類。以風速-風機功率散點圖為例，採用比恩法繪製風電功率曲線圖，4類異常數據的分布如圖2所示。

1）類型1：曲線上方的堆積型異常數據，通常是由於傳感器失靈、通信或測量設備故障導致的。

圖2 異常數據的分布

2）類型2：曲線中部的堆積型異常數據，通常是由限電或通信故障造成的。

3）類型3：曲線周圍的分散型異常數據，通常是由於氣象波動、信號傳播噪聲等隨機情況造成的。

4）類型4：曲線下方的堆積型異常數據，通常是機組故障、停機檢修造成的。

2.2 異常值剔除方法

1）統計量分析法

採用統計量分析的方法，重點在於對變量做描述性統計，從而查看哪些數據是不合理的。常用的方法為利用最大值和最小值判斷新能源功率和預測變量的取值是否超出範圍。若檢測到功率小於等於零的數據則進行剔除，實現數據的清洗整定。統計量分析方法可以簡單有效地完成對新能源數據的檢查，適合處理不在有效數據範圍內的堆積型數據，但是不適用於處理大量的分散型異常數據。

2）3sigma法

3sigma法又稱為拉依達準則。如果數據服從正態分布，分布在（-3, +3）中的數據的概率為99.73%，而分布在距離平均值3之外的數據的概率不到0.3%，屬於極小概率事件，其中為標準差，為平均值。因此在3原則下，將超過3倍的標準差的數據值視為異常值。

然而，實際新能源的發電數據往往並不嚴格服從正態分布，且由於堆積型異常數據的影響，導致識別出的異常值個數少於實際異常值個數。因此，將這種方法用於非正態分布數據的異常值識別時，其有效性有限。

3）小波奇異點檢測法

新能源異常數據可以看成是功率曲線中的奇異點。使用小波變換可以處理非平穩信號，並從非平穩信號中精確辨識出奇異點的位置。通常來說，對奇異點位置的辨識依賴於小波變換係數正負模極大值線在低尺度上的交點。正負模極大值線可以延伸至尺度接近零處，保證兩曲線相交，從而找到奇異點的位置，之後再對其進行修正。

但是由於新能源發電功率有波動性，即使是正常的數據在小波變換之後也可能會存在奇異點，所以判斷出奇異點後還應區分正常的奇異點和錯誤奇異點。此外，在實際應用中，選取合適的小波函數是使正負模極大值線能相交於一點的關鍵，否則將無法識別出奇異點的位置。

4）四分位算法

5）支持向量機回歸算法

支持向量機回歸算法（support vector machine regression, SVMR）的核心是用函數擬合數據，在數據中含有大量異常值的情況下，曲線在回歸估計過程中會因趨近異常數據而發生畸變，從而造成回歸曲線的擬合效果不理想。

在SVMR算法的結構風險函數中加入不敏感損失函數，可以控制異常數據對回歸模型的影響，從整體上考慮回歸曲線的平滑性。這使異常數據與回歸值之間的殘差十分顯著，從而更容易將異常數據進行分離。

6）K最近鄰聚類算法

K最近鄰（K-nearest neighbor, KNN）算法在分類上根據最鄰近的一個或幾個數據的類別決定該數據的類別。藉助距離參數表徵數據的偏離程度，可以對異常數據進行檢測並剔除。常用的距離有歐氏距離和馬氏距離。當某數據點與其他數據點的距離都大於一個閾值時，就被判定為異常數據。該方法簡單易懂，但是在訓練歷史數據構建數學模型時學習速度較慢，泛化能力較差，且需要大量的數據進行訓練，否則訓練誤差會較大。

7）組內最優方差法

在使用組內最優方差法（optimal interclass variance, OIV）時，首先要設置一個初始方差閾值S，然後將預測變量劃分成n個區間，區間劃分的間隔通常取0.5個單位的預測變量，例如將風速區間間隔定為0.5m/s。再根據初始閾值S將每一個區間裡的異常數據和正常數據進行區分，最後對所有區間的數據進行歸納，從而找出所有的異常數據。

採用OIV進行新能源功率曲線分析時，可以快速準確地清洗數據。與其他學習算法相比，此方法不需要歷史數據集進行訓練便可以識別出發電性能偏低的數據簇，且處理速度快，操作過程簡便，通用性強。但是此方法需要人工反覆試探才能確定閾值。

8）基於密度的離群點檢測算法

離群點檢測算法（local outlier factor, LOF）通過聚類的方法識別離群點。由聚類生成的一組數據對象集合稱為簇，同一簇中數據對象周圍的密度與其鄰域周圍的密度相似，而落在簇集合之外的數值則稱為離群點。所以離群點周圍的密度與其鄰域周圍的密度明顯不同，將離群點刪除就能實現異常數據的剔除。

LOF算法可以有效實現對分散性數據的識別，但是識別密度較高的堆積型數據能力較差，而且LOF的閾值設置有一定的難度，要根據經驗或者多次嘗試才能達到理想效果。

9）組合模型清洗法

僅僅使用單個數學方法或者人工智慧算法進行異常數據清洗存在著一定的局限性。為了彌補單個算法的不足，有學者提出一種四分位法和聚類分析的組合模型用於識別異常數據。組合模型在使用時，四分位法用於剔除分散型異常數據，而聚類法用於剔除堆積型異常數據。有學者提出使用四分位法與變點分組法的組合模型對異常數據進行識別並清洗。

以上的方法都可以改進使用單一四分位法時識別堆積型異常數據較差這一局限。

當只是針對數據本身進行清洗時，雖然具有普遍性，但是沒有考慮新能源場站的物理特性，導致異常數據的識別效果變差甚至會誤刪正常數據。為了解決這個問題，在清洗數據時可以將新能源出力之間的相關性和自身出力特性考慮進去，識別效果會明顯提高。

2.3 仿真測試

以福建某風電場為例，該風電場有24臺額定功率為2MW的風電機組。風電機組的切入風速為3m/s，額定風速為15m/s，切出風速為25m/s。風電場風速採集時間間隔為10min，採集時間為2015年2月1日00:00至2015年7月31日24:00。風速-功率散點圖如圖3所示。其中原始數據中有12%的異常數據。

圖3 風速-功率散點圖

分別採用數學方法中的四分位法、人工智慧算法中的SVMR法和四分位-SVMR的組合算法對異常值進行剔除。結果顯示四分位法只剔除了6.65%的異常值，SVMR剔除了7.99%的異常值，而組合模型法的剔除率達到了10.2%。由此證明使用單一的清洗方法有一定的局限性，組合模型法可以將算法的優勢進行互補，進而實現較好的清洗效果。

3 缺失值重構

在異常數據佔比較高的情況下，數據清洗過程中的異常值剔除量將隨之變高，進而破壞了原始數據的完整性和充裕度。這不僅會影響新能源功率的預測模型，而且不利於數據再利用。通過對被剔除數據進行重構，能夠保持數據的完整性和有效性。

採用文獻計量分析方法得出主流的缺失值重構方法有：①基於統計學的重構方法；②基於機器學習的重構方法；③基於物理特性的重構方法。

3.1 基於統計學的重構方法

基於統計學的重構方法有均值重構法、多項式擬合法、級比生成法、三次樣條插值法和遞推式非鄰均值補全法等。其中最常用的為三次樣條插值法。

三次樣條插值函數一般會使用三彎矩插值法去構造。當連續的異常數據點少於等於5時可以直接利用三次樣條插值函數對數據進行重構；當大於5時，則需用改進的多點三次樣條採樣法進行重構。基於統計學的重構方法較為簡便快速，但是重構的數據偏差較大，且忽略了新能源數據的時序信息。

3.2 基於機器學習的重構方法

常用的基於機器學習的重構方法有KNN、回歸算法、期望最大化算法（expectation-maximization, EM）等。其中KNN根據歐式距離用於確定缺失數據樣本周圍最近的K個樣本，將K個值加權平均用於估計缺失值；回歸算法根據數據集建立回歸方程，將缺失值的已知屬性帶入方程去估計缺失值；EM假設模型對於完整樣本是正確的，通過觀察數據的邊際分布進而對缺失值進行極大似然估計。

這些算法都是根據已有數據建立相應模型，然後使用模型來估計該樣本的缺失數據，應用較為普遍但卻未考慮相鄰數據間的時序信息。

自回歸滑動平均模型（auto regressive moving average, ARMA）彌補了這個缺點，此算法將預測指標隨時間推移形成的數據序列看作是一個隨機序列，這組隨機變量所具有的依存關係體現著原始數據在時間上的延續性，從而用於缺失數據的插補。

3.3 基於物理特性的重構方法

目前新能源場站都是大規模集中開發，每個電場附近都會有許多相鄰的風電場，因此新能源的出力會有一定的相關性。有學者利用相鄰電場的功率比值時間序列有一定程度的模式性重構數據，有學者利用出力的延時相關性重構數據，這兩種方法都充分利用了新能源出力的物理特性，實現通過已知的新能源場站輸出功率求得待重構電場的輸出功率，能有效改善數據重構效果。

由於目前有關風電數據重構的研究較少，且缺失數據重構的評定方法沒有一個量化的標準，本次研究將不對缺失值的重構方法進行仿真分析。用於判斷重構數據的成功率和準確率的評定技術有待進一步研究。

4 展望

新能源發電機組中的異常數據會導致功率預測的精度降低，有效的數據清洗可以提高數據的質量，提升新能源功率預測結果的準確性。當前學者在新能源功率預測數據清洗領域的研究雖已展開但不完善，因此對數據清洗的研究需要更加深入。

以下幾點問題需要進一步研究：

1）在結合幾種清洗方法同時處理數據時，方法的優勢可能會互補，也可能抵消。即使有時互補的方法在使用順序不同時可能帶來不同的清洗效果。未來可以探究多種方法的組合方式及使用順序對數據清洗結果的影響。

2）當前學者們在數據清洗領域的研究主要分為異常值剔除和缺失值重構兩部分，範圍較窄。未來考慮將數據清洗概念進行擴展，比如當採樣數據未保持時間同步時，考慮將這些數據進行時刻糾偏，而不是直接剔除再重構，其中時刻糾偏也應屬於數據清洗的範疇。

3）現有文獻中對新能源的數據清洗和接下來功率預測的建模都進行了分離，未來可以考慮融合這兩個環節，形成清洗-建模-清洗的閉環結構。

4）功率預測前除了要對新能源的運行數據進行清洗以外，還需要考慮氣象數據、地理因素數據的清洗，這些數據也會因為種種原因變得異常或缺失。因此未來還需加強氣象數據、地理因素數據的清洗。

5）除了經典的數據分類外，還可以針對諸如氣象、地理因素等異常數據所產生的出力偏差傾向進行挖掘、歸納、推理和建模，從而達到根據出力偏差反推異常數據類型的目的。未來可以探索這種偏差識別和異常數據挖掘技術。

6）經過多年的積累，我國已經有自主研發的功率預測系統，比如FR3000F、WPPS和SPWF-3000等。開發針對新能源功率預測的數據清洗系統將成為未來的發展目標，這樣的系統可以高效且強通用性地對數據進行預處理，為功率預測提供堅強的數據支撐。

5 結論

本文結合國內外最新文獻，從異常值剔除和缺失值重構兩個角度，總結了當前主流數據清洗方法的優缺點。最後針對數據清洗在新能源功率預測中存在的不足，闡述了數據清洗研究的關鍵性問題，並對未來的研究方向進行了展望。

數據清洗在新能源功率預測中的研究綜述和展望

相關焦點

【新華網】中科院預測科學研究中心發布2021年主要經濟預測數據

深度學習行人重識別綜述與展望,TPAMI 2021 最新文章

幾篇綜述帶你迅速入門環狀RNA研究

動力煤期權—新能源電價預測的錨中之碇

龍源遼寧公司功率預測準確率創歷史新高

股價漲勢如虹業界大佬又是如何看有色金屬和新能源的?

新能源汽車行業研究與2020年度策略

新能源產品|清洗多能手——18噸純電動清洗車

腦電相關監測指標在缺血性腦卒中患者預後評估中的研究進展

Cleanits:製造業時序數據清洗系統

華東理工大學解永樹教授綜述卟啉染料敏化太陽能電池研究進展

特變電工新能源1500V 228kW組串逆變器「放大招」

電子行業研究:景氣向上,看好5G拉動和創新驅動的新機遇

網絡重構最新綜述推薦:從宏觀尺度到微觀尺度

泛素羧基末端水解酶研究綜述

中國能源轉型展望專家論壇在北京成功舉行

評論丨源網荷儲協調發展下我國電力系統靈活性資源展望

通過Python 代碼實現時間序列數據的統計學預測模型

揭秘IGBT功率半導體!國際七巨頭地位不保,國產替代黃金賽場:智東西...

數據解讀:電動汽車規模化增長如何影響電網

數據清洗在新能源功率預測中的研究綜述和展望

相關焦點

【新華網】中科院預測科學研究中心發布2021年主要經濟預測數據

深度學習行人重識別綜述與展望,TPAMI 2021 最新文章

幾篇綜述帶你迅速入門環狀RNA研究

動力煤期權—新能源電價預測的錨中之碇

龍源遼寧公司功率預測準確率創歷史新高

股價漲勢如虹 業界大佬又是如何看有色金屬和新能源的?

新能源汽車行業研究與2020年度策略

新能源產品|清洗多能手——18噸純電動清洗車

腦電相關監測指標在缺血性腦卒中患者預後評估中的研究進展

Cleanits:製造業時序數據清洗系統

華東理工大學解永樹教授綜述卟啉染料敏化太陽能電池研究進展

特變電工新能源1500V 228kW組串逆變器「放大招」

電子行業研究:景氣向上,看好5G拉動和創新驅動的新機遇

網絡重構最新綜述推薦:從宏觀尺度到微觀尺度

泛素羧基末端水解酶研究綜述

中國能源轉型展望專家論壇在北京成功舉行

評論丨源網荷儲協調發展下我國電力系統靈活性資源展望

通過Python 代碼實現時間序列數據的統計學預測模型

揭秘IGBT功率半導體!國際七巨頭地位不保,國產替代黃金賽場:智東西...

數據解讀:電動汽車規模化增長如何影響電網

股價漲勢如虹業界大佬又是如何看有色金屬和新能源的?