數據清洗在新能源功率預測中的研究綜述和展望

2020-12-27 電氣新科技

新能源功率預測是提高新能源場站控制,保障高比率新能源發電接入電網安全穩定運行的關鍵技術。目前,由於通信故障、設備異常、人為限電等不確定性問題,導致新能源場站的實測數據中含有高比例異常數據,進而降低了功率預測的精度。有效的數據清洗可以提高數據質量,使新能源功率預測結果更加精確。

福州大學電氣工程與自動化學院、福建省電器智能化工程技術研究中心、福建省莆田供電公司、福建莆田荔源集團的研究人員武佳卉、邵振國、楊少華、肖頌勇、吳國昌,在2020年第11期《電氣技術》雜誌上撰文,首先概述了數據清洗的主流方法;然後對異常數據進行詳細分類,從異常值剔除和缺失值重構兩個方面重點闡述和分析了現有數據清洗方法的基本思路、應用條件以及優缺點;最後指出了未來數據清洗中值得關注的問題和方向。

隨著全球經濟的快速發展,能源的需求量逐年遞增。面對不可再生能源枯竭和全球環境汙染問題,新能源以其安全性、環保性和可再生性等優勢在世界範圍內得到了高度重視和廣泛應用,並呈現出良好的發展前景。

據統計,在2019年第一季度,我國新增風電裝機容量478萬kW,累計併網裝機容量達到1.89億kW,全國風電發電量1041億kWh,同比增長6.3%;新增光伏裝機容量478萬kW,累計併網裝機容量達到1.797億kW,全國光伏發電量440億kWh,同比增長26%。

然而,由於新能源發電的隨機性和不確定性,新能源大規模併網後對電力系統的穩定運行造成了巨大的挑戰。提前對新能源進行發電功率預測,能夠協助調度部門調整運行方式,進而保證電網的安全和穩定。近十年來,國內外許多學者都致力於研究新能源的功率預測方法,並取得了豐富的成果。

進行新能源功率預測時,需要對從新能源場站收集到的海量原始數據進行挖掘。然而,由於電場運行時機組棄風、棄光、檢修、極端天氣情況、外界電磁幹擾或設備故障等原因,導致原始數據中存在大量不完整的數據和異常的數據。這些不良數據嚴重影響預測模型的參數估計,造成預測精度低、預測偏差大等後果。因此在功率預測前,有必要進行有效的數據清洗處理。

目前針對新能源功率預測的數據預處理方面的綜述較少,因此有必要對新能源功率預測背景下的數據清洗方法進行綜述和展望。本文從異常值剔除和缺失值重構兩個方面,詳細地闡述、分析和歸納了新能源異常數據的類別和清洗方法。最後對數據清洗在新能源功率預測中需要進一步研究的方向進行了展望。

1 考慮數據清洗的新能源功率預測

精確的功率預測有利於調度部門的決策,可以提高新能源場站的控制性能,進而減少棄風、棄光所導致的發電損失,解決供需不平衡所帶來的系統穩定性問題,增強新能源場站的市場競爭力。然而,精準的功率預測依賴於準確的測量數據,因此有效的數據清洗是新能源功率預測必不可少的步驟。

新能源功率預測時所用到的數據有數值天氣預報(numerical weather prediction, NWP)數據、新能源運行實測數據和新能源地理信息數據等。

當下學者主要以預測變量和被預測量為數據清洗對象。其中,預測變量可以為風速、輻照度等,被預測量一般為新能源機組輸出功率。圖1所示為採用文獻計量分析法得出的數據清洗方法分類示意圖。

圖1 數據清洗方法分類

2 異常值剔除

2.1 功率曲線中異常數據的分類

功率曲線是新能源發電的預測變量與被預測量之間的關係曲線。學者們根據異常數據的分布特徵,把出現頻率高的異常數據類型分成了4類。以風速-風機功率散點圖為例,採用比恩法繪製風電功率曲線圖,4類異常數據的分布如圖2所示。

1)類型1:曲線上方的堆積型異常數據,通常是由於傳感器失靈、通信或測量設備故障導致的。

圖2 異常數據的分布

2)類型2:曲線中部的堆積型異常數據,通常是由限電或通信故障造成的。

3)類型3:曲線周圍的分散型異常數據,通常是由於氣象波動、信號傳播噪聲等隨機情況造成的。

4)類型4:曲線下方的堆積型異常數據,通常是機組故障、停機檢修造成的。

2.2 異常值剔除方法

1)統計量分析法

採用統計量分析的方法,重點在於對變量做描述性統計,從而查看哪些數據是不合理的。常用的方法為利用最大值和最小值判斷新能源功率和預測變量的取值是否超出範圍。若檢測到功率小於等於零的數據則進行剔除,實現數據的清洗整定。統計量分析方法可以簡單有效地完成對新能源數據的檢查,適合處理不在有效數據範圍內的堆積型數據,但是不適用於處理大量的分散型異常數據。

2)3sigma法

3sigma法又稱為拉依達準則。如果數據服從正態分布,分布在(-3, +3)中的數據的概率為99.73%,而分布在距離平均值3之外的數據的概率不到0.3%,屬於極小概率事件,其中為標準差,為平均值。因此在3原則下,將超過3倍的標準差的數據值視為異常值。

然而,實際新能源的發電數據往往並不嚴格服從正態分布,且由於堆積型異常數據的影響,導致識別出的異常值個數少於實際異常值個數。因此,將這種方法用於非正態分布數據的異常值識別時,其有效性有限。

3)小波奇異點檢測法

新能源異常數據可以看成是功率曲線中的奇異點。使用小波變換可以處理非平穩信號,並從非平穩信號中精確辨識出奇異點的位置。通常來說,對奇異點位置的辨識依賴於小波變換係數正負模極大值線在低尺度上的交點。正負模極大值線可以延伸至尺度接近零處,保證兩曲線相交,從而找到奇異點的位置,之後再對其進行修正。

但是由於新能源發電功率有波動性,即使是正常的數據在小波變換之後也可能會存在奇異點,所以判斷出奇異點後還應區分正常的奇異點和錯誤奇異點。此外,在實際應用中,選取合適的小波函數是使正負模極大值線能相交於一點的關鍵,否則將無法識別出奇異點的位置。

4)四分位算法

5)支持向量機回歸算法

支持向量機回歸算法(support vector machine regression, SVMR)的核心是用函數擬合數據,在數據中含有大量異常值的情況下,曲線在回歸估計過程中會因趨近異常數據而發生畸變,從而造成回歸曲線的擬合效果不理想。

在SVMR算法的結構風險函數中加入不敏感損失函數,可以控制異常數據對回歸模型的影響,從整體上考慮回歸曲線的平滑性。這使異常數據與回歸值之間的殘差十分顯著,從而更容易將異常數據進行分離。

6)K最近鄰聚類算法

K最近鄰(K-nearest neighbor, KNN)算法在分類上根據最鄰近的一個或幾個數據的類別決定該數據的類別。藉助距離參數表徵數據的偏離程度,可以對異常數據進行檢測並剔除。常用的距離有歐氏距離和馬氏距離。當某數據點與其他數據點的距離都大於一個閾值時,就被判定為異常數據。該方法簡單易懂,但是在訓練歷史數據構建數學模型時學習速度較慢,泛化能力較差,且需要大量的數據進行訓練,否則訓練誤差會較大。

7)組內最優方差法

在使用組內最優方差法(optimal interclass variance, OIV)時,首先要設置一個初始方差閾值S,然後將預測變量劃分成n個區間,區間劃分的間隔通常取0.5個單位的預測變量,例如將風速區間間隔定為0.5m/s。再根據初始閾值S將每一個區間裡的異常數據和正常數據進行區分,最後對所有區間的數據進行歸納,從而找出所有的異常數據。

採用OIV進行新能源功率曲線分析時,可以快速準確地清洗數據。與其他學習算法相比,此方法不需要歷史數據集進行訓練便可以識別出發電性能偏低的數據簇,且處理速度快,操作過程簡便,通用性強。但是此方法需要人工反覆試探才能確定閾值。

8)基於密度的離群點檢測算法

離群點檢測算法(local outlier factor, LOF)通過聚類的方法識別離群點。由聚類生成的一組數據對象集合稱為簇,同一簇中數據對象周圍的密度與其鄰域周圍的密度相似,而落在簇集合之外的數值則稱為離群點。所以離群點周圍的密度與其鄰域周圍的密度明顯不同,將離群點刪除就能實現異常數據的剔除。

LOF算法可以有效實現對分散性數據的識別,但是識別密度較高的堆積型數據能力較差,而且LOF的閾值設置有一定的難度,要根據經驗或者多次嘗試才能達到理想效果。

9)組合模型清洗法

僅僅使用單個數學方法或者人工智慧算法進行異常數據清洗存在著一定的局限性。為了彌補單個算法的不足,有學者提出一種四分位法和聚類分析的組合模型用於識別異常數據。組合模型在使用時,四分位法用於剔除分散型異常數據,而聚類法用於剔除堆積型異常數據。有學者提出使用四分位法與變點分組法的組合模型對異常數據進行識別並清洗。

以上的方法都可以改進使用單一四分位法時識別堆積型異常數據較差這一局限。

當只是針對數據本身進行清洗時,雖然具有普遍性,但是沒有考慮新能源場站的物理特性,導致異常數據的識別效果變差甚至會誤刪正常數據。為了解決這個問題,在清洗數據時可以將新能源出力之間的相關性和自身出力特性考慮進去,識別效果會明顯提高。

2.3 仿真測試

以福建某風電場為例,該風電場有24臺額定功率為2MW的風電機組。風電機組的切入風速為3m/s,額定風速為15m/s,切出風速為25m/s。風電場風速採集時間間隔為10min,採集時間為2015年2月1日00:00至2015年7月31日24:00。風速-功率散點圖如圖3所示。其中原始數據中有12%的異常數據。

圖3 風速-功率散點圖

分別採用數學方法中的四分位法、人工智慧算法中的SVMR法和四分位-SVMR的組合算法對異常值進行剔除。結果顯示四分位法只剔除了6.65%的異常值,SVMR剔除了7.99%的異常值,而組合模型法的剔除率達到了10.2%。由此證明使用單一的清洗方法有一定的局限性,組合模型法可以將算法的優勢進行互補,進而實現較好的清洗效果。

3 缺失值重構

在異常數據佔比較高的情況下,數據清洗過程中的異常值剔除量將隨之變高,進而破壞了原始數據的完整性和充裕度。這不僅會影響新能源功率的預測模型,而且不利於數據再利用。通過對被剔除數據進行重構,能夠保持數據的完整性和有效性。

採用文獻計量分析方法得出主流的缺失值重構方法有:①基於統計學的重構方法;②基於機器學習的重構方法;③基於物理特性的重構方法。

3.1 基於統計學的重構方法

基於統計學的重構方法有均值重構法、多項式擬合法、級比生成法、三次樣條插值法和遞推式非鄰均值補全法等。其中最常用的為三次樣條插值法。

三次樣條插值函數一般會使用三彎矩插值法去構造。當連續的異常數據點少於等於5時可以直接利用三次樣條插值函數對數據進行重構;當大於5時,則需用改進的多點三次樣條採樣法進行重構。基於統計學的重構方法較為簡便快速,但是重構的數據偏差較大,且忽略了新能源數據的時序信息。

3.2 基於機器學習的重構方法

常用的基於機器學習的重構方法有KNN、回歸算法、期望最大化算法(expectation-maximization, EM)等。其中KNN根據歐式距離用於確定缺失數據樣本周圍最近的K個樣本,將K個值加權平均用於估計缺失值;回歸算法根據數據集建立回歸方程,將缺失值的已知屬性帶入方程去估計缺失值;EM假設模型對於完整樣本是正確的,通過觀察數據的邊際分布進而對缺失值進行極大似然估計。

這些算法都是根據已有數據建立相應模型,然後使用模型來估計該樣本的缺失數據,應用較為普遍但卻未考慮相鄰數據間的時序信息。

自回歸滑動平均模型(auto regressive moving average, ARMA)彌補了這個缺點,此算法將預測指標隨時間推移形成的數據序列看作是一個隨機序列,這組隨機變量所具有的依存關係體現著原始數據在時間上的延續性,從而用於缺失數據的插補。

3.3 基於物理特性的重構方法

目前新能源場站都是大規模集中開發,每個電場附近都會有許多相鄰的風電場,因此新能源的出力會有一定的相關性。有學者利用相鄰電場的功率比值時間序列有一定程度的模式性重構數據,有學者利用出力的延時相關性重構數據,這兩種方法都充分利用了新能源出力的物理特性,實現通過已知的新能源場站輸出功率求得待重構電場的輸出功率,能有效改善數據重構效果。

由於目前有關風電數據重構的研究較少,且缺失數據重構的評定方法沒有一個量化的標準,本次研究將不對缺失值的重構方法進行仿真分析。用於判斷重構數據的成功率和準確率的評定技術有待進一步研究。

4 展望

新能源發電機組中的異常數據會導致功率預測的精度降低,有效的數據清洗可以提高數據的質量,提升新能源功率預測結果的準確性。當前學者在新能源功率預測數據清洗領域的研究雖已展開但不完善,因此對數據清洗的研究需要更加深入。

以下幾點問題需要進一步研究:

1)在結合幾種清洗方法同時處理數據時,方法的優勢可能會互補,也可能抵消。即使有時互補的方法在使用順序不同時可能帶來不同的清洗效果。未來可以探究多種方法的組合方式及使用順序對數據清洗結果的影響。

2)當前學者們在數據清洗領域的研究主要分為異常值剔除和缺失值重構兩部分,範圍較窄。未來考慮將數據清洗概念進行擴展,比如當採樣數據未保持時間同步時,考慮將這些數據進行時刻糾偏,而不是直接剔除再重構,其中時刻糾偏也應屬於數據清洗的範疇。

3)現有文獻中對新能源的數據清洗和接下來功率預測的建模都進行了分離,未來可以考慮融合這兩個環節,形成清洗-建模-清洗的閉環結構。

4)功率預測前除了要對新能源的運行數據進行清洗以外,還需要考慮氣象數據、地理因素數據的清洗,這些數據也會因為種種原因變得異常或缺失。因此未來還需加強氣象數據、地理因素數據的清洗。

5)除了經典的數據分類外,還可以針對諸如氣象、地理因素等異常數據所產生的出力偏差傾向進行挖掘、歸納、推理和建模,從而達到根據出力偏差反推異常數據類型的目的。未來可以探索這種偏差識別和異常數據挖掘技術。

6)經過多年的積累,我國已經有自主研發的功率預測系統,比如FR3000F、WPPS和SPWF-3000等。開發針對新能源功率預測的數據清洗系統將成為未來的發展目標,這樣的系統可以高效且強通用性地對數據進行預處理,為功率預測提供堅強的數據支撐。

5 結論

本文結合國內外最新文獻,從異常值剔除和缺失值重構兩個角度,總結了當前主流數據清洗方法的優缺點。最後針對數據清洗在新能源功率預測中存在的不足,闡述了數據清洗研究的關鍵性問題,並對未來的研究方向進行了展望。

相關焦點

  • 光伏功率預測是什麼?作用有哪些?
    光伏功率預測是什麼?光伏功率預測系統就是將天氣預報數據和環境檢測儀所採集的數據加以分析,最後將生成的數據文件通過非實時交換機發送給省調。省調接收數據文件,入庫並加以分析,得到該站的日常發電情況,便於對該地區整個新能源發電的集中管控。
  • 2021年數據展望,第一部分:人工智慧和雲數據倉庫的未來
    如果說有一個明顯的預測在這原本不可預測的一年裡得到了證實,那就是雲計算應用的加速。只要看看每一個主要的雲持續著非常健康的兩位數增長率。對於企業來說,這是為了適應虛擬環境和突然被封鎖的世界中受限的供應鏈。
  • 劉才山教授等:自行車動力學建模及穩定性分析研究綜述
    劉才山教授等:自行車動力學建模及穩定性分析研究綜述 2020-07-23 16:45 來源:澎湃新聞·澎湃號·政務
  • 動力煤期權—新能源電價預測的錨中之碇
    【能源人都在看,點擊右上角加'關注'】北極星火力發電網訊:新能源電價看火電,火電成本看煤價。6月30日,動力煤期權在鄭商所上市,不僅為火電企業提供了期貨之上的又一層保障,也為新能源電價預測提供了有效的對衝工具和信息。
  • 文獻綜述:步驟與問題!
    文獻綜述一般要對研究現狀進行客觀的敘述和評論,以便預測發展、研究的趨勢或尋求新的研究突破點。文獻綜述是研究生學位論文的重要章節。一個資料全面、研究深入的綜述不僅可以幫助研究生確立學位論文的選題,還可以為論文的深入研究提供有力的支撐。
  • Science最新綜述:計算社會科學十年,反思與展望
    私人與研究人員之間的合作是完全自願的,這樣數據的可獲得性很容易受到私人的任意性和不可預測變化的影響,使得這種獲取數據的方法在本質上並不可靠,還會導致科學研究存在潛在偏差。其次,消費品和平臺生成的數據,並不完全適用於科學研究[6]。在線平臺的用戶和服務未必能代表普通民眾,且他們的行為也可能存在未知的偏差。
  • 光伏組件積塵量的影響因素及預測模型研究
    光伏組件積塵對太陽輻射具有反射、散射和吸收作用,隨著積塵厚度的增加,組件光電轉換效率成倍減小[1]。GARG[2] 研究了玻璃不同角度放置時積塵對玻璃透光率的影響,並模擬了積塵對光伏組件透光率的影響。將實驗玻璃放置在室外並定期對其透光性進行測試,排除下雨天影響;取30 天數據,結果表明,30 天的積塵使45°放置的玻璃的透光率損失了8%。
  • 產能緊缺+價格上漲,功率半導體國產替代正當時
    在傳統汽車中,功率半導體主要應用於車輛啟動,發電和安全領域,低壓低功率電子元器件即可滿足其工作需求。而在新能源汽車中,電池輸出的高電壓需要進行頻繁的電壓變換,電流逆變。這些電路大幅提高了汽車對 IGBT、MOSFET、雙極電晶體、二極體的需求,從而提升了單車功率半導體價值。
  • 股價漲勢如虹 業界大佬又是如何看有色金屬和新能源的?
    業界大佬又是如何看有色金屬和新能源的?金屬和新能源行業是近期資本市場炙手可熱的話題。數據顯示,新能源指數(000941.CSI)今年來漲幅超過60%,有色金屬金屬指數(H30191.CSI)今年也有26%的漲幅。為何近期有色和新能源漲勢如虹?後續還有哪些投資機會?
  • 業界大佬又是如何看有色金屬和新能源的?
    金屬和新能源行業是近期資本市場炙手可熱的話題。數據顯示,新能源指數(000941.CSI)今年來漲幅超過60%,有色金屬金屬指數(H30191.CSI)今年也有26%的漲幅。為何近期有色和新能源漲勢如虹?後續還有哪些投資機會?
  • Mater.綜述:電極材料中的缺陷工程
    研究背景隨著全球社會經濟和信息技術的高速發展,能源稀缺以及環境問題是當今社會普遍存在的兩個重大難題,因此開發利用高效環保可持續的新能源電池器件越來越受到大家的重視。近年來,缺陷工程被認為是改善電極材料電子結構和物化性質的有效方法,並得到了廣泛的應用。其中點缺陷是缺陷化學研究的主要內容,主要分為兩大類:本徵缺陷和非本徵缺陷。本徵缺陷,是由晶格原子的熱振動引起的,對研究晶體而言是本徵的組成部分,缺陷的形成並不改變整體晶體的組成。本徵缺陷又包括肖特基缺陷和弗侖克爾缺陷兩大類。對於非本徵缺陷,則是由雜質原子或者雜質離子嵌入晶格所引起的,因此也稱為摻雜缺陷。
  • 鹼性介質中高效析氫反應中缺失片段的捕捉策略與展望
    鹼性介質中高效析氫反應中缺失片段的捕捉策略與展望 作者:小柯機器人 發布時間:2021/1/10 19:43:36 德國柏林工業大學Matthias Driess團隊綜述了鹼性介質中高效析氫反應中缺失片段的捕捉策略與展望。
  • 碳化矽是新能源汽車能效提升的關鍵要素
    汽車教育部工程研究中心首席科學家、哈爾濱理工大學教授蔡蔚表示,「但是從今年1~7月份的數據來看,這一佔比已經大幅下降至39%。這是因為今年以來,德國、法國、英國等歐洲國家的新能源汽車銷量保持著70%以上的同比增幅。」 綜觀全球,汽車的電動化趨勢已經不可逆轉。許豔華表示,在歐洲,嚴苛的碳排放法規正推動歐洲汽車業加快電動化腳步。
  • 萬字長文綜述:給你的數據加上槓桿——文本增強技術的研究進展及...
    新方向展望4. 在金融領域任務的實踐164.1. 金融領域的 NLP 任務為什麼需要文本增強技術4.2. 案例背景及實驗條件4.2.1. 案例背景和數據集特點4.2.2. 算法模型4.3.同時,他們詳細研究了不同增強倍數以及不同採樣比例下,回譯對於模型提升的大小,如下圖所示:對比圖中的兩個紅框部分,研究人員發現,在最佳情況下,回譯帶來的性能提升與在模型中加入 self-attention 組件帶來的提升幾乎相當。這似乎表明,挖掘數據多維度的信息和優化模型架構具有同等的重要性。
  • SiC在電動汽車的功率轉換中扮演越來越重要的角色
    相比歐美,新興的中國車企更期待新能源汽車。在中國,功率轉換系統在汽車中的應用非常廣泛,這就是為什麼ST專注於與中國客戶合作開發電源管理系統。最終,根據獨立分析機構的預測,與傳統矽基解決方案相比,SiC解決方案可使整車半導體成本節省 2 000 美元。顯然,這是SiC給汽車製造商帶來的實實在在的成本效益。同時,SiC有助於提高車輛的性能,延長新能源汽車的續航裡程,帶來更好的綜合用戶體驗,並使車輛充電速度更快。
  • 江蘇綠陽新能源超大功率光伏併網逆變器正式併網成功
    北極星太陽能光伏網訊:近日,揚州經濟技術開發區的中國光伏產業基地內傳來喜訊,以江蘇愛克賽電氣製造有限公司為母體的江蘇綠陽新能源科技有限公司歷經10年的持續研發與實踐終成正果,由江蘇綠陽新能源科技有限公司攜手教育部光伏產業研究中心及國內知名院校聯合研製的超大功率光伏併網逆變器正式併網成功。
  • 論文千千萬,如何發現和綜述新研究?這裡有個利用AI技術的熱門開源...
    機器之心報導作者:魔王paperai 利用 AI 技術發現和綜述醫療 / 科學論文。在研究領域,每天都會湧現大量論文,如何發現優秀論文並快速獲取信息是一個難題。最近,有開發者開源了一個 AI 支持的文獻發現和綜述引擎 paperai,可用於醫療 / 科學論文。GitHub 地址:https://github.com/neuml/paperaipaperai 可以自動執行繁瑣的文獻綜述工作,使研究人員不必為此耗費精力,從而能夠聚焦自己的核心工作。
  • 網絡重構最新綜述推薦:從宏觀尺度到微觀尺度
    最近arXiv的一篇綜述文章,以統計物理和信息理論的視角,從宏觀、介觀和微觀三個尺度討論了解決網絡重構問題的思路、方法和技術,本文是對綜述整體內容的介紹。陳昊 | 作者劉培源 | 審校鄧一雪 | 編輯數據缺失是數據分析過程中遇到的普遍問題。
  • 理想ONE PK 蔚來ES6,新能源汽車的理想與未來
    新能源汽車目前在我國市場發展的如火如荼,得益於目前國內有利的新能源汽車購置政策,以及這些年新能源汽車從內而外的巨變,尤其新能源汽車不同類型,所帶來的不同的使用感受,也決定了它的潛在消費群體是哪些。今天,我們拿 理想ONE和蔚來ES6做一個簡單的比較,來展望一下新能源SUV車型未來的理想。
  • 王中原、唐世平:政治科學預測方法研究——以選舉預測為例
    首先,社會科學的研究任務基本可分為解釋(explanation)和預測(forecasting)兩類。「解釋」關注因果關係中的自變量(X)及其影響係數β和顯著性,試圖解釋已經發生的事件或結果(Y)的影響因子和致因機制;「預測」則關注因果或相關關係中的輸出(Y),旨在根據已經掌握的各類信息和關聯結構去研判未來可能出現的結果。