數據清洗在新能源功率預測中的研究綜述和展望

2020-12-27 電氣新科技

新能源功率預測是提高新能源場站控制,保障高比率新能源發電接入電網安全穩定運行的關鍵技術。目前,由於通信故障、設備異常、人為限電等不確定性問題,導致新能源場站的實測數據中含有高比例異常數據,進而降低了功率預測的精度。有效的數據清洗可以提高數據質量,使新能源功率預測結果更加精確。

福州大學電氣工程與自動化學院、福建省電器智能化工程技術研究中心、福建省莆田供電公司、福建莆田荔源集團的研究人員武佳卉、邵振國、楊少華、肖頌勇、吳國昌,在2020年第11期《電氣技術》雜誌上撰文,首先概述了數據清洗的主流方法;然後對異常數據進行詳細分類,從異常值剔除和缺失值重構兩個方面重點闡述和分析了現有數據清洗方法的基本思路、應用條件以及優缺點;最後指出了未來數據清洗中值得關注的問題和方向。

隨著全球經濟的快速發展,能源的需求量逐年遞增。面對不可再生能源枯竭和全球環境汙染問題,新能源以其安全性、環保性和可再生性等優勢在世界範圍內得到了高度重視和廣泛應用,並呈現出良好的發展前景。

據統計,在2019年第一季度,我國新增風電裝機容量478萬kW,累計併網裝機容量達到1.89億kW,全國風電發電量1041億kWh,同比增長6.3%;新增光伏裝機容量478萬kW,累計併網裝機容量達到1.797億kW,全國光伏發電量440億kWh,同比增長26%。

然而,由於新能源發電的隨機性和不確定性,新能源大規模併網後對電力系統的穩定運行造成了巨大的挑戰。提前對新能源進行發電功率預測,能夠協助調度部門調整運行方式,進而保證電網的安全和穩定。近十年來,國內外許多學者都致力於研究新能源的功率預測方法,並取得了豐富的成果。

進行新能源功率預測時,需要對從新能源場站收集到的海量原始數據進行挖掘。然而,由於電場運行時機組棄風、棄光、檢修、極端天氣情況、外界電磁幹擾或設備故障等原因,導致原始數據中存在大量不完整的數據和異常的數據。這些不良數據嚴重影響預測模型的參數估計,造成預測精度低、預測偏差大等後果。因此在功率預測前,有必要進行有效的數據清洗處理。

目前針對新能源功率預測的數據預處理方面的綜述較少,因此有必要對新能源功率預測背景下的數據清洗方法進行綜述和展望。本文從異常值剔除和缺失值重構兩個方面,詳細地闡述、分析和歸納了新能源異常數據的類別和清洗方法。最後對數據清洗在新能源功率預測中需要進一步研究的方向進行了展望。

1 考慮數據清洗的新能源功率預測

精確的功率預測有利於調度部門的決策,可以提高新能源場站的控制性能,進而減少棄風、棄光所導致的發電損失,解決供需不平衡所帶來的系統穩定性問題,增強新能源場站的市場競爭力。然而,精準的功率預測依賴於準確的測量數據,因此有效的數據清洗是新能源功率預測必不可少的步驟。

新能源功率預測時所用到的數據有數值天氣預報(numerical weather prediction, NWP)數據、新能源運行實測數據和新能源地理信息數據等。

當下學者主要以預測變量和被預測量為數據清洗對象。其中,預測變量可以為風速、輻照度等,被預測量一般為新能源機組輸出功率。圖1所示為採用文獻計量分析法得出的數據清洗方法分類示意圖。

圖1 數據清洗方法分類

2 異常值剔除

2.1 功率曲線中異常數據的分類

功率曲線是新能源發電的預測變量與被預測量之間的關係曲線。學者們根據異常數據的分布特徵,把出現頻率高的異常數據類型分成了4類。以風速-風機功率散點圖為例,採用比恩法繪製風電功率曲線圖,4類異常數據的分布如圖2所示。

1)類型1:曲線上方的堆積型異常數據,通常是由於傳感器失靈、通信或測量設備故障導致的。

圖2 異常數據的分布

2)類型2:曲線中部的堆積型異常數據,通常是由限電或通信故障造成的。

3)類型3:曲線周圍的分散型異常數據,通常是由於氣象波動、信號傳播噪聲等隨機情況造成的。

4)類型4:曲線下方的堆積型異常數據,通常是機組故障、停機檢修造成的。

2.2 異常值剔除方法

1)統計量分析法

採用統計量分析的方法,重點在於對變量做描述性統計,從而查看哪些數據是不合理的。常用的方法為利用最大值和最小值判斷新能源功率和預測變量的取值是否超出範圍。若檢測到功率小於等於零的數據則進行剔除,實現數據的清洗整定。統計量分析方法可以簡單有效地完成對新能源數據的檢查,適合處理不在有效數據範圍內的堆積型數據,但是不適用於處理大量的分散型異常數據。

2)3sigma法

3sigma法又稱為拉依達準則。如果數據服從正態分布,分布在(-3, +3)中的數據的概率為99.73%,而分布在距離平均值3之外的數據的概率不到0.3%,屬於極小概率事件,其中為標準差,為平均值。因此在3原則下,將超過3倍的標準差的數據值視為異常值。

然而,實際新能源的發電數據往往並不嚴格服從正態分布,且由於堆積型異常數據的影響,導致識別出的異常值個數少於實際異常值個數。因此,將這種方法用於非正態分布數據的異常值識別時,其有效性有限。

3)小波奇異點檢測法

新能源異常數據可以看成是功率曲線中的奇異點。使用小波變換可以處理非平穩信號,並從非平穩信號中精確辨識出奇異點的位置。通常來說,對奇異點位置的辨識依賴於小波變換係數正負模極大值線在低尺度上的交點。正負模極大值線可以延伸至尺度接近零處,保證兩曲線相交,從而找到奇異點的位置,之後再對其進行修正。

但是由於新能源發電功率有波動性,即使是正常的數據在小波變換之後也可能會存在奇異點,所以判斷出奇異點後還應區分正常的奇異點和錯誤奇異點。此外,在實際應用中,選取合適的小波函數是使正負模極大值線能相交於一點的關鍵,否則將無法識別出奇異點的位置。

4)四分位算法

5)支持向量機回歸算法

支持向量機回歸算法(support vector machine regression, SVMR)的核心是用函數擬合數據,在數據中含有大量異常值的情況下,曲線在回歸估計過程中會因趨近異常數據而發生畸變,從而造成回歸曲線的擬合效果不理想。

在SVMR算法的結構風險函數中加入不敏感損失函數,可以控制異常數據對回歸模型的影響,從整體上考慮回歸曲線的平滑性。這使異常數據與回歸值之間的殘差十分顯著,從而更容易將異常數據進行分離。

6)K最近鄰聚類算法

K最近鄰(K-nearest neighbor, KNN)算法在分類上根據最鄰近的一個或幾個數據的類別決定該數據的類別。藉助距離參數表徵數據的偏離程度,可以對異常數據進行檢測並剔除。常用的距離有歐氏距離和馬氏距離。當某數據點與其他數據點的距離都大於一個閾值時,就被判定為異常數據。該方法簡單易懂,但是在訓練歷史數據構建數學模型時學習速度較慢,泛化能力較差,且需要大量的數據進行訓練,否則訓練誤差會較大。

7)組內最優方差法

在使用組內最優方差法(optimal interclass variance, OIV)時,首先要設置一個初始方差閾值S,然後將預測變量劃分成n個區間,區間劃分的間隔通常取0.5個單位的預測變量,例如將風速區間間隔定為0.5m/s。再根據初始閾值S將每一個區間裡的異常數據和正常數據進行區分,最後對所有區間的數據進行歸納,從而找出所有的異常數據。

採用OIV進行新能源功率曲線分析時,可以快速準確地清洗數據。與其他學習算法相比,此方法不需要歷史數據集進行訓練便可以識別出發電性能偏低的數據簇,且處理速度快,操作過程簡便,通用性強。但是此方法需要人工反覆試探才能確定閾值。

8)基於密度的離群點檢測算法

離群點檢測算法(local outlier factor, LOF)通過聚類的方法識別離群點。由聚類生成的一組數據對象集合稱為簇,同一簇中數據對象周圍的密度與其鄰域周圍的密度相似,而落在簇集合之外的數值則稱為離群點。所以離群點周圍的密度與其鄰域周圍的密度明顯不同,將離群點刪除就能實現異常數據的剔除。

LOF算法可以有效實現對分散性數據的識別,但是識別密度較高的堆積型數據能力較差,而且LOF的閾值設置有一定的難度,要根據經驗或者多次嘗試才能達到理想效果。

9)組合模型清洗法

僅僅使用單個數學方法或者人工智慧算法進行異常數據清洗存在著一定的局限性。為了彌補單個算法的不足,有學者提出一種四分位法和聚類分析的組合模型用於識別異常數據。組合模型在使用時,四分位法用於剔除分散型異常數據,而聚類法用於剔除堆積型異常數據。有學者提出使用四分位法與變點分組法的組合模型對異常數據進行識別並清洗。

以上的方法都可以改進使用單一四分位法時識別堆積型異常數據較差這一局限。

當只是針對數據本身進行清洗時,雖然具有普遍性,但是沒有考慮新能源場站的物理特性,導致異常數據的識別效果變差甚至會誤刪正常數據。為了解決這個問題,在清洗數據時可以將新能源出力之間的相關性和自身出力特性考慮進去,識別效果會明顯提高。

2.3 仿真測試

以福建某風電場為例,該風電場有24臺額定功率為2MW的風電機組。風電機組的切入風速為3m/s,額定風速為15m/s,切出風速為25m/s。風電場風速採集時間間隔為10min,採集時間為2015年2月1日00:00至2015年7月31日24:00。風速-功率散點圖如圖3所示。其中原始數據中有12%的異常數據。

圖3 風速-功率散點圖

分別採用數學方法中的四分位法、人工智慧算法中的SVMR法和四分位-SVMR的組合算法對異常值進行剔除。結果顯示四分位法只剔除了6.65%的異常值,SVMR剔除了7.99%的異常值,而組合模型法的剔除率達到了10.2%。由此證明使用單一的清洗方法有一定的局限性,組合模型法可以將算法的優勢進行互補,進而實現較好的清洗效果。

3 缺失值重構

在異常數據佔比較高的情況下,數據清洗過程中的異常值剔除量將隨之變高,進而破壞了原始數據的完整性和充裕度。這不僅會影響新能源功率的預測模型,而且不利於數據再利用。通過對被剔除數據進行重構,能夠保持數據的完整性和有效性。

採用文獻計量分析方法得出主流的缺失值重構方法有:①基於統計學的重構方法;②基於機器學習的重構方法;③基於物理特性的重構方法。

3.1 基於統計學的重構方法

基於統計學的重構方法有均值重構法、多項式擬合法、級比生成法、三次樣條插值法和遞推式非鄰均值補全法等。其中最常用的為三次樣條插值法。

三次樣條插值函數一般會使用三彎矩插值法去構造。當連續的異常數據點少於等於5時可以直接利用三次樣條插值函數對數據進行重構;當大於5時,則需用改進的多點三次樣條採樣法進行重構。基於統計學的重構方法較為簡便快速,但是重構的數據偏差較大,且忽略了新能源數據的時序信息。

3.2 基於機器學習的重構方法

常用的基於機器學習的重構方法有KNN、回歸算法、期望最大化算法(expectation-maximization, EM)等。其中KNN根據歐式距離用於確定缺失數據樣本周圍最近的K個樣本,將K個值加權平均用於估計缺失值;回歸算法根據數據集建立回歸方程,將缺失值的已知屬性帶入方程去估計缺失值;EM假設模型對於完整樣本是正確的,通過觀察數據的邊際分布進而對缺失值進行極大似然估計。

這些算法都是根據已有數據建立相應模型,然後使用模型來估計該樣本的缺失數據,應用較為普遍但卻未考慮相鄰數據間的時序信息。

自回歸滑動平均模型(auto regressive moving average, ARMA)彌補了這個缺點,此算法將預測指標隨時間推移形成的數據序列看作是一個隨機序列,這組隨機變量所具有的依存關係體現著原始數據在時間上的延續性,從而用於缺失數據的插補。

3.3 基於物理特性的重構方法

目前新能源場站都是大規模集中開發,每個電場附近都會有許多相鄰的風電場,因此新能源的出力會有一定的相關性。有學者利用相鄰電場的功率比值時間序列有一定程度的模式性重構數據,有學者利用出力的延時相關性重構數據,這兩種方法都充分利用了新能源出力的物理特性,實現通過已知的新能源場站輸出功率求得待重構電場的輸出功率,能有效改善數據重構效果。

由於目前有關風電數據重構的研究較少,且缺失數據重構的評定方法沒有一個量化的標準,本次研究將不對缺失值的重構方法進行仿真分析。用於判斷重構數據的成功率和準確率的評定技術有待進一步研究。

4 展望

新能源發電機組中的異常數據會導致功率預測的精度降低,有效的數據清洗可以提高數據的質量,提升新能源功率預測結果的準確性。當前學者在新能源功率預測數據清洗領域的研究雖已展開但不完善,因此對數據清洗的研究需要更加深入。

以下幾點問題需要進一步研究:

1)在結合幾種清洗方法同時處理數據時,方法的優勢可能會互補,也可能抵消。即使有時互補的方法在使用順序不同時可能帶來不同的清洗效果。未來可以探究多種方法的組合方式及使用順序對數據清洗結果的影響。

2)當前學者們在數據清洗領域的研究主要分為異常值剔除和缺失值重構兩部分,範圍較窄。未來考慮將數據清洗概念進行擴展,比如當採樣數據未保持時間同步時,考慮將這些數據進行時刻糾偏,而不是直接剔除再重構,其中時刻糾偏也應屬於數據清洗的範疇。

3)現有文獻中對新能源的數據清洗和接下來功率預測的建模都進行了分離,未來可以考慮融合這兩個環節,形成清洗-建模-清洗的閉環結構。

4)功率預測前除了要對新能源的運行數據進行清洗以外,還需要考慮氣象數據、地理因素數據的清洗,這些數據也會因為種種原因變得異常或缺失。因此未來還需加強氣象數據、地理因素數據的清洗。

5)除了經典的數據分類外,還可以針對諸如氣象、地理因素等異常數據所產生的出力偏差傾向進行挖掘、歸納、推理和建模,從而達到根據出力偏差反推異常數據類型的目的。未來可以探索這種偏差識別和異常數據挖掘技術。

6)經過多年的積累,我國已經有自主研發的功率預測系統,比如FR3000F、WPPS和SPWF-3000等。開發針對新能源功率預測的數據清洗系統將成為未來的發展目標,這樣的系統可以高效且強通用性地對數據進行預處理,為功率預測提供堅強的數據支撐。

5 結論

本文結合國內外最新文獻,從異常值剔除和缺失值重構兩個角度,總結了當前主流數據清洗方法的優缺點。最後針對數據清洗在新能源功率預測中存在的不足,闡述了數據清洗研究的關鍵性問題,並對未來的研究方向進行了展望。

相關焦點

  • 【新華網】中科院預測科學研究中心發布2021年主要經濟預測數據
    【新華網】中科院預測科學研究中心發布2021年主要經濟預測數據 2021-01-08 新華網 【字體:大 中 小】
  • 深度學習行人重識別綜述與展望,TPAMI 2021 最新文章
    這裡先總結該綜述的幾個主要貢獻點:綜述:全面調研了近年來深度學習在 Re-ID 領域的進展,囊括了近幾年三大視覺頂會上的大部分文章(如有遺漏,請諒解)。主要包括 Closed-world Re-ID 與 Open-world Re-ID 的研究進展,常用數據集和評價指標的概述,並分析了現有方法的不足和改進點。
  • 幾篇綜述帶你迅速入門環狀RNA研究
    Ashwal-Fluss [1], R.和Zhang, Y. [2]兩位大牛的研究為我們理解circRNA的產生機制打下了堅實的基礎,而這篇綜述則能夠讓你最快速地了解先前研究的結論,為你提供巨人之肩。如果你想通過circRNA測序進行circRNA的研究,這篇綜述非看不可,它能夠你檢測circRNA的過程中可能會遇到哪些問題,以及如何處理。
  • 動力煤期權—新能源電價預測的錨中之碇
    【能源人都在看,點擊右上角加'關注'】北極星火力發電網訊:新能源電價看火電,火電成本看煤價。6月30日,動力煤期權在鄭商所上市,不僅為火電企業提供了期貨之上的又一層保障,也為新能源電價預測提供了有效的對衝工具和信息。電力交易市場化不僅是將電力回歸商品屬性,也是將傳統金融工具有效融入電力市場的過程。
  • 龍源遼寧公司功率預測準確率創歷史新高
    近期,根據遼寧省調度水新處公布的1-11月功率預測考核數據,龍源電力遼寧公司所屬9座調度風電場功率預測業務平均準確率達到88.71%,創歷史新高。面對遼寧地區越發嚴苛的「兩個細則」考核制度,該公司採取多項措施加強風功率預測管理,不斷提高風功率預測精度,確保在考核中處於優勢。
  • 股價漲勢如虹 業界大佬又是如何看有色金屬和新能源的?
    業界大佬又是如何看有色金屬和新能源的?金屬和新能源行業是近期資本市場炙手可熱的話題。數據顯示,新能源指數(000941.CSI)今年來漲幅超過60%,有色金屬金屬指數(H30191.CSI)今年也有26%的漲幅。為何近期有色和新能源漲勢如虹?後續還有哪些投資機會?
  • 新能源汽車行業研究與2020年度策略
    截至 2019 年 10 月,工信部合格證數據顯示, 國內新能源汽車銷量為僅 91.2 萬輛,前 10 個月同比增長 14%,中性預測年內銷 量 115~120 萬輛,嚴重低於年初預期。補貼退坡接近尾聲,迎接市場化到來。以乘用車為例,2019 年補貼政策在 2018 年的基礎上退坡幅度整體超 50%,符合市場預期。
  • 新能源產品|清洗多能手——18噸純電動清洗車
    新能源產品|清洗多能手——18噸純電動清洗車北極星固廢網訊:歡迎來到盈峰環境第二期新能源產品專題。自2007年,盈峰環境開始從事新能源環衛裝備的研發製造起,經過十多年的刻苦攻關,盈峰環境新能源環衛裝備已覆蓋清掃、清洗、垃圾收轉運、市政等系列40多個品種,能滿足多種道路清掃保潔、垃圾收集轉運模式需求。
  • 腦電相關監測指標在缺血性腦卒中患者預後評估中的研究進展
    BSI是EEG功率頻譜分析通過傅立葉快速轉換機制計算所得,代表左右大腦半球功率譜的差異,能夠量化評估兩側導聯的對稱情況。vanPutten和Tavy於2005年首次將BSI應用到腦卒中的病情判斷中,該研究監測21例偏側性半球腦卒中患者入院24h內的BSI值,並使用美國國立衛生院卒中量表評分評估神經功能缺損;相關性回歸分析結果顯示,BSI與量表評分之間關係密切。
  • Cleanits:製造業時序數據清洗系統
    摘要: 目前,製造業機器設備和傳感器採集了大量時間序列數據,能夠為實現智慧工廠提供故障診斷、需求預測、產品優化等方面的決策支持。工業大數據分析的合理性和可靠性對數據質量提出較高要求,然而機器採集的原始數據中往往混有許多錯誤。
  • 華東理工大學解永樹教授綜述卟啉染料敏化太陽能電池研究進展
    作為自然界光合作用中心的核心組分,卟啉具有很高的摩爾消光係數和易於修飾的結構,可用於太陽能的捕獲,是一類重要的 DSSC 敏化染料。近年來,華東理工大學化學與分子工程學院、費林加諾貝爾獎科學家聯合研究中心解永樹教授課題組在該領域進行了系統研究,取得了系列重要進展。
  • 特變電工新能源1500V 228kW組串逆變器「放大招」
    無論是集中式還是組串式逆變器方案,都在追求更高電壓、更大單機功率、更高容配比、更強輸出過載能力和主動安全的技術趨勢,核心目標都是為了降低LOCE。平價的未來在3月20日特變電工新能源舉行的「風光無限,平價定乾坤」雲端研討會中,王斯成、秦海巖等多位專家認為,即使在實現平價之後,光伏、風電產業仍然面臨諸如與傳統能源競爭、高滲透率帶來的電網穩定性等諸多挑戰。作為光伏企業的代表,特變電工新能源是如何適應電網、打造生態鏈的?「我們對此早有準備。
  • 電子行業研究:景氣向上,看好5G拉動和創新驅動的新機遇
    根據國金證券研究創新中心的數據, 2019 年國內新增激活的智慧型手機中,單攝、雙攝、三攝、四攝的滲透率分 別為 8.2%、56.5%、25.5%、9.8%;2020 年 1-10 月國內新增激活的智能 手機中,單攝、雙攝、三攝、四攝的滲透率分別為 4.4%、19.8%、 38.9%、36.9%。
  • 網絡重構最新綜述推薦:從宏觀尺度到微觀尺度
    最近arXiv的一篇綜述文章,以統計物理和信息理論的視角,從宏觀、介觀和微觀三個尺度討論了解決網絡重構問題的思路、方法和技術,本文是對綜述整體內容的介紹。陳昊 | 作者劉培源 | 審校鄧一雪 | 編輯數據缺失是數據分析過程中遇到的普遍問題。
  • 泛素羧基末端水解酶研究綜述
    來自復旦大學附屬中山醫院的研究人員發現泛素羧基末端水解酶37(UCH37)在肝癌組織中呈高表達,並通過查閱大量文獻,對泛素羧基末端水解酶家族(UCHs)在惡性腫瘤發生
  • 中國能源轉型展望專家論壇在北京成功舉行
    DNV GL集團總裁兼執行長艾瑞民(Remi Eriksen)與能源轉型展望項目負責人Sverre Alvik從挪威總部連線,介紹了DNV GL 2020 年度版《能源轉型展望》報告中的主要研究成果包括對於世界面向2050年能源發展和轉型的預測和模型,重點分享了對於中國能源發展的評估和預測以及所面臨的挑戰並提出了可能的解決方案等建議。
  • 評論丨源網荷儲協調發展下我國電力系統靈活性資源展望
    隨著新能源滲透率逐漸提高,電力系統功能形態日趨複雜,靈活性將成為電力系統發展規劃中的重點考量因素,考慮到電力基礎設施建設的鎖定效應,有必要對我國中長期靈活性需求特性及供給方式進行研究展望。隨著能源網際網路逐步建成,需求側資源和儲能將能夠參與系統優化調節,源網荷儲各環節間協調互動將成為常態。
  • 通過Python 代碼實現時間序列數據的統計學預測模型
    在本篇中,我們將展式使用 Python 統計學模型進行時間序列數據分析。** 問題描述 **目標:根據兩年以上的每日廣告支出歷史數據,提前預測兩個月的廣告支出金額。在本篇文章中,我們主要關注 SARIMA 和 Holt-winters 方法。
  • 揭秘IGBT功率半導體!國際七巨頭地位不保,國產替代黃金賽場:智東西...
    IGBT功率半導體最大的優勢是節能,傳統的功率半導體損耗非常大,需要多個器件才能達到電能轉換的效果。IGBT通過調節電機的轉速來提升能源轉換效率,從而達到節能的作用。需求上,IGBT的需求最主要來自新能源汽車帶動的增長;工業領域屬於穩健的需求,增量來自於新基建;新能源變電和電網來自國家政策的推動發展;軌道交通是中國的優勢領域。
  • 數據解讀:電動汽車規模化增長如何影響電網
    而據中國汽車技術研究中心有限公司數據資源中心在2019年的預測,在基準情景下(執行現有政策),2050年中國純電動乘用車保有量將達到2.3億輛;在激進情景下(基準情景基礎上考慮2035年起實施分區域、分車型的禁燃政策),純電動乘用車保有量將在2050年上升至3.5億輛。