欄目導讀
新一代信息技術的加速變革支撐了智慧水務的飛速發展,現代化水廠的建設為我國供水行業的整體發展帶來了很大的借鑑與思考。「水務一線」分享基層水廠、汙水廠日常工作中的科技創新、技改創新、應用創新或管理創新等,可供相關的水廠提供參考和借鑑,希望可以帶來更多思想的碰撞與火花。
本期摘要
流量計量的準確性,直接關係到水務企業日常運行管理的精細化水平,但受限於多方面原因,不可避免地存在一定的計量誤差,為水務企業管理能級的提升帶來瓶頸。運用XGBoost集成模型以正常工作狀態下的全數據為基礎,結合各種區域特徵因素(天氣、日期、相關正常流量計、相關正常壓力計、相關水廠、相關供水區域等)進行修正,達到誤差在2%左右的預測,對水務企業提高水量調度的精準度帶來新的選項。
電磁流量計是基於電磁感應原理所製成的進行流量測量的專業儀器,可以對導電液體體積流量等進行精確測量。一般電磁流量計都有一圈磁線圈,當導電流體通過流量計的腔體時,會切割磁感線產生磁感應強度,將其轉換為電流,並最終轉換為流量數字。在整個過程中,必須保證磁感應強度保持相對穩定,但是在實際應用中,電磁流量會收到外部因素和內部導電流體的幹擾,導致計量失準。
採用XGBoost集成模型構建邊界流量計流量預測模型,可以在修正流量計非正常工作狀態下計量的水量,提高工作成效。
電磁流量計構造
一 回歸建模
1 XGBoost集成模型
XGBoost(eXtreme Gradient Boosting),是傳統boosting方法的一種極好實現,基本原理是把數千個精度較低的樹模型組合成一個精度較高的模型。
XGBoost的基學習器既有樹(gbtree)又有線性分類器(gblinear),從而得到帶L1+L2懲罰的線性回歸或邏輯回歸,其損失函數採用二階泰勒展開,具有高準確度、不易過擬合、可擴展性等特點,能分布式處理高維稀疏特徵。
XGBoost算法基本原理的特性,對數據波動較大、受外界影響較大、特徵因子較多的數據集有很好的適用性,能夠在水務行業邊界流量計流量預測中取得較好的應用效果。
2 評價標準
平均絕對值誤差(mean absolute error),如式(1)。
(1)
平均相對誤差(mean relative error),如式(2)。
(2)
其中:nsamples——樣本數量;
yi——真實值;
預測值。
二 離散型變量數值型轉化
在使用Python進行數據分析時,會遇到多種多樣的數據類型。如水量、氣溫等數值型的特徵變量,還會遇到天氣變化、季節氣候等離散型變量。
對於離散型的變量,必須進行數值化處理之後才能進行計算,一般的離散型變量數值型轉化有2種方法。
(1)one-hot編碼,又稱「獨熱編碼」
基本原理是用N位狀態寄存器編碼N個狀態,每個狀態都有獨立的寄存器位,且這些寄存器位中只有1位有效,簡單數就是每1列特徵的每1個獨立的值只能有一個狀態。
處理前(a)和處理後(b)one-hot編碼
(2)label編碼
利用pandas計算包中的categoricals數據類型對離散新數據進行處理。Categorical類型的數據可以具有特定的順序,如:按程度來設定,「強烈同意」與「同意」、「首次觀察」與「二次觀察」。通過label編碼,將離散型變量數值化。
處理前(a)和處理後(b)label編碼
三 邊界流量計流量預測模型
1 數據描述
原始的流量計水量數據只有供水日期這1個特徵,單一的特徵會造成預測模型欠擬合。因此,需進一步考察挖掘影響流量計水量計量的多方面特徵,同時將日期信息細化,並進一步挖掘相關流量計、相關壓力計和相關區域水量特徵,衍生出一系列影響供水量的特徵,結合這些特徵因子和實際供水量訓練流量計流量預測模型。
通過Pearson相關係數法計算得到各特徵與水量之間的相關性,並通過相關較高的數值型變量進一步挖掘得到取對數、開根號、求E及多項式這4個特徵值。
2 直接預測法
直接預測法是指直接以流量計正常工作狀態下的日水量數據為基礎,結合擴展特徵進行預測。
以某公司某DN1000流量計2017年1月1日—2019年2月14日共775條數據為例,此流量計上游離某大型水廠的出水管較近,並受附近1個泵站的影響,幹擾較大。通過Pearson相關係數法計算得到各特徵的相關性。其中,數字越大,表明與流量計水量的相關性越大,最終取≥0.15的特徵進行最終運算。
Pearson相關係數
對相關性最高的滬太路DN500進行取對數和開根號處理,得到和log10滬太路DN500。選取相關性較高的滬太路DN500、泰和水廠和汶水泵站(進站壓力)3個特徵,進行多項式運算得式(3)。
多項式=3×滬太路DN500+2×泰和水廠+汶水泵站(進站壓力)
(3)
深度挖掘構造的3個特徵通過Pearson相關係數法計算後得到較好的相關性。
Pearson相關係數
將整體數據劃分為測試集和訓練集,使用XGBoost集成模型建立某DN1000流量計日水量預測模型,模型在測試集上的平均絕對誤差(MAE)為8 276 t、平均相對誤差(MRE)為2.7%。
3 倒推計算法
倒推預測法是通過此流量計所在供水區域的日水量預測,倒推出此流量計的日水量。與直接預測法相比,倒推預測法的優勢在於,當無法取得流量計正常工作狀態下的日水量進行模型運算時,可以通過間接的倒推法避開直接運算流量計水量,利用總水量減去剩餘水量得到目標流量計預測水量。
以上海市城投水務(集團)有限公司供水分公司某DN1200流量計為例,利用倒推法進行預測,使用此流量計所在供水區域2017年1月1日—2018年9月30日共638條日水量數據。
Pearson相關係數
通過Pearson相關係數法計算得到各特徵的相關性。其中,數字越大,表明與水量的相關性越大,取≥0.15的特徵進行最終運算,得到區域總日供水量的26個特徵和區域剩餘日供水量的27個特徵。
將整體數據劃分為測試集和訓練集,使用XGBoost集成模型建立水量預測模型,模型在測試集上:總供水量的平均絕對誤差(MAE)為3 365 t、平均相對誤差(MRE)為1.5%;剩餘供水量的平均絕對誤差(MAE)為4 314 t、平均相對誤差(MRE)為2.1%。驗證結果表明,XGBoost總供水量預測模型和剩餘供水量預測模型的平均相對偏差為1.8%,總日供水量和剩餘日供水量預測模型的精度滿足計算要求,因此,二者相減的結果可以用於流量計日流量的預測。
四 結語
XGBoost集成模型作為機器學習領域裡重要的模型之一,通過集成若干個學習器,構造一個學習能力較強的學習器,不僅能很好地擬合訓練集,還能在測試集上有很好的表現。將XGBoost集成模型引入邊界流量計日流量預測中,非常符合邊界流量計數據波動較大、受外界影響較大、特徵因子較多的特點。最終取得的模型精度較高,有較好的泛化能力,並通過直接預測法和倒推預測法相結合的方式,可應對多種情況;靈活性較高,可應用於實際工作中,修正流量計非正常工作狀態下計量的水量,有效解決相關供水區域之間產生的水量誤差。
作者簡介
高赫餘,男,研究方向為機器學習在供水行業的使用,E-mial:13391109979@163.com。
本文發表在《淨水技術》2020年第10期「『清時捷』供排水企業運行及管理成果專欄」,掃描二維碼可閱讀全文。
「清時捷」供排水企業運行及管理成果專欄
徵稿內容:我國基層水廠、汙水廠日常工作中的科技創新、技改創新、應用創新或管理創新等。
特色服務:快速審稿錄用、版面費全免、快速發表優先出版、責編一對一修改指導、稿酬、清時捷杯專欄優秀論文獎。
作者:高赫餘、王聖、吳瀟勇
編輯:阮辰旼、黃如詩
排版:西貝
校對:黎翔
原創推薦
點擊以下連接,閱讀更多由《淨水技術》雜誌社原創的精彩欄目
|
更多精彩請前往:今日頭條/網易號/搜狐/知乎/百家號/天天快報關注「淨水技術」,微博@淨水技術雜誌社。
聯繫我們
【會議】【廣告 】孫麗華 :15900878214
【講座】【培訓】王佳:18817943544
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.