天氣況狀瞬息萬變,令人難以捉摸,精準的天氣預報可為人們的生產生活提供科學準確的決策指導和服務,因此,最大限度的準確預測天氣一直是人們的不懈追求。數值天氣預報的誕生曾經給天氣預報領域帶來跨越式的發展,它是以氣象觀測資料為初值條件,通過巨型計算機進行數值計算,再用流體力學和熱力學的方程組進行求解,進而預測未來一定時段的大氣運動狀態。儘管現代氣象預測系統已經在數值預報模型上取得不錯的效果,但這種依賴人們對大氣物理理解的物理模型常會受到各種各樣隨機因素的幹擾,無法滿足氣候覆雜多變地區的預測需求。隨著智能化時代的到來,人們開始依託先進技術手段建立起各種預測天氣的方式,人工智慧技術的身影也在氣象預測領域日漸活躍。
天氣預報和人工智慧有著天然的耦合關係。天氣預報需要大量的、多種多樣的資料,而人工智慧天生就是處理大數據的工具;現有資料的時空數據密度均不夠,而人工智慧技術卻具有根據不完全不確定信息推斷的能力;人工智慧不僅可以總結專家知識經驗,提高平均預測水平,還可以充分利用統計與數值模式中無法利用的抽象預報知識。那麼人工智慧技術是如何在數值天氣預報中實現的呢?首先讓我們說說人工智慧的概念。
1、什麼是人工智慧?
「人工智慧(Artificial Intelligence,縮寫AI)一詞最早誕生於1956年Dartmouth學會上,它是研究、開發用於模擬、延伸和擴展人的智能理論、方法、技術及應用系統的一門新的技術科學,研究領域涉及到機器人、語言識別、圖像識別、自然語言處理和專家系統等。說到人工智慧,很容易就聯想到機器學習(Machine Learning)、數據挖掘(Data Mining)、模式識別(Pattern Recognition)、神經計算(Neuro Computing)、統計(Statistics)、資料庫(Databases)、知識發現(KDD)等概念,那麼它們之間又是怎樣的關係呢?為了更好的理解人工智慧與它們之間的關係,圖1中給出了人工智慧相關概念的交叉關係圖。其中,機器學習是人工智慧的一個重要子領域,而人工智慧又與更廣泛的數據挖掘、知識發現、神經計算、模式識別領域相交叉。
2、機器學習的基本過程和算法
機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。其基本過程可以用下圖2簡單表示,包括數據的搜集、特徵的提取、算法的選擇、模型的訓練、模型的評估、參數的微調、預測等幾個重要的步驟。
機器學習的經典算法包括(圖3):監督學習(Supervised Learning)、無監督學習(Unsupervised Learning, UL)、半監督學習(Semi-Supervised Learning)、強化學習(Reinforcement Learning, RL)、線性回歸、分類和回歸樹(CART)、邏輯回歸、樸素貝葉斯(Nave Bayesian)、k最近鄰(kNN)、AdaBoost、K-均值算法(K-Means)、支持向量機(SVM)、人工神經網絡ANN(Artificial Neural Network)。
3、人工智慧在數值預報領域的應用
人工智慧技術自80年代初期引入我國氣象部門,大致經歷了兩個階段。第一階段是1983-1987年,主要特點是初級專家系統的普及應用。這個期間,有90%以上的省級氣象臺、近50%的地、市級氣象臺進行了氣象專家系統的開發應用,內容涉及暴雨、大風、冰雹、霜凍等多種氣象災害的判別和預報。第二階段是1987年開始的氣象智能預報系統的開發,主要特點是將模式識別技術、傳統人工智慧與人工神經元網絡結合在一起。這個階段氣象部門就專家神經網絡系統(EANN)在預報業務中的實際應用進行了試驗,專家們運用人工神經網絡(ANN)的自適應性及容錯等功能和特性,彌補了專家系統在這方面的不足,彼此取長補短,較為有效地提高了災害性天氣預報的成功率。
在氣象預報方法上,人工智慧技術可以成為數值預報的有力補充。人工智慧技術作為數值預報的有力支撐,一是基於雷達、衛星圖像的深度學習在短臨預報中準確地預報出強對流信息和災害性天氣,二是通過深度學習算法對具有不確定性的混沌系統發展趨勢進行預測(這方面馬裡蘭大學、麻省理工學院已取得初步研究進展),三是對地球系統模式的數據同化和參數化進行最優擬合,四是對數值預報模式的海量預報結果進行最優集合和訂正。據歐洲中期天氣預報中心(ECMWF)最新一期的Newsletter報導(如圖4),目前人工智慧技術已覆蓋數值天氣預報業務的全流程,滲入到預報中的各個環節。
4、基於機器學習的智能預報案例
對於大數據機器學習領域而言,近年來,隨著計算機科學的發展,機器學習領域湧現出了很多新的方法,可以高效、快速地對數據進行挖掘分析,提取其中有用的信息。
其中,集成學習領域是一個重要的研究方向,使用一系列學習器進行學習,並使用某種規則把各個學習結果進行整合,從而獲得比單個學習器效果更好的一種機器學習方法。對於訓練數據, 將若干個個體學習器通過一定的聚合策略,就可以形成一個強學習器,以達到博採眾長的目的。也即研究如何將多個精度稍低的模型得到的結果進行融合、學習,得到預測精度更高的模型。
另一個重要的研究方向是深度學習領域,其核心思想是通過一定的方法來自動化提取數據內部特徵,從而消除了傳統特徵工程方法中對人為經驗的依賴性,避免了外界信息的幹擾。同時,這些方法在時間序列和空間格點類型的數據上相比於傳統方法具有更強有力的特徵提取能力,能夠發掘更深層次的信息。將這些新的方法應用於數值預報的歷史預報和對應時刻的客觀分析數據中,可以充分挖掘出數值預報在一定時空間範圍內誤差的規律性,從而可以對預報本身進行誤差訂正,得到精度更高的預報結果。
北京某科技有限公司通過建立多模式融合分析的集成學習模型,對數值預報產品進行智能網格的偏差訂正,實現強對流單體的智能識別和追蹤。圖5是他們以日本JAXA的雲分類產品和雲相態作為學習對象(即標準),利用卷積神經網絡挖掘JAXA雲分類特徵,建立訓練模型,並對葵花8衛星雲圖進行預測,識別、追蹤雲和雲相態的應用案例。
基於多模式融合分析的集成學習模型,還可以對衛星資料和雷達回波進行融合分析,進行偏差修正,得到更加準確的反演數據資料。圖6中所框選區域從亮溫圖上看對流強度不大,應該明顯低於福建和廣東區域,但實際雷達回波較強。通過建立多模式融合分析集成學習模型,對衛星和雷達資料進行融合反演,其修正後的強度分布與實際更加吻合。
通過對數值預報產品的歷史預報數據(2年左右)進行訓練,建立深度學習模型;以最近 15d-20d 的多模式預報產品和對應的實況產品匹配作為訓練樣本,更新深度學習模型參數,融合遴選出最優學習訂正模型;對預報結果進行二次訂正,可以得到高精度的短臨數值預報產品。圖7是對案例計算結果的定量評估分析,經二次訂正以後,2 小時外推雷達回波的均方根誤差在 2.0-8.0dbz 之間變化,2小時預報與實況的相關係數保持在 90% 之上,命中率在 80% 以上,預報效果得到有效提升。
來源:我們的太空知乎
作者:石文靜