Title:Deep learning and process understanding for data-driven Earth system science
標題:"數據驅動型"地球系統科學領域的深度學習及其過程理解
作者:Markus reichstein1,2*, Gustau camps-valls 3, Bjorn stevens4, Martin Jung1, Joachim Denzler2,5, Nuno carvalhais1,6, and Prabhat7
2Michael-Stifel-Center Jena for Data-driven and Simulation Science, Jena, Germany.
3Image Processing Laboratory (IPL), University of València, Valencia, Spain.
4Max Planck Institute for Meteorology, Hamburg, Germany.
5Computer Vision Group, Computer Science, Friedrich Schiller University, Jena, Germany.
6CENSE, Departamento de Ciências e Engenharia do Ambiente, Faculdade de Ciências e Tecnologia, Universidade NOVA de Lisboa, Lisbon, Portugal.
7National Energy Research Supercomputing Center, Lawrence Berkeley National Laboratory, Berkeley, CA, USA.
* E-mail: mreichstein@bgc-jena.mpg.de
Machine learning approaches are increasingly used to extract patterns and insights from the ever-increasing stream of geospatial data, but current approaches may not be optimal when system behaviour is dominated by spatial or temporal context. Here, rather than amending classical machine learning, we argue that these contextual cues should be used as part of deep learning (an approach that is able to extract spatio-temporal features automatically) to gain further process understanding of Earth system science problems, improving the predictive ability of seasonal forecasting and modelling of long-range spatial connections across multiple timescales, for example. The next step will be a hybrid modelling approach, coupling physical process models with the versatility of data-driven machine learning.
機器學習方法越來越多地用於日益增長的地理空間數據流中提取相應的模型特徵和深入特點,但是目前的方法在系統行為受制於時空背景時還不能得到最優的方案。在這裡,主要目的並不是改進經典的機器學習算法,我們主張這些背景線索應該成為深度學習一部分(一種可以自動提取時空特徵的方法)來更深地獲取地球科學領域難題的過程理解,提升季節預報或者多時間尺度長距空間相關模擬的可預報能力,譬如,下一步將建立混合模型方法,將物理過程模式與數據驅動型機器學習的通用性耦合起來。
人類總是致力於預測和理解這個世界,能夠進行更好預測的能力在不同的領域都有很大的競爭優勢(譬如,天氣、疾病、金融市場)。人類從過去古希臘時代哲學推理到中世紀佔卜的偽科學方法,到現代科學論述包括假設檢驗、理論發展和計算機建模,這些都是以統計和物理關係,即相關定律為基礎的。天氣預報的成功是地球科學領域的一段佳話,主要依賴於理論的完善、現代的一整套觀測系統、日益增長的計算能力,使得海量的數據能夠同化到數值模式中來。即便如此,對於天氣的準確預報也只停留在天的尺度,還達不到精準預測月尺度。季節預測以及一些極端事件(譬如,洪水、火災)和一些更長時間尺度的預測還是面臨著巨大的挑戰。
與此同時,地球系統數據在激增,CMIP5數據集是廣泛用於周期性氣候評估的科學基礎,模式輸出的數據總量超過3PB,【1PB = 1,000 TB (兆) = 1,000,000 GB (十億)】, 而下一代CMIP6數據總量超過30PB。巨大的數據量在處理起來充滿了挑戰,其統計特性裡包含了大量的不確定性。地球科學領域海量的數據也具備大數據四大特徵:volume, velocity, variety and veracity(體積,速度,多樣性和準確性),例如各種遙感、定點觀測、模式數據。如今面臨挑戰就是如何從這些大數據中提取並解讀信息,因為信息收集速度遠大於人們所能消化的速度。數據的增多並未帶對系統預測能力的提高,科學家需要對數據進行理解。在這種背景下,機器學習就是一種極佳的選擇。
日益豐富的工具用於機器學習和AI,但是他們還需要進一步完善才能用於地球科學的分析,地球系統科學面臨新的機遇與挑戰,以及新型方法的需求,特別是特別是近年來對時空背景和不確定性的研究。
那麼對於地球科學領域的科學家在未來面臨的不可迴避問題就是:1.提取海量激增數據中的有用信息;2.遵循相關的物理定律前提下,相比於傳統的同化方法能夠從數值模式中獲取更多有效特徵。
文章主要綜述內容就是介紹地球科學領域的機器學習方法的發展,尤其是深度學習的——自動提取抽象的時空特徵,其具有非常大的潛力來克服當前諸多阻礙機器學習廣泛應用的局限性。本文羅列了當前最具有前景,且與物理模型結合具有挑戰的機器學習方法。
主要內容
(1)地學中最先進的機器學習。諸如神經網絡、隨機森林方法很早就應用於地學中的分類、變化檢測、土壤製圖問題。但這些應用是針對空間,在時間上是相對靜態的,但地球是不斷變化的。機器學習回歸方法在時間動態上具有優勢,比如具有隱含層的人工神經網絡,可預測碳通量在時間與空間上的變化。但這些應用也存在一些問題需要注意,比如外推能力,抽樣或數據偏見,忽視混雜因素,統計關聯與因果關係等。經典的機器學習方法需要一些先驗知識確定一些時空相關feature,而不能自動探索數據的時空特徵。一些時空動態特徵比如「記憶效應」可以作為feature手動加入到傳統機器學習中,但最新的深度學習已經沒有這些限制。
(2)深度學習在地球系統科學中的機遇。深度學習已在其他領域得到了眾多應用,但在地學中的應用還處於初級階段。已有一些研究顯示深度學習可以很好的提取時空特徵,比如極端天氣,而不需要很多人類幹預。這也可用於城市變化的遙感自動提取。深度學習方法通常被劃分為空間學習(例如,用於對象分類的卷積神經網絡)和序列學習(例如,語音識別),但兩者逐漸融合,可應用視頻與動作識別問題。這些問題類似於地學中隨時間變化的多維度結構,例如有序降水對流與植被狀態。雖然有很大應用前景,但應用於時空變化的大氣海洋傳輸或植被動態還有待發展。
(3)深度學習在地球系統科學中的挑戰。雖然傳統深度學習的應用對象與地學現象有很大相似性,但也存在重要區別。比如高光譜、多波段就比基於三原色RGB的計算機圖像識別複雜很多,此外還有帶噪音、有缺測的衛星數據。另外,波段、時間與空間維度的集合也會帶來計算量的挑戰。計算機圖片中識別可大量「狗」,「貓」現成訓練樣本,而地學中沒有類似被標記的大量訓練樣本,如乾旱。對外,作者總結出五大挑戰,分別來自可解釋性、物理一致性、數據的複雜與確定性、缺少標記樣本、以及計算需求。若這些挑戰能解決,那麼深度學習將對地學帶來巨大改變。近期最有前景的應用是」臨近預報「(nowcasting),未來是長期預測。作者認為深度學習將很快成為地學中分類與時空預測問題的主要方法。
(4) 與物理建模集成。物理建模(理論驅動)與機器學習建模(數據驅動)過去往往被認為是兩個領域,具有不同範式。但其實兩種方法可以相互補充的,前者外推能力強,後者更靈活可發現新規律。作者提出二種方法可結合的幾個潛在點:改善參數化、用機器學習「替代」物理模型中子模塊、模型與觀測的不匹配分析,約束子模型、代替模型或仿真。
(5)推動科學發展。機器學習方法無疑給分類和預測問題帶來大幅提高。機器學習的數據驅動方法還可從數據中挖掘出過去不知道的新信息,從而推動新機制新認識的產生。
(6)文章結語。地球科學大數據時代機器學習很有用,但也存在應用挑戰,作者對此提出四點建議:識別數據的特殊性、推論的合理性和可解釋性、不確定性估計、針對複雜物理模式進行驗證。未來過程模型與機器學習將進一步結合。數據驅動的機器學習不會替代物理模型,但是會起到補充和豐富的作用,最終實現混合建模。
(以上六點總結引自李老師,https://mp.weixin.qq.com/s/uL4C3birbbFQ-UhntuTgRg)
文章圖文
名詞解釋
圖. 1 地球科學背景下面臨的大數據挑戰
Data size now exceeds 100 petabytes, and is growing quasi-exponentially (tapering of the figure to the right indicates decreasing data size.) The speed of change exceeds 5 petabytes a year; data are taken at frequencies of up to 10 Hz or more; reprocessing and versioning are common challenges. Data sources can be one- to four-dimensional, spatially integrated, from the organ level (such as leaves) to the global level. Earth has diverse observational systems, from remote sensing to in situ observation. The uncertainty of data can stem from observational errors or conceptual inconsistencies.
圖2: 左邊是四個深度學習典型的應用情景,右邊是可用於對應的地球科學問題
a, Object recognition in images links to classification of extreme weather patterns using a unified convolutional neural network on climate simulation data41. b, Super-resolution applications relate to statistical downscaling of climate model output72. c, Video prediction is similar to short-term forecasting of Earth system variables. Right image, courtesy of Sujan Koirala and Paul Bodesheim, Max Planck Institute for Biogeochemistry. d, Language translation links to modelling of dynamic time series (ref. 96 and figure 11 in ref. 97). Left image, courtesy of Stephen Merity (figure 1 in https://smerity.com/articles/2016/google_nmt_arch.html).
圖3: 數值物理模型和機器學習的聯繫
An abstraction of a part of a physical system—for example, an Earth system model—is depicted here. The model consists of submodels; each submodel has parameters and forcing variables as inputs and produces output, which can be input (forcing) to another sub-model. Data-driven learning approaches can be helpful in various instances, as indicated by the circled numbers. For example, the circle labelled 2 represents hybrid modelling. See the text for more detail. ML, machine learning.
圖 4: 將混合模型建立解釋為在添加一個或多個物理層的多層神經網絡,使模型在物理上更加真實,從而深化深度學習體系結構。
a, The multilayer neural network, with n the number of neural layers and m the number of physical layers. b and c are concrete examples of hybrid modelling (circle 2 in Fig. 3). b, Prediction of sea-surface temperatures, where a motion field of the water is learned with a convolutional–deconvolutional neural network, and the motion field is further processed with a physical model to predict future states. Adapted from figure 1 of de Bezenac et al.68. c, A biological regulation process (opening of the stomatal 『valves』 controlling water vapour flux from the leaves) is modelled with a recurrent neural network. Then a physical diffusion model is used to estimate transpiration, which in turn influences some of the drivers, such as soil moisture. The basic scheme in a is inspired by figure 1.5 in Goodfellow et al.98 and redrawn.
人工智慧(AI)是一個總括合集概念,涵蓋從最早的邏輯結構的有效老式人工智慧 (Good Old-Fashioned Artificial Intelligence,簡稱GOFAI),到最新的聯結結構的深度學習(DL)。
機器學習(ML)是 人工智慧(AI)的子集,涵蓋一切有關數據訓練的學習算法研究,包括多年來發展的一整套成熟技術,比如:
•線性回歸(Linear Regression,數理統計中回歸分析方法);•K均值(K-means,基於原型的目標函數聚類方法);•決策樹(Decision Trees,直觀運用概率分析的一種圖解法);•隨機森林(Random Forest,包含多個決策樹的分類器);•PCA(Principal Component Analysis,主成分分析,一種多變量分析方•SVM(Support Vector Machine,支持向量機,一種監督式學習的方法)•ANN(Artificial Neural Networks,人工神經網絡,一種運算模型)。
深度學習(DL)則起源於人工神經網絡(ANN)。人工神經網絡(ANN)是60年代早期發明的技術,一些機器學習(ML)從業者曾接觸過,他們對深度學習(DL)的第一印象可能是:這不過是多層結構的人工神經網絡(ANN)而已。此外,深度學習(DL)的成功主要是基於大量可用的數據以及更強大的計算引擎比如 GPU(Graphic Processing Units)的出現。這當然是真的,深度學習(DL)的出現基本上是受益於大數據及計算能力的發展,然而,由此得出深度學習(DL)只是一個比支持向量機(SVM)或決策樹更好的算法的結論,類似於只見樹木,不見森林。
(引自:https://www.zhinengl.com/2017/01/deep-learning-different-from-machine-learning/)
問題
建議:這篇綜述文章值得反覆閱讀,適當把相關參考引用文獻挑選一部分閱讀,去了解相關機器學習/深度學習專業名詞。並思考三個問題:
1.自己研究的領域有哪些部分是具備海量數據?2.用深度學習是否能夠應用,並在以往傳統基礎上去改進?3.用深度學習的辦法來解決新舊問題,需要搭建怎樣的軟硬體框架?
參考
https://doi.org/10.1038/s41586-019-0912-1
https://mp.weixin.qq.com/s/uL4C3birbbFQ-UhntuTgRg
https://www.zhinengl.com/2017/01/deep-learning-different-from-machine-learning/
文末彩蛋
•相關的書籍獲取(留言,PDF圖書資源均源自網絡,侵刪!)
書單
0.Machine Learning and Data Mining Approaches to Climate Science
1.統計學習方法
2.Deep Learning-CN
3.TensorFlow實戰-2017
4.機器學習_周志華
5.機器學習實戰
6.Fluent Python-中文原版
7.Hands-On Machine Learning with Scikit-Learn and TensorFlow
8.Introduction Machine Learning with Python
9.Learning Python-5th
10.Python Cookbook(第3版)中文版
11.Python for Data Analysis Data Wrangling with Pandas, NumPy, and IPython
12.Python數據分析基礎教程:NumPy學習指南(第2版)
13.Python科學計算第二版
14.Python編程:從入門到實踐
15.Python語言及其應用
16.Scientific Computing with Python 3
17.Two Scoops of Django-1.11
18.如何閱讀Python代碼-The Hitchhiker's Guide to Python
19.編寫高質量代碼 改善Python程序的91個建議
20.Introduction to Python for Engineers and Scientists
(本文在公眾號「氣象學家」同步推送!)
往期回顧
python與地理空間分析(一)
Grib數據一鍵可視化
從xarray走向netCDF處理(一):數據結構及數據讀取
從xarray走向netCDF處理(二):數據索引
最強大的netCDF處理工具
用機器學習應對氣候變化?