Nature(2019)-地球系統科學領域的深度學習及其理解

2021-02-18 MeteoAI

Title:Deep learning and process understanding for data-driven Earth system science 
標題:"數據驅動型"地球系統科學領域的深度學習及其過程理解 
作者:Markus reichstein1,2*, Gustau camps-valls 3, Bjorn stevens4, Martin Jung1, Joachim Denzler2,5, Nuno carvalhais1,6, and Prabhat7


  1 Department of Biogeochemical Integration, Max Planck Institute for Biogeochemistry, Jena, Germany.

2Michael-Stifel-Center Jena for Data-driven and Simulation Science, Jena, Germany.

3Image Processing Laboratory (IPL), University of València, Valencia, Spain.

4Max Planck Institute for Meteorology, Hamburg, Germany.

5Computer Vision Group, Computer Science, Friedrich Schiller University, Jena, Germany.

6CENSE, Departamento de Ciências e Engenharia do Ambiente, Faculdade de Ciências e Tecnologia, Universidade NOVA de Lisboa, Lisbon, Portugal.

7National Energy Research Supercomputing Center, Lawrence Berkeley National Laboratory, Berkeley, CA, USA.

* E-mail: mreichstein@bgc-jena.mpg.de


   雜誌:Nature,volume 566, pages195–204 (2019) 
   DOI:https://doi.org/10.1038/s41586-019-0912-1Abstract

Machine learning approaches are increasingly used to extract patterns and insights from the ever-increasing stream of geospatial data, but current approaches may not be optimal when system behaviour is dominated by spatial or temporal context. Here, rather than amending classical machine learning, we argue that these contextual cues should be used as part of deep learning (an approach that is able to extract spatio-temporal features automatically) to gain further process understanding of Earth system science problems, improving the predictive ability of seasonal forecasting and modelling of long-range spatial connections across multiple timescales, for example. The next step will be a hybrid modelling approach, coupling physical process models with the versatility of data-driven machine learning. 

原文摘要

機器學習方法越來越多地用於日益增長的地理空間數據流中提取相應的模型特徵和深入特點,但是目前的方法在系統行為受制於時空背景時還不能得到最優的方案。在這裡,主要目的並不是改進經典的機器學習算法,我們主張這些背景線索應該成為深度學習一部分(一種可以自動提取時空特徵的方法)來更深地獲取地球科學領域難題的過程理解,提升季節預報或者多時間尺度長距空間相關模擬的可預報能力,譬如,下一步將建立混合模型方法,將物理過程模式與數據驅動型機器學習的通用性耦合起來。 

背景信息

人類總是致力於預測和理解這個世界,能夠進行更好預測的能力在不同的領域都有很大的競爭優勢(譬如,天氣、疾病、金融市場)。人類從過去古希臘時代哲學推理到中世紀佔卜的偽科學方法,到現代科學論述包括假設檢驗、理論發展和計算機建模,這些都是以統計和物理關係,即相關定律為基礎的。天氣預報的成功是地球科學領域的一段佳話,主要依賴於理論的完善、現代的一整套觀測系統、日益增長的計算能力,使得海量的數據能夠同化到數值模式中來。即便如此,對於天氣的準確預報也只停留在天的尺度,還達不到精準預測月尺度。季節預測以及一些極端事件(譬如,洪水、火災)和一些更長時間尺度的預測還是面臨著巨大的挑戰。

與此同時,地球系統數據在激增,CMIP5數據集是廣泛用於周期性氣候評估的科學基礎,模式輸出的數據總量超過3PB,【1PB = 1,000 TB (兆) = 1,000,000 GB (十億)】, 而下一代CMIP6數據總量超過30PB。巨大的數據量在處理起來充滿了挑戰,其統計特性裡包含了大量的不確定性。地球科學領域海量的數據也具備大數據四大特徵:volume, velocity, variety and veracity(體積,速度,多樣性和準確性),例如各種遙感、定點觀測、模式數據。如今面臨挑戰就是如何從這些大數據中提取並解讀信息,因為信息收集速度遠大於人們所能消化的速度。數據的增多並未帶對系統預測能力的提高,科學家需要對數據進行理解。在這種背景下,機器學習就是一種極佳的選擇。

日益豐富的工具用於機器學習和AI,但是他們還需要進一步完善才能用於地球科學的分析,地球系統科學面臨新的機遇與挑戰,以及新型方法的需求,特別是特別是近年來對時空背景和不確定性的研究。

那麼對於地球科學領域的科學家在未來面臨的不可迴避問題就是:1.提取海量激增數據中的有用信息;2.遵循相關的物理定律前提下,相比於傳統的同化方法能夠從數值模式中獲取更多有效特徵。

文章主要綜述內容就是介紹地球科學領域的機器學習方法的發展,尤其是深度學習的——自動提取抽象的時空特徵,其具有非常大的潛力來克服當前諸多阻礙機器學習廣泛應用的局限性。本文羅列了當前最具有前景,且與物理模型結合具有挑戰的機器學習方法。

主要內容


(1)地學中最先進的機器學習。諸如神經網絡、隨機森林方法很早就應用於地學中的分類、變化檢測、土壤製圖問題。但這些應用是針對空間,在時間上是相對靜態的,但地球是不斷變化的。機器學習回歸方法在時間動態上具有優勢,比如具有隱含層的人工神經網絡,可預測碳通量在時間與空間上的變化。但這些應用也存在一些問題需要注意,比如外推能力,抽樣或數據偏見,忽視混雜因素,統計關聯與因果關係等。經典的機器學習方法需要一些先驗知識確定一些時空相關feature,而不能自動探索數據的時空特徵。一些時空動態特徵比如「記憶效應」可以作為feature手動加入到傳統機器學習中,但最新的深度學習已經沒有這些限制。

(2)深度學習在地球系統科學中的機遇。深度學習已在其他領域得到了眾多應用,但在地學中的應用還處於初級階段。已有一些研究顯示深度學習可以很好的提取時空特徵,比如極端天氣,而不需要很多人類幹預。這也可用於城市變化的遙感自動提取。深度學習方法通常被劃分為空間學習(例如,用於對象分類的卷積神經網絡)和序列學習(例如,語音識別),但兩者逐漸融合,可應用視頻與動作識別問題。這些問題類似於地學中隨時間變化的多維度結構,例如有序降水對流與植被狀態。雖然有很大應用前景,但應用於時空變化的大氣海洋傳輸或植被動態還有待發展。

(3)深度學習在地球系統科學中的挑戰。雖然傳統深度學習的應用對象與地學現象有很大相似性,但也存在重要區別。比如高光譜、多波段就比基於三原色RGB的計算機圖像識別複雜很多,此外還有帶噪音、有缺測的衛星數據。另外,波段、時間與空間維度的集合也會帶來計算量的挑戰。計算機圖片中識別可大量「狗」,「貓」現成訓練樣本,而地學中沒有類似被標記的大量訓練樣本,如乾旱。對外,作者總結出五大挑戰,分別來自可解釋性、物理一致性、數據的複雜與確定性、缺少標記樣本、以及計算需求。若這些挑戰能解決,那麼深度學習將對地學帶來巨大改變。近期最有前景的應用是」臨近預報「(nowcasting),未來是長期預測。作者認為深度學習將很快成為地學中分類與時空預測問題的主要方法。

(4) 與物理建模集成。物理建模(理論驅動)與機器學習建模(數據驅動)過去往往被認為是兩個領域,具有不同範式。但其實兩種方法可以相互補充的,前者外推能力強,後者更靈活可發現新規律。作者提出二種方法可結合的幾個潛在點:改善參數化、用機器學習「替代」物理模型中子模塊、模型與觀測的不匹配分析,約束子模型、代替模型或仿真。

(5)推動科學發展。機器學習方法無疑給分類和預測問題帶來大幅提高。機器學習的數據驅動方法還可從數據中挖掘出過去不知道的新信息,從而推動新機制新認識的產生。

(6)文章結語。地球科學大數據時代機器學習很有用,但也存在應用挑戰,作者對此提出四點建議:識別數據的特殊性、推論的合理性和可解釋性、不確定性估計、針對複雜物理模式進行驗證。未來過程模型與機器學習將進一步結合。數據驅動的機器學習不會替代物理模型,但是會起到補充和豐富的作用,最終實現混合建模。

(以上六點總結引自李老師,https://mp.weixin.qq.com/s/uL4C3birbbFQ-UhntuTgRg)

文章圖文

名詞解釋

圖. 1 地球科學背景下面臨的大數據挑戰

Data size now exceeds 100 petabytes, and is growing quasi-exponentially (tapering of the figure to the right indicates decreasing data size.) The speed of change exceeds 5 petabytes a year; data are taken at frequencies of up to 10 Hz or more; reprocessing and versioning are common challenges. Data sources can be one- to four-dimensional, spatially integrated, from the organ level (such as leaves) to the global level. Earth has diverse observational systems, from remote sensing to in situ observation. The uncertainty of data can stem from observational errors or conceptual inconsistencies.

圖2: 左邊是四個深度學習典型的應用情景,右邊是可用於對應的地球科學問題

a, Object recognition in images links to classification of extreme weather patterns using a unified convolutional neural network on climate simulation data41. b, Super-resolution applications relate to statistical downscaling of climate model output72. c, Video prediction is similar to short-term forecasting of Earth system variables. Right image, courtesy of Sujan Koirala and Paul Bodesheim, Max Planck Institute for Biogeochemistry. d, Language translation links to modelling of dynamic time series (ref. 96 and figure 11 in ref. 97). Left image, courtesy of Stephen Merity (figure 1 in https://smerity.com/articles/2016/google_nmt_arch.html).

圖3: 數值物理模型和機器學習的聯繫 

 An abstraction of a part of a physical system—for example, an Earth system model—is depicted here. The model consists of submodels; each submodel has parameters and forcing variables as inputs and produces output, which can be input (forcing) to another sub-model. Data-driven learning approaches can be helpful in various instances, as indicated by the circled numbers. For example, the circle labelled 2 represents hybrid modelling. See the text for more detail. ML, machine learning.

圖 4: 將混合模型建立解釋為在添加一個或多個物理層的多層神經網絡,使模型在物理上更加真實,從而深化深度學習體系結構。

a, The multilayer neural network, with n the number of neural layers and m the number of physical layers. b and c are concrete examples of hybrid modelling (circle 2 in Fig. 3). b, Prediction of sea-surface temperatures, where a motion field of the water is learned with a convolutional–deconvolutional neural network, and the motion field is further processed with a physical model to predict future states. Adapted from figure 1 of de Bezenac et al.68. c, A biological regulation process (opening of the stomatal 『valves』 controlling water vapour flux from the leaves) is modelled with a recurrent neural network. Then a physical diffusion model is used to estimate transpiration, which in turn influences some of the drivers, such as soil moisture. The basic scheme in a is inspired by figure 1.5 in Goodfellow et al.98 and redrawn. 

人工智慧、深度學習、機器學習區別

人工智慧(AI)是一個總括合集概念,涵蓋從最早的邏輯結構的有效老式人工智慧 (Good Old-Fashioned Artificial Intelligence,簡稱GOFAI),到最新的聯結結構的深度學習(DL)。

機器學習(ML)是 人工智慧(AI)的子集,涵蓋一切有關數據訓練的學習算法研究,包括多年來發展的一整套成熟技術,比如:

•線性回歸(Linear Regression,數理統計中回歸分析方法);•K均值(K-means,基於原型的目標函數聚類方法);•決策樹(Decision Trees,直觀運用概率分析的一種圖解法);•隨機森林(Random Forest,包含多個決策樹的分類器);•PCA(Principal Component Analysis,主成分分析,一種多變量分析方•SVM(Support Vector Machine,支持向量機,一種監督式學習的方法)•ANN(Artificial Neural Networks,人工神經網絡,一種運算模型)。

深度學習(DL)則起源於人工神經網絡(ANN)。人工神經網絡(ANN)是60年代早期發明的技術,一些機器學習(ML)從業者曾接觸過,他們對深度學習(DL)的第一印象可能是:這不過是多層結構的人工神經網絡(ANN)而已。此外,深度學習(DL)的成功主要是基於大量可用的數據以及更強大的計算引擎比如 GPU(Graphic Processing Units)的出現。這當然是真的,深度學習(DL)的出現基本上是受益於大數據及計算能力的發展,然而,由此得出深度學習(DL)只是一個比支持向量機(SVM)或決策樹更好的算法的結論,類似於只見樹木,不見森林。

(引自:https://www.zhinengl.com/2017/01/deep-learning-different-from-machine-learning/)


問題 

建議:這篇綜述文章值得反覆閱讀,適當把相關參考引用文獻挑選一部分閱讀,去了解相關機器學習/深度學習專業名詞。並思考三個問題:

1.自己研究的領域有哪些部分是具備海量數據?2.用深度學習是否能夠應用,並在以往傳統基礎上去改進?3.用深度學習的辦法來解決新舊問題,需要搭建怎樣的軟硬體框架?


參考


https://doi.org/10.1038/s41586-019-0912-1

https://mp.weixin.qq.com/s/uL4C3birbbFQ-UhntuTgRg 

https://www.zhinengl.com/2017/01/deep-learning-different-from-machine-learning/


文末彩蛋

•相關的書籍獲取(留言,PDF圖書資源均源自網絡,侵刪!)



書單

0.Machine Learning and Data Mining Approaches to Climate Science

1.統計學習方法

2.Deep Learning-CN

3.TensorFlow實戰-2017

4.機器學習_周志華

5.機器學習實戰

6.Fluent Python-中文原版

7.Hands-On Machine Learning with Scikit-Learn and TensorFlow

8.Introduction Machine  Learning with Python

9.Learning Python-5th

10.Python Cookbook(第3版)中文版

11.Python for Data Analysis Data Wrangling with Pandas, NumPy, and IPython

12.Python數據分析基礎教程:NumPy學習指南(第2版)

13.Python科學計算第二版

14.Python編程:從入門到實踐

15.Python語言及其應用

16.Scientific Computing with Python 3

17.Two Scoops of Django-1.11

18.如何閱讀Python代碼-The Hitchhiker's Guide to Python

19.編寫高質量代碼 改善Python程序的91個建議

20.Introduction to Python for Engineers and Scientists


(本文在公眾號「氣象學家」同步推送!)


往期回顧

python與地理空間分析(一)

Grib數據一鍵可視化

從xarray走向netCDF處理(一):數據結構及數據讀取

從xarray走向netCDF處理(二):數據索引

最強大的netCDF處理工具

用機器學習應對氣候變化?

相關焦點

  • ​Nature:數據驅動地球系統科學的深度學習與過程理解
    2019年,德國馬克斯普朗克研究所、美國勞倫斯伯克利實驗室等機構的研究者,合作發表於 Nature, 題為
  • 2018科學發展報告 | 地球系統科學發展與展望
    ▋2.地球系統科學的內涵從概念上講,地球系統科學強調地球系統的整體性及其與外部環境間的相互作用,它研究地球五大圈層(大氣圈、生物圈、水圈、巖石圈和冰凍圈)及其三大過程(生物過程、物理過程、化學過程)的驅動機理和運行規律。在全球變化和可持續發展的大背景下,地球系統科學特別強調人類活動對地球環境演變過程的影響。
  • 地球科學和人工智慧領域交叉研究會是未來的熱點嗎
    利用AI(Artificial Intelligence)人工智慧技術開展海洋動力過程的機理及其與氣候學科交叉課題的基礎研究,致力於發揮人工智慧技術在智慧漁業、石油勘測、氣象災害預測、海洋生態環保等領域的研究與應用。
  • PNAS 「深度學習的科學」論文合集導讀
    另一方面,它可能已經越來越令科學家感到不安,人們害怕目睹人類的在更多領域表現變得遠遠不足基於訓練形成的智能體,儘管目前這些系統最容易的理解特性僅僅是他們在遊戲中佔優勢的能力和能夠在 ImageNet 這樣的預測戰勝人類。 2019年3月,美國國家科學院在華盛頓召開了一次關於「深度學習的科學」的座談會。
  • 地球系統科學:演變、方法、新理論和未來挑戰
    本期推送文章為大家介紹地球系統科學的發展演化、方法手段、新的理論和面臨的挑戰。以蕾切爾·卡遜的《寂靜的春天》、羅馬俱樂部發表的《增長的極限》以及阿波羅17號飛船拍攝的「藍色星球」圖像為代表,突出了應將地球視為一個整體進行研究,並且強調了地球系統的脆弱性。三是地球科學研究受到了極大的重視。20世紀下半葉,在冷戰背景下,地球和環境科學發生了重要變化,地球物理學由於軍事領域經費的支持(非地球科學傳統資金來源),獲得了前所未有的發展。
  • 2019年度最佳書單:深度學習+機器學習+強化學習
    關於機器學習和深度學習的書,你都看全了嗎?別慌,這裡有一位機器學習創業者經過自己的挖掘和整理,為大家獻上的一份機器學習和深度學習的最佳書單,陪你度過2019剩下的3/4。它描述了業內從業者使用的深度學習技術,包括深度前饋網絡,正則化,優化算法,卷積網絡,序列建模和實用方法;它調查了自然語言處理,語音識別,計算機視覺,在線推薦系統,生物信息學和視頻遊戲等應用。最後,本書提供了研究視角,涵蓋了線性因子模型,自動編碼器,表示學習,結構化概率模型,蒙特卡羅方法,分區函數,近似推理和深度生成模型等理論主題。
  • 獨家專訪亞洲和大洋洲地球科學學會創始主席葉永烜教授
    他的研究集中於太陽系統的空間探索並特別關注小型天體例如小行星,彗星以及海王星外天體。他曾參與多項重要行星探索計劃,包括木星(伽利略計劃),土星(卡西尼惠更斯計劃)和彗星(喬託計劃、深空1號和羅塞塔計劃)。葉永烜教授曾於2006-2009年間擔任臺灣中央大學副校長,2009-2015年間任臺灣聯合大學系統副校長。他是亞洲和大洋洲地球科學學會創始主席。
  • 百度孫宇:百度語義理解技術ERNIE及其應用
    百度孫宇帶來報告《百度語義理解技術ERNIE及其應用》。孫宇,百度傑出架構師,百度語義理解技術與平臺ERNIE負責人。報告內容:近年來,預訓練技術在自然語言處理領域發展迅速,並獲得廣泛應用。2019年,百度NLP研發了基於知識增強的語義理解技術ERNIE,創新性地將大數據預訓練與多源豐富知識相結合,研發持續學習算法,不斷吸收海量文本數據中詞彙、結構、語義等方面的新知識,實現模型效果不斷進化,在有代表性的中英文16個任務上取得國際上最好的結果。ERNIE技術廣泛落地百度核心業務,取得了顯著應用效果。
  • 2021年登上Nature封面的地球與行星科學發現
    Nature 590, 97–102 (2021). https://doi.org/10.1038/s41586-021-03186-yVolume 591 Issue 7848, 4 March 2021Deep-sea diver由於極端條件的限制,深海一直是地球上有大量未知等待探索開發的區域。
  • Nature | 2019年首次,華中科技大學羅永康等在超導領域取得重大進展
    >使用氧17的核磁共振(NMR)光譜,以探測Sr2RuO4中超導的性質及其在應變下的演化。2019年8月29日,華中科技大學劉劍峰及密西根大學X.Z.在凝聚態物理中,物質的相通常由對稱性及其序參量來表徵。
  • 《Nature》影響2016的科學新聞事件
    擴展閱讀1)知乎:如何理解引力波,如何探測:https://www.zhihu.com/question/240796932世界各國新秩序對科學的影響                作為臨床試驗的一部分,研究者破壞了在正常情況下會抑制抑制細胞免疫系統的基因,希望這些經過編輯的細胞可以恢復對腫瘤細胞的免疫反應。預計明年將會有更多的基於CRISPR–Cas9的腫瘤治療試驗在美國和中國開展。       然而,CRISPR–Cas9治療的商業環境依然不明朗。
  • 深度 | David Silver全面解讀深度強化學習:從基礎概念到AlphaGo
    他的演講可以幫助我們獲得對強化學習(RL)和深度強化學習(Deep RL)的基本理解,這不是一件特別難的事。這篇文章將會按照如下組織:介紹深度學習介紹強化學習深度強化學習概述基於價值的深度強化學習基於策略的深度強化學習基於模型的深度強化學習希望上述的文章結構能夠幫助大家更好地理解整個主題。我會重點關注演講視頻中的重點,並儘可能去解釋一些問題的複雜概念。
  • SIGIR2019《深度自然語言處理的搜索系統》教程, 211頁PPT帶你從入門到精通
    在最近的SIGIR2019 Tutorial環節,來自LinkedIn的幾位專家跟大家交流了《深度自然語言處理的搜索系統》在工業界上的具體實踐。教程全面概述了如何應用深度自然語言處理技術在搜索系統上的細節和嘗試。除了傳統的搜尋引擎,還包括一些高級搜索系統的示例,如對話搜索和面向任務的聊天機器人,以及一些實際挑戰。
  • Nature:「博格人」已經登陸地球
    收錄於話題 #科學新聞 《星際迷航》中的宇宙種族!
  • 深度學習(deep learning)發展史(30k字)
    這個領域已經更換了很多名稱,它反映了不同的研究人員和不同觀點的影響。全面地講述深度學習的歷史超出了本書的範圍。然而,一些基本的背景對理解深度學習是有用的。這項嘗試主要被稱為「計算神經科學」,並且是獨立於深度學習的領域。研究人員在兩個領域之間來回研究是很常見的。深度學習領域主要關注如何構建計算機系統,從而成功解決需要智能才能解決的任務,而計算神經科學領域主要關注構建大腦如何真實工作的、比較精確的模型。
  • TensorFlow:深度學習領域的工業標準
    機器學習和深度學習是公認的未來方向,在這個領域裡,開源項目 TensorFlow 正在像大數據領域的 Hadoop 一樣,逐漸成為 AI 領域的工業標準。當年阿爾法狗一戰成名,擊敗李世石,後來化身 Master,敗盡天下英雄,一眾圍棋頂尖高手束手無策,阿爾法狗頗有一點獨孤求敗的意思,而阿爾法狗的算法訓練就是由 TensorFlow 完成的。
  • 2019年度最佳書單:深度學習/機器學習/強化學習(附部分電子書下載)
    關於機器學習和深度學習的書,你都看全了嗎?別慌,這裡有一位機器學習創業者經過自己的挖掘和整理,為大家獻上的一份機器學習和深度學習的最佳書單,陪你度過2019剩下的3/4。它描述了業內從業者使用的深度學習技術,包括深度前饋網絡,正則化,優化算法,卷積網絡,序列建模和實用方法;它調查了自然語言處理,語音識別,計算機視覺,在線推薦系統,生物信息學和視頻遊戲等應用。最後,本書提供了研究視角,涵蓋了線性因子模型,自動編碼器,表示學習,結構化概率模型,蒙特卡羅方法,分區函數,近似推理和深度生成模型等理論主題。
  • 深度學習領域的數據增強
    它是克服訓練數據不足的有效手段,目前在深度學習的各個領域中應用廣泛。但是由於生成的數據與真實數據之間的差異,也不可避免地帶來了噪聲問題。為什麼需要數據增強深度神經網絡在許多任務中表現良好,但這些網絡通常需要大量數據才能避免過度擬合。遺憾的是,許多場景無法獲得大量數據,例如醫學圖像分析。
  • 深度學習領域有哪些瓶頸
    Reddit網友評論道,以Yuille教授的背景,他比別人更清楚在深度學習在計算機視覺領域現狀如何,為什麼出現瓶頸。深度學習的三大瓶頸Yuille指出,深度學習雖然優於其他技術,但它不是通用的,經過數年的發展,它的瓶頸已經凸顯出來,主要有三個:需要大量標註數據深度學習能夠實現的前提是大量經過標註的數據,這使得計算機視覺領域的研究人員傾向於在數據資源豐富的領域搞研究,而不是去重要的領域搞研究。
  • 深度學習領域有哪些瓶頸?
    Reddit網友評論道,以Yuille教授的背景,他比別人更清楚在深度學習在計算機視覺領域現狀如何,為什麼出現瓶頸。深度學習的三大瓶頸Yuille指出,深度學習雖然優於其他技術,但它不是通用的,經過數年的發展,它的瓶頸已經凸顯出來,主要有三個:需要大量標註數據深度學習能夠實現的前提是大量經過標註的數據,這使得計算機視覺領域的研究人員傾向於在數據資源豐富的領域搞研究,而不是去重要的領域搞研究。