前沿研究丨數據生態系統——數據海

2020-10-22 中國工程院院刊

本文選自中國工程院院刊《Engineering》2020年第6期

作者:Zi-Kui Liu

來源:View and Comments on the Data Ecosystem: 「Ocean of Data」[J].Engineering,2020,6(6):604-608.

編者按

一個可持續的數據生態系統是由一套機制(即標準)組成的,這些機制的功能類似於自然界中的溪流,它們克服障礙,將數據從個體存儲庫傳輸到「數據海」(ocean of data),然後再循環將數據傳回個體存儲庫。

中國工程院院刊《Engineering》刊發《數據生態系統——數據海》一文,針對不斷增長的計算能力和在線數據存儲庫,對「數據海」這一概念進行深入探討。文章認為,隨著技術的發展,需要一種全新的計算框架範式,用以連接各種數據存儲庫、整合機器學習、循環使用現有數據,以及為新的計算和實驗工作提供參考,創建一種由數據和工具所組成的「可持續生態系統」(sustainable ecosystem)。文章指出,希望通過最近公開的一些開原始碼能夠促進各個數據存儲庫與「數據海」之間的低障礙交換路徑的開發,同時,期待與「數據海」的數據交換能夠提高每個獨立的數據存儲庫中的數據的用途和價值。

針對不斷增長的計算能力和大量的在線數據存儲庫,筆者對「數據海」這一概念進行深入探討。這些新的發展需要一種全新的計算框架範式,用以連接各種數據存儲庫、整合機器學習、循環使用現有數據,以及為新的計算和實驗工作提供參考,從而創建一種由數據和工具所組成的「可持續生態系統」(sustainable ecosystem)。筆者希望最近公開的一些開原始碼能夠促進各個數據存儲庫與「數據海」之間的低障礙交換路徑的開發,同時,我們期待與「數據海」的數據交換能夠提高每個獨立的數據存儲庫中的數據的用途和價值,如圖1 所示。

圖1 參考文獻所描繪的ESPEI數據的「可持續生態系統」示意圖,圖中顯示了各種數據存儲庫(湖泊)、互聯(河流)、私有數據(滲流)、數據處理(蒸發)、數據收集(海洋)、數據循環使用(冷凝與降水)。ESPEI:可擴展的、自我優化的相平衡基礎設施

熱力學是一門研究系統與環境相互作用時的狀態(包括穩定、亞穩定以及不穩定狀態)的科學。Gibbs提出的熱力學第一定律和第二定律的結合,將系統的外部和內部緊密聯繫起來。儘管Gibbs關注的是非均相物質的平衡,但是熱力學第一定律和第二定律的結合亦將系統的平衡態和非平衡態包含在其中。

基於相圖計算(CALPHAD)方法的熱力學建模可以在系統外部和內部變量的整個空間中建立各個相的吉布斯能量,並且涵蓋了每個相的穩定區、亞穩定區和不穩定區。事實上,對於純元素的穩定結構與非穩定結構之間的能量差的定義是CALPHAD建模的基礎, Kaufman將其稱為「晶格穩定性」(lattice stability), Kaufman是開創CALPHAD方法的先驅,亦是該方法的命名者。「晶格穩定性」概念的提出以及人們對一組「晶格穩定性」值的普遍接受,使得多組分資料庫得以發展並涵蓋20多個元素,這些資料庫已經成為集成計算材料工程(ICME)和材料基因組計劃(MGI)的基礎。

在2000年之前,CALPHAD建模幾乎完全依賴於實驗信息和一些相對簡單的理論預測,其與基於密度泛函理論(DFT)的第一性原理得出的計算結果的集成相當有限。計算方法和軟體工具的不斷發展,特別是維也納ab-initio 模擬軟體包(VASP)的出現,促進了CALPHAD建模中廣泛應用DFT的第一性原理計算的結果,以及多學科信息技術研究(ITR)項目,即「多組分材料設計的計算工具」(Computational Tools for Multicomponent Materials Design)在2002年的啟動,該項目得到了美國國家科學基金會(NSF)的支持。這項信息技術研究項目通過相場模擬及有限元法將DFT 和CALPHAD方法相結合,這一靈感來源於人類基因組計劃以及NSF支持的名為「計算熱力學、計算動力學和材料設計的綜合教育計劃」(An Integrated Education Program on Computational Thermodynamics, Kinetics, and Materials Design)項目,後者啟發筆者在2002年創造了「材料基因」(materials genome)這一術語和概念。

2009年,筆者回顧了熱力學的第一性原理計算和 CALPHAD建模的新發展。筆者的團隊創立了可擴展的、自我優化的相平衡基礎設施(ESPEI)概念,該框架使用來自第一性原理計算的各個相的熱化學數據進行CALPHAD建模,並使用實驗相平衡數據完善模型參數

ESPEI概念的重要性體現在3個方面

第一性原理計算提供的能量值是內部自由度的函數,即每個單獨相的內部非平衡構型,該構型難以從實驗中直接獲得,因為實驗數據往往來自多種構型的混合物;

ESPEI建立了一種機制,該機制可以有效地評估模型參數、數據的不確定性以及計算性能中的不確定性傳播;

ESPEI數據基礎結構集成了基於 CALPHAD建模中的原始數據和處理後的數據,從而可以有效地循環使用原始數據,並有效地更新和維護處理後的數據和資料庫。在美國,隨著越來越多的關於第一性原理計算的出版物面市,加之高性能計算工具逐漸普及以及諸如材料項目、開放量子材料資料庫和材料發現自動流程等大型在線資料庫的發展,筆者相信基於DFT的第一性原理計算中的熱化學數據,將在各種材料的CALPHAD建模中發揮越來越關鍵的作用,特別是在新材料的發現與設計中。

Olson系統地開發了基於CALPHAD資料庫、熱力學計算和動力學模擬的系統材料設計,以開發新材料並改進現有材料。這種系統材料設計方法將加工過程中的可控參數與使用微觀結構屬性的可測量的數量屬性聯繫起來。在眾多微觀結構屬性中,最關鍵的基礎變量是形成的相,這與CALPHAD方法中的單相建模概念完全一致。CALPHAD方法也已經運用了一系列其他屬性。表1例舉了本研究小組計算的一些性能。此外還應特別注意的是,能量對其自然變量的二階導數代表了許多物理量,如圖2、圖3所示,其中,一些正在開發的臨時術語條目被劃歸至圖2中最後一列和最後一行,包括圖3中的壓縮熱。

表1 計算和建模屬性的實例

圖2 與內部能量關於其自然變量的二階導數相關的物理量

圖3 與吉布斯能量關於其自然變量的二階導數相關的物理量

材料設計是材料生命周期的第一步。設計完成後,材料被製造出來並投入使用,製造與使用過程會產生新的原始數據,從而豐富現有的原始數據和處理後的數據,或將二者進行對比。此外,材料回收對於環境和材料成本變得越來越重要。由於材料的回收通常會涉及多種材料的混合,因此與單獨設計每一種材料所用的原始數據以及處理後的數據相比,回收材料的化學成分可能會更複雜。這些新的原始數據可能需要額外的第一性原理計算,已有的模型亦需要進一步修訂和擴展。如圖4所示,這個連接對於可持續數據生態系統而言至關重要,但這並不是一件容易的事情,因為目前的熱力學資料庫可包含20多個元素,而這些非常多的外部和內部變量的多維空間中的原始數據是有限的。我們希望在開發開元軟體包方面所做出的努力,如DFTTK、pycalphad、ESPEI和最近的SIPFENN深層神經網絡機器學習†等能夠激勵業界進行新工具的開發,以進一步推動科學與計算驅動的材料研究範式的發展。

圖4 數據生態系統示意圖,包括原始數據(實驗、第一性原理計算和機器學習)、處理後的數據(建模——使用pycalphad和ESPEI的CALPHAD)、材料製造、材料服役和材料回收

其他挑戰主要在於材料在長度和時間尺度上的多層次複雜性,以及與信息如何在尺度之間傳遞以產生微觀和宏觀行為有關。我們最近的研究證明,下列熵等式有希望通過熵實現材料性質和信息的多尺度集成。

等式(1)表示系統的總熵S,可根據k尺度的系統構型計算得出。其中pk表示系統構型k∈{1, ...,m}的概率,且,Sk表示尺度k中每個構型的熵,而kB表示玻爾茲曼常量。需要注意的是,系統的熵包含了所考量尺度上的熵加上每個單獨構型的熵,每個單獨構型的概率與所有構型的自由能有關。每個單獨的構型都由其另外的一組內部的構型組成,因此Sk可以用其自身的構型以與等式(1)相同的形式表達。這種拆分可以持續進行,直到所有的重要尺度都被納入考量範圍,並且這種多尺度的集成不止限於一個方向,可以是雙向的。材料科學與工程領域的研究重點是相的形成,原子構型代表了佔主導地位的尺度,而電子和聲子的密度則代表其子尺度,同時外界宏觀的制約可以改變材料內部相的形成和形貌。

在等式(2)中,dS表示系統的熵變化;dQ表示系統從周圍環境接收(> 0)或釋放(<0)的熱量;Sj表示組分j在環境或系統中的偏摩爾熵;dNj表示系統接收(dNj>0)或釋放(dNj<0)到周圍環境中的組分j的量;T表示溫度;dIPS是由於獨立的內部過程(IP)產生的熵。等式右邊的第一項通常代表熵的概念如何被引入材料熱力學,相對而言第二項則很少被討論,其常被隱沒在將化學勢直接引入熱力學第一定律和第二定律的過程中。第三項的細節,即熵的產生,通常被認為是動力學或者不可逆熱力學的部分。由於我們的研究往往只考慮平衡態,因此第三項的內容在熱力學中通常沒有涉及。值得注意的是,熱力學第一定律和第二定律中的熵包含了等式(2)中的三個項,儘管通常對此不作特別說明。

等式(3)表明,通過將內部過程定義為IP系統,由內部過程產生的熵也可以用類似於等式(2)的形式表示。該IP系統可能會消耗一些偏熵為的養分()以及產生部分偏熵為的廢物()和熱量(d

IP

Q),並重組其構型以產生一定的信息量(dIPI)。然後通過等式(1)可得到如下等式:

式中,下標f和i代表IP系統最終和初始的構型。對於自發或不可逆的內部過程,根據熱力學第二定律,由式(3)表示的熵產生必須為正。然而,dIPI的符號可以是正(信息生成過程),亦可以是負(信息擦除過程)。參考文獻對各種設想的實驗展開探討。應該注意的是,等式(2)與等式(3)中的符號約定是相反的,等式(2)中的正號表示系統從環境中接收熱量與質量,而等式(3)中的正號則表示IP系統隨著熵的增加而釋放熱量與質量。

事實證明,基於單個相的屬性的CALPHAD建模是計算材料科學和工程的基礎。為了進一步提高基於 CALPHAD方法的預測能力,筆者建議在相應尺度上將構型納入考量範疇,如等式(1)所示,所以在預測過程中,不同尺度的屬性可作為外部條件的一個函數,這樣單個構型之間的競爭就有可能導致系統產生單個構型所不具備的突現行為。當溫度對熵的導數從穩定的正值逐漸接近零時,系統穩定性極限的極端突現行為可被觀察到。由於溫度和熵是熱力學組合定律中的共軛變量,即熵變發散,所以熵對溫度的導數變為正無窮大,這是由等式(1)所示的穩定和亞穩定構型之間的競爭所引起的。應該指出的是,當系統的熵發散的時候,單個構型的熵並不發散,這適合於系統所有的摩爾量。也就是說,系統的每一個摩爾量都會在穩定性達到極限時發散,而單個構型的摩爾量並不發散。此外,當用體積對溫度的導數表示熱膨脹時,系統的熵可能呈現負發散狀態,因為體積和溫度不是熱力學組合定律中的共軛變量。就熱膨脹而言,我們已經證明了鈰的發散為正,而Fe3Pt的發散為負。同時,由於麥克斯韋關係,體積對溫度的導數等於熵對壓力(我們稱之為「壓縮熱」)的導數的負值,因此,圖2與圖3 中的量是對稱的。

註:本文內容呈現略有調整,若需可查看原文。

改編原文:

Zi-Kui Liu.View and Comments on the Data Ecosystem: 「Ocean of Data」[J].Engineering,2020,6(6):604-608.

前沿研究:稀土永磁材料專題

前沿研究:稀土永磁體的前景展望

戰略研究:核能用材 & 礦產資源強國

中國工程院院刊

工程造福人類

科技開創未來

微信公眾號ID :CAE-Engineering

說明:論文反映的是研究成果進展,不代表《中國工程科學》雜誌社的觀點。

相關焦點

  • Fenbushi生態系統文件幣開發基金丨星際數據
    Fenbushi Capital與Protocol Labs合作,宣布在IPFS和Filecoin生態系統中投資15百萬美元。該基金的任務是推動IPFS和Filecoin生態系統的發展。2.LongHash Filecoin前沿加速器。總部位於新加坡的LongHash Ventures最近宣布了為期12周的Filecoin Frontier Accelerator。Fenbushi和LongHash在過去幾年中一直緊密合作,並且Accelerator的150多個應用程式有望為Fenbushi生態系統基金帶來潛在的投資交易。
  • 大數據背景下的生態系統觀測與研究
    生態學已從一門依靠小規模合作與短時間個人觀測的實驗學科演化為一門實施長時間大規模觀測、跨學科合作的大數據學科。在大數據時代,如何獲取海量生態數據,如何基於大數據實現生態學「大」理論的發展和突破,服務於新時期生態文明建設等重大問題的解決,具有重要意義。本文首先論述了目前生態系統觀測研究現狀,其次分析了大數據時代生態系統觀測研究特徵,最後提出了我國大數據背景下的生態系統觀測研究發展建議。
  • 前沿研究丨控制水汙染,促進可持續發展
    一、引言水汙染是地球上生態退化的主要原因,它直接影響人類的水供應,常常對公共衛生造成嚴重後果。各種各樣的汙染物(包括化學物質、病原體和營養物質)正進入自然環境。家庭和工業廢水以及城市和農業徑流正在以前所未有的規模破壞水生生態系統。
  • 前沿研究丨水資源的可持續管理
    目前,最好的策略就是實施生態農業,建設生態村。生態農業的主要特點是:更少地使用化學肥料、化學殺蟲劑和水。此外,生態農業和生態村產生的生物廢料可被用作能源或其他類型的資源。近20年來,歐洲國家還開發了生活廢水源頭分離的工藝和設備。對原有的廁所進行改造,實現了灰水(汙染程度較低的清洗用水)、黃水(衝洗小便池的廢水)和黑水(衝洗大便池的廢水)的源頭分離。
  • 《人工智慧與國家安全:人工智慧生態系統的重要性》報告
    2018年11月,美國國際戰略研究中心(CSIS)發布《Artificial Intelligence and National Security, The Importance of the AI Ecosystem》(《人工智慧與國家安全:人工智慧生態系統的重要性》)。本文是對報告中重點數據與結論的編譯,僅供參考。文章版權歸原機構/作者所有,觀點不代表本機構立場。
  • 城市生態系統的生態調控研究
    摘要:城市生態系統是生態系統中最為複雜的類型,藉助於先進的科學理論對其進行分析,是城市生態系統研究的發展趨勢。本文試圖將當代科學前沿理論—自組織理論的觀點應用於城市生態系統中,探究系統自組織演化的條件、動力和途徑,以期從不同側面來探索城市生態系統的可持續發展,促進城市生態系統的良性循環   關鍵詞:城市生態系統;自組織理論;競爭協同;序參量;城市生態調控  自20世紀80年代中期以來,我國城市生態的研究開始進入了系統研究和綜合治理的階段。
  • 生態建設丨以生態系統價值核算助力生態產品價值實現
    生態建設丨以生態系統價值核算助力生態產品價值實現 2020-11-27 15:31 來源:澎湃新聞·澎湃號·政務
  • 前沿研究丨數據驅動的材料創新基礎設施
    材料基因工程工作模式大致可分為實驗驅動、計算驅動和數據驅動三種。近期,中國工程院院刊《Engineering》刊發的《數據驅動的材料創新基礎設施》一文指出,材料基因工程的數據驅動模式,基於大量數據,使用人工智慧來揭示隱藏在海量數據背後的關聯關係,為現有的常規研究增加了新的維度和視角。
  • IBM顧世山:製造企業的生態系統拓展與雲市場
    文丨張齊齊 編輯丨秦麗來源丨首席數字官2020年12月12日,「2020中國數位化年會線上論壇」之【法國裡昂商學院全球商業智能論壇】圓滿舉行。眾多大咖就智能製造、數位化轉型過程中的創新技術、相關管理學前沿理論與實踐的問題展開深度交流。
  • 《2019研究前沿》發布137個前沿 引力波、暗物質等入選
    生態與環境科學領域十大熱點前沿主要分布在環境科學和生態科學兩個子領域,環境科學子領域的熱點前沿主要包括利用微生物的汙水處理技術、水中汙染物分析分離技術以及環境汙染物的環境特徵與風險研究前沿「內分泌幹擾物的環境特徵、人體暴露與健康風險」;生態科學子領域的熱點前沿主要涉及宏觀大尺度的生物圈和生態系統的變化與風險,包括「地表植被覆蓋變化對氣候的影響」「在全球尺度上對外來物種入侵的監測及影響分析
  • 國際資訊|利用空間數據保護生態系統
    智利地中海硬葉林。為了保護美洲的生態多樣性,他們應該做些什麼來加強保護工作?答案或許能從NatureServe最近的一項發表在PLOS ONE上的研究中找到。生態多樣性對於保護生態系統體系、防止物種滅絕和保護瀕危生態系統至關重要。最近的研究記錄了整個美洲生態多樣性的喪失過程,並且發現陸地生態系統在保護區中缺乏普遍代表性。它確定了可以通過對保護工作進行管理以達到國際保護目標的地區。
  • 兒科多發性硬化的流行病學:系統綜述和薈萃分析丨前沿進展
    兒科多發性硬化的流行病學:系統綜述和薈萃分析丨前沿進展
  • 《大數據生態下的商業健康保險前沿發展模式研究白皮書》發布
    紅網時刻1月15日訊(通訊員 劉擎)近日,在中國衛生信息與健康醫療大數據學會健康保險工作委員會年會上,《大數據生態下的商業健康保險前沿發展模式研究白皮書》(以下簡稱《白皮書》)正式發布。本次《白皮書》在健康保險工作委員會的指導下,由中國太保及旗下太保安聯健康險公司牽頭,聯合浪潮集團、零點有數、波士頓諮詢等機構共同研究編撰。
  • 量子科技前沿科普——量子計算機的「奧秘」是什麼?丨湘聲大講堂
    研究進展和應用前景又是怎樣的?12月4日下午,湖南省政協舉辦湘聲大講堂第十二期「量子科技前沿科普——量子計算機」專題講座。湖南省政協老委員諮詢團成員、湖南師範大學物理與電子科學學院教授方卯發用生動有趣的方式對這些問題進行了逐一解答。湖南省政協副主席戴道晉、胡旭晟出席,省政協秘書長卿漸偉主持講座。全省政協委員通過政協雲可收看圖文直播。
  • 前沿研究丨COVID-19患者臨床結局改善可能性的預測列線圖模型
    研究方法本研究納入104例患者,收集其入院時、入院後4天、7天、14天、出院時等一系列詳細臨床數據,包括一般資料(身高、體重、年齡等)、症狀與體徵、流行病學史、併發症、實驗室檢查結果、胸部CT掃描結果等。
  • 中國生態系統研究網絡30周年學術研討會召開—新聞—科學網
    大會的目的是傳承CERN優良傳統、分享經驗,促進CERN的開拓創新和對外開放,傳播新知識、交流新思想、展示新成果,助推我國生態系統觀測研究的創新發展。 「隨著國際科技發展和國內生態環境建設和農牧業生產需求的轉變,CERN要面向國家重大科技需求,緊跟世界科技進步的步伐,解放思想,創新發展、出思想、出成果、出人才。」
  • ...系統碳收支研究取得重要成果 人類有效幹預可提高生態系統固碳...
    攝影:李晉  國際在線報導(記者李晉):近日,國際著名學術期刊《美國科學院院刊》以專輯形式發表了中國科學院生態系統固碳項目群的7篇研究論文,全面、系統地報導了中國陸地生態系統碳收支研究取得的系列重要成果。  以二氧化碳為主的溫室氣體排放被認為是引起全球變暖的主要原因,利用陸地生態系統固碳,則是減緩大氣二氧化碳濃度升高最為經濟可行和環境友好的途徑。
  • 生物多樣性保護 • 專家談丨共建地球生命共同體:生態系統保護與...
    生物多樣性保護 • 專家談丨共建地球生命共同體:生態系統保護與恢復的中國經驗 2020-10-12 09:59 來源:澎湃新聞·澎湃號·政務
  • 地理資源所:結合國家需求,探索科學前沿,實現陸地表層系統科學的...
    通過發布領域前沿項目指南和公開評審,我所從63個有效申請項目中,確定了2000年首批資助34個領域前沿項目(課題)。它們分布在陸地表層系統、資源環境綜合研究、區域可持續發展與資源經濟研究、陸地生態系統與生態網絡研究,以及地球空間信息科學五個研究領域。34個項目(課題)的資助經費總額為1800萬元。
  • 黃山森林生態系統定位研究站開建
    本報訊 記者龍琳報導 安徽黃山森林生態系統定位研究站建設項目日前啟動實施。該站是中國森林生態系統定位研究網絡的主要組成部分,建成後不僅能為本區域生態環境改善、森林生態系統自我恢復等研究提供科學翔實的數據資料,還可以為國家生態建設有關決策提供基礎數據和背景材料。