本文選自中國工程院院刊《Engineering》2020年第6期
作者:Zi-Kui Liu
來源:View and Comments on the Data Ecosystem: 「Ocean of Data」[J].Engineering,2020,6(6):604-608.
編者按
一個可持續的數據生態系統是由一套機制(即標準)組成的,這些機制的功能類似於自然界中的溪流,它們克服障礙,將數據從個體存儲庫傳輸到「數據海」(ocean of data),然後再循環將數據傳回個體存儲庫。
中國工程院院刊《Engineering》刊發《數據生態系統——數據海》一文,針對不斷增長的計算能力和在線數據存儲庫,對「數據海」這一概念進行深入探討。文章認為,隨著技術的發展,需要一種全新的計算框架範式,用以連接各種數據存儲庫、整合機器學習、循環使用現有數據,以及為新的計算和實驗工作提供參考,創建一種由數據和工具所組成的「可持續生態系統」(sustainable ecosystem)。文章指出,希望通過最近公開的一些開原始碼能夠促進各個數據存儲庫與「數據海」之間的低障礙交換路徑的開發,同時,期待與「數據海」的數據交換能夠提高每個獨立的數據存儲庫中的數據的用途和價值。
針對不斷增長的計算能力和大量的在線數據存儲庫,筆者對「數據海」這一概念進行深入探討。這些新的發展需要一種全新的計算框架範式,用以連接各種數據存儲庫、整合機器學習、循環使用現有數據,以及為新的計算和實驗工作提供參考,從而創建一種由數據和工具所組成的「可持續生態系統」(sustainable ecosystem)。筆者希望最近公開的一些開原始碼能夠促進各個數據存儲庫與「數據海」之間的低障礙交換路徑的開發,同時,我們期待與「數據海」的數據交換能夠提高每個獨立的數據存儲庫中的數據的用途和價值,如圖1 所示。
圖1 參考文獻所描繪的ESPEI數據的「可持續生態系統」示意圖,圖中顯示了各種數據存儲庫(湖泊)、互聯(河流)、私有數據(滲流)、數據處理(蒸發)、數據收集(海洋)、數據循環使用(冷凝與降水)。ESPEI:可擴展的、自我優化的相平衡基礎設施
熱力學是一門研究系統與環境相互作用時的狀態(包括穩定、亞穩定以及不穩定狀態)的科學。Gibbs提出的熱力學第一定律和第二定律的結合,將系統的外部和內部緊密聯繫起來。儘管Gibbs關注的是非均相物質的平衡,但是熱力學第一定律和第二定律的結合亦將系統的平衡態和非平衡態包含在其中。
基於相圖計算(CALPHAD)方法的熱力學建模可以在系統外部和內部變量的整個空間中建立各個相的吉布斯能量,並且涵蓋了每個相的穩定區、亞穩定區和不穩定區。事實上,對於純元素的穩定結構與非穩定結構之間的能量差的定義是CALPHAD建模的基礎, Kaufman將其稱為「晶格穩定性」(lattice stability), Kaufman是開創CALPHAD方法的先驅,亦是該方法的命名者。「晶格穩定性」概念的提出以及人們對一組「晶格穩定性」值的普遍接受,使得多組分資料庫得以發展並涵蓋20多個元素,這些資料庫已經成為集成計算材料工程(ICME)和材料基因組計劃(MGI)的基礎。
在2000年之前,CALPHAD建模幾乎完全依賴於實驗信息和一些相對簡單的理論預測,其與基於密度泛函理論(DFT)的第一性原理得出的計算結果的集成相當有限。計算方法和軟體工具的不斷發展,特別是維也納ab-initio 模擬軟體包(VASP)的出現,促進了CALPHAD建模中廣泛應用DFT的第一性原理計算的結果,以及多學科信息技術研究(ITR)項目,即「多組分材料設計的計算工具」(Computational Tools for Multicomponent Materials Design)在2002年的啟動,該項目得到了美國國家科學基金會(NSF)的支持。這項信息技術研究項目通過相場模擬及有限元法將DFT 和CALPHAD方法相結合,這一靈感來源於人類基因組計劃以及NSF支持的名為「計算熱力學、計算動力學和材料設計的綜合教育計劃」(An Integrated Education Program on Computational Thermodynamics, Kinetics, and Materials Design)項目,後者啟發筆者在2002年創造了「材料基因」(materials genome)這一術語和概念。
2009年,筆者回顧了熱力學的第一性原理計算和 CALPHAD建模的新發展。筆者的團隊創立了可擴展的、自我優化的相平衡基礎設施(ESPEI)概念,該框架使用來自第一性原理計算的各個相的熱化學數據進行CALPHAD建模,並使用實驗相平衡數據完善模型參數。
ESPEI概念的重要性體現在3個方面:
①第一性原理計算提供的能量值是內部自由度的函數,即每個單獨相的內部非平衡構型,該構型難以從實驗中直接獲得,因為實驗數據往往來自多種構型的混合物;
②ESPEI建立了一種機制,該機制可以有效地評估模型參數、數據的不確定性以及計算性能中的不確定性傳播;
③ESPEI數據基礎結構集成了基於 CALPHAD建模中的原始數據和處理後的數據,從而可以有效地循環使用原始數據,並有效地更新和維護處理後的數據和資料庫。在美國,隨著越來越多的關於第一性原理計算的出版物面市,加之高性能計算工具逐漸普及以及諸如材料項目、開放量子材料資料庫和材料發現自動流程等大型在線資料庫的發展,筆者相信基於DFT的第一性原理計算中的熱化學數據,將在各種材料的CALPHAD建模中發揮越來越關鍵的作用,特別是在新材料的發現與設計中。
Olson系統地開發了基於CALPHAD資料庫、熱力學計算和動力學模擬的系統材料設計,以開發新材料並改進現有材料。這種系統材料設計方法將加工過程中的可控參數與使用微觀結構屬性的可測量的數量屬性聯繫起來。在眾多微觀結構屬性中,最關鍵的基礎變量是形成的相,這與CALPHAD方法中的單相建模概念完全一致。CALPHAD方法也已經運用了一系列其他屬性。表1例舉了本研究小組計算的一些性能。此外還應特別注意的是,能量對其自然變量的二階導數代表了許多物理量,如圖2、圖3所示,其中,一些正在開發的臨時術語條目被劃歸至圖2中最後一列和最後一行,包括圖3中的壓縮熱。
表1 計算和建模屬性的實例
圖2 與內部能量關於其自然變量的二階導數相關的物理量
圖3 與吉布斯能量關於其自然變量的二階導數相關的物理量
材料設計是材料生命周期的第一步。設計完成後,材料被製造出來並投入使用,製造與使用過程會產生新的原始數據,從而豐富現有的原始數據和處理後的數據,或將二者進行對比。此外,材料回收對於環境和材料成本變得越來越重要。由於材料的回收通常會涉及多種材料的混合,因此與單獨設計每一種材料所用的原始數據以及處理後的數據相比,回收材料的化學成分可能會更複雜。這些新的原始數據可能需要額外的第一性原理計算,已有的模型亦需要進一步修訂和擴展。如圖4所示,這個連接對於可持續數據生態系統而言至關重要,但這並不是一件容易的事情,因為目前的熱力學資料庫可包含20多個元素,而這些非常多的外部和內部變量的多維空間中的原始數據是有限的。我們希望在開發開元軟體包方面所做出的努力,如DFTTK、pycalphad、ESPEI和最近的SIPFENN深層神經網絡機器學習†等能夠激勵業界進行新工具的開發,以進一步推動科學與計算驅動的材料研究範式的發展。
圖4 數據生態系統示意圖,包括原始數據(實驗、第一性原理計算和機器學習)、處理後的數據(建模——使用pycalphad和ESPEI的CALPHAD)、材料製造、材料服役和材料回收
其他挑戰主要在於材料在長度和時間尺度上的多層次複雜性,以及與信息如何在尺度之間傳遞以產生微觀和宏觀行為有關。我們最近的研究證明,下列熵等式有希望通過熵實現材料性質和信息的多尺度集成。
等式(1)表示系統的總熵S,可根據k尺度的系統構型計算得出。其中pk表示系統構型k∈{1, ...,m}的概率,且,Sk表示尺度k中每個構型的熵,而kB表示玻爾茲曼常量。需要注意的是,系統的熵包含了所考量尺度上的熵加上每個單獨構型的熵,每個單獨構型的概率與所有構型的自由能有關。每個單獨的構型都由其另外的一組內部的構型組成,因此Sk可以用其自身的構型以與等式(1)相同的形式表達。這種拆分可以持續進行,直到所有的重要尺度都被納入考量範圍,並且這種多尺度的集成不止限於一個方向,可以是雙向的。材料科學與工程領域的研究重點是相的形成,原子構型代表了佔主導地位的尺度,而電子和聲子的密度則代表其子尺度,同時外界宏觀的制約可以改變材料內部相的形成和形貌。
在等式(2)中,dS表示系統的熵變化;dQ表示系統從周圍環境接收(> 0)或釋放(<0)的熱量;Sj表示組分j在環境或系統中的偏摩爾熵;dNj表示系統接收(dNj>0)或釋放(dNj<0)到周圍環境中的組分j的量;T表示溫度;dIPS是由於獨立的內部過程(IP)產生的熵。等式右邊的第一項通常代表熵的概念如何被引入材料熱力學,相對而言第二項則很少被討論,其常被隱沒在將化學勢直接引入熱力學第一定律和第二定律的過程中。第三項的細節,即熵的產生,通常被認為是動力學或者不可逆熱力學的部分。由於我們的研究往往只考慮平衡態,因此第三項的內容在熱力學中通常沒有涉及。值得注意的是,熱力學第一定律和第二定律中的熵包含了等式(2)中的三個項,儘管通常對此不作特別說明。
等式(3)表明,通過將內部過程定義為IP系統,由內部過程產生的熵也可以用類似於等式(2)的形式表示。該IP系統可能會消耗一些偏熵為的養分(
)以及產生部分偏熵為
的廢物(
)和熱量(d
IP
Q),並重組其構型以產生一定的信息量(dIPI)。然後通過等式(1)可得到如下等式:式中,下標f和i代表IP系統最終和初始的構型。對於自發或不可逆的內部過程,根據熱力學第二定律,由式(3)表示的熵產生必須為正。然而,dIPI的符號可以是正(信息生成過程),亦可以是負(信息擦除過程)。參考文獻對各種設想的實驗展開探討。應該注意的是,等式(2)與等式(3)中的符號約定是相反的,等式(2)中的正號表示系統從環境中接收熱量與質量,而等式(3)中的正號則表示IP系統隨著熵的增加而釋放熱量與質量。
事實證明,基於單個相的屬性的CALPHAD建模是計算材料科學和工程的基礎。為了進一步提高基於 CALPHAD方法的預測能力,筆者建議在相應尺度上將構型納入考量範疇,如等式(1)所示,所以在預測過程中,不同尺度的屬性可作為外部條件的一個函數,這樣單個構型之間的競爭就有可能導致系統產生單個構型所不具備的突現行為。當溫度對熵的導數從穩定的正值逐漸接近零時,系統穩定性極限的極端突現行為可被觀察到。由於溫度和熵是熱力學組合定律中的共軛變量,即熵變發散,所以熵對溫度的導數變為正無窮大,這是由等式(1)所示的穩定和亞穩定構型之間的競爭所引起的。應該指出的是,當系統的熵發散的時候,單個構型的熵並不發散,這適合於系統所有的摩爾量。也就是說,系統的每一個摩爾量都會在穩定性達到極限時發散,而單個構型的摩爾量並不發散。此外,當用體積對溫度的導數表示熱膨脹時,系統的熵可能呈現負發散狀態,因為體積和溫度不是熱力學組合定律中的共軛變量。就熱膨脹而言,我們已經證明了鈰的發散為正,而Fe3Pt的發散為負。同時,由於麥克斯韋關係,體積對溫度的導數等於熵對壓力(我們稱之為「壓縮熱」)的導數的負值,因此,圖2與圖3 中的量是對稱的。
註:本文內容呈現略有調整,若需可查看原文。
改編原文:
Zi-Kui Liu.View and Comments on the Data Ecosystem: 「Ocean of Data」[J].Engineering,2020,6(6):604-608.
前沿研究:稀土永磁材料專題
前沿研究:稀土永磁體的前景展望
戰略研究:核能用材 & 礦產資源強國
中國工程院院刊
工程造福人類
科技開創未來
微信公眾號ID :CAE-Engineering
說明:論文反映的是研究成果進展,不代表《中國工程科學》雜誌社的觀點。