編者按:中科院之聲與中國科學院上海矽酸鹽研究所聯合開設「科普矽立方」專欄,為大家介紹先進無機非金屬材料的前世今生。我們將帶你——認識晶格,挑戰勢壘,尋覓暗物質,今古論陶瓷;彌補缺陷,能級躍遷,嫦娥織外衣,溢彩話琉璃。
被戲稱為諾貝爾「理綜獎」的化學獎今年再度授予給生物學家,以表彰她們對新一代基因編輯技術的貢獻。生物基因是生物體內攜帶遺傳信息的DNA片段,影響甚至決定著生物體的生長發育、衰老病死等所有生理過程。生物基因工程則是在分子水平上對基因進行重組,改變生物原本的遺傳信息,旨在按需設計新品種和產生新產品。那麼,同樣是由微觀粒子(原子、分子、離子等)構成的材料,是否也存在決定材料性能的「基因」呢?人們能否利用材料基因工程技術,按需設計特定性能的材料呢?
材料基因工程
答案是肯定的,而且已經引起各國的重視。早在2011年,美國聯邦政府率先啟動了一項名為「材料基因組計劃」(Materials Genome Initiative, MGI)的研究計劃,通過先進實驗和計算技術和數據共享等方式,加速新材料的發現,縮短材料研發周期,同時降低成本。同年年底,中國科學院和中國工程院召開了香山科學會議研討「材料科學系統工程」,並由徐匡迪院士、顧秉林院士、陳立泉院士和張統一院士等學者提出啟動中國的「材料基因組計劃」。此外,其他國家和地區,例如歐盟、日本和俄羅斯等也相繼啟動類似的材料研究計劃。
圖1 美國材料基因組計劃框架(圖片來自網絡)
雖然「材料基因」一詞經過多年的探討,但是至今依舊沒有明確的科學定義,其複雜性就可見一斑。相比生物基因僅由幾種核苷酸排列而成,材料組成和結構顯得更加複雜,材料基因工程的研究也更具有挑戰性。傳統的科學研究範式可能並不能滿足快速解碼材料基因圖譜的需求,因此材料信息學就應運而生。
人工智慧+材料科學
在了解材料信息學之前,我們首先需要對材料科學研究四大範式的發展脈絡有整體的認識。四大範式包括,實驗試錯、理論推演、模擬計算和數據科學。
新材料的研發最傳統的方式是實驗試錯法,即通過改變材料成分、合成手段、工藝參數等條件製備系列樣品,選出其中性能最合適的材料。很顯然,試錯法存在效率低、成本高、研發周期長等缺點,因此往往被戲稱為「炒菜法」,但是多年以來也為材料科學積累了大量的數據和經驗法則。
理論推演則是在對自然有充分認識、掌握足夠多的規律之後,科學家將自然現象抽象成數量關係,構造數學模型,並在模型預測的指導下研發材料。然而,由於實際問題往往相當複雜,理論模型的建立需要採用近似處理方法,因而不可避免地存在偏差和局限。隨著電子計算機的發展,科學家可以依據更本質的物理定律,對複雜過程進行多空間尺度模擬,從而定向設計材料成分、結構和性能。即便如此,模擬計算需要基於理論框架和依賴參數設置,因此計算結果與實驗結果大相逕庭的情況時有發生。
材料信息學一改以往研究範式對經驗和理論模型的依賴,直接針對可能與目標量相關的數據,分析其中統計關聯性,再從中研究材料成分、結構、工藝和性能之間的物理內涵。這種由數據驅動的方法藉助如今快速發展的大數據和人工智慧方法,從大量、複雜的變量集合中提取決定性因素,構建數據之間的定量關係,指導新規律的發現和新材料的快速研發。
圖2 科學研究四大範式(圖片來自網絡)
說白了,材料信息學可以簡單地認為是「人工智慧+材料科學」。提起「人工智慧」,你可能會想起幾年前的圍棋人機大戰:圍棋世界冠軍柯潔完敗。人類冠軍低頭拭淚,痛苦感嘆「它太完美,我看不到任何勝利的希望」的場景依舊曆歷在目。在柯潔戰敗之前,「AI+」早已引起學術界的重視。2016年1月27日「AI+圍棋」登上頂尖科學期刊《自然》封面,報導了谷歌 Deep Mind 的人工智慧系統阿爾法圍棋(Alpha Go)完勝歐洲圍棋冠軍。同年5月4日,「AI+材料科學」也登上了《自然》封面,報導了材料科學領域的「人機大戰」。這項研究由哈弗福德學院(Haverford College)主導,針對一種有機-無機雜化材料的水熱合成反應,通過機器學習方法從大量成功和失敗的實驗數據中發現規律,並建立判斷反應能否成功的預測模型。機器學習模型成功率高達89%,高於有經驗的化學家的人工判斷78%。這項報導充分展示了人工智慧在材料科學研究中的強大潛力,掀起了「AI+材料科學」的浪潮。
圖3 Nature封面文章:「AI+圍棋」和「AI+材料科學」 (圖片來自網絡)
「數據困境」與破解之法
兩場「人機大戰」之中,戰勝人類棋手的Alpha Go背後主要利用了深度神經網絡,戰勝人類化學家的預測模型背後主要是支持向量機,它們都屬於機器學習方法。機器學習是實現人工智慧的一類方法,其基本過程是採用程序算法利用大量的數據進行建模訓練,從數據中學習規律,最終對未知事物做出決策和預測。機器學習方法研究材料科學一般分為數據集構造、數據預處理、數據降維、模型訓練、模型測試與評價等步驟。其中,數據集構造是首要步驟,數據收集是材料信息學的重點和難點。你或許會疑惑,數據收集不是很簡單嗎?我們只需要在購物app內點擊某件商品,在新聞app內瀏覽某條新聞,在地圖app內搜索某個地點……我們在網際網路上的一切行為,每時每刻都在都轉化為數據被收集。然而,在材料科學領域,獲取一個數據可能意味著幾個小時的模擬計算,幾天的材料製備,幾周的循環測試……因此,材料學的數據很難成為「大數據」,至少現階段只能是「小數據」。正是由於數據量小,數據偏差和噪聲對模型的影響將會十分顯著。機器學習的算法再優化,計算機的算力再提升,我們手裡只有稀疏、高維、有偏差和帶噪音的數據,材料信息學將面臨「巧婦難為無米之炊」的困境。
圖4 機器學習方法研究材料科學的基本流程(圖片來自網絡)
破解「數據困境」需要從兩個方面著手:生產和流通。在數據生產方面,隨著各國有關材料基因工程的項目推進,高通量實驗和計算快速發展,對數據的標準化和高效產出有非常積極的作用。在數據流通方面,國外的Materials Project以及我國的Atomly等資料庫免費開放大量的計算數據,便於數據共享。哈弗福德學院建立了「黑暗反應計劃」(Dark Reaction Project)平臺,鼓勵研究者們在發表「成功的」數據之後,再將不發表的「失敗的」數據上傳到平臺,以供機器學習模型對化學反應進行更加深入的分析。藉助高通量、資料庫、網際網路等新技術加速材料數據生產和流通方興未艾,這個時代留給了材料人大展拳腳的廣闊舞臺。
我們不妨暢想未來的材料實驗室成為「數據工廠」的那天:智能化的實驗機器人,嚴格標準化的樣品製備和測試表徵,完全電子化的實驗記錄,融合物聯網的內部即時數據共享平臺,融合區塊鏈技術的國際數據交易平臺,以及更加先進的處理和分析數據的人工智慧方法。我們材料人將會從「磨金相、守爐子、過柱子」,甚至複雜的數據分析之中解放出來,轉型為「開發者」、「合作者」和「研究者」。「開發者」負責AI算法和智能化實驗機器的開發與維護;「合作者」熟悉編程和材料研究的兩套邏輯和語言,促進「開發者」和「研究者」的溝通交流;「研究者」捕捉行業痛點,提出科學問題,創新研究思路。到那一天,或許我們能夠解碼出材料基因圖譜,每一位材料人都能像鋼鐵俠一樣帥氣地研發材料。
圖5 這將是我們材料人的未來嗎?(圖片來自網絡)
參考文獻:
1. Agrawal A, Choudhary A. Perspective: Materials informatics and big data: Realization of the 「fourth paradigm」 of science in materials science[J]. APL Materials, 2016, 4(5):053208-1-10.
2. Liu Y, Zhao T, Ju W, et al. Materials discovery and design using machine learning[J]. Journal of Materiomics, 2017, 3(3).
3. Dima A, Bhaskarla S , Becker C , et al. Informatics Infrastructure for the Materials Genome Initiative[J]. JOM - Journal of the Minerals, Metals and Materials Society, 2016, 68(8):2053-2064.
4. Anubhav J, Shyue P O, Geoffroy H, et al. Commentary: The Materials Project: A materials genome approach to accelerating materials innovation[J]. APL Materials, 2013, 1:011002-1-11
5. Hanoch S, Alexander T. Materials Informatics. Journal of Chemical Information and Modeling 2018 58 (7), 1313-1314
6. 施思齊,徐積維,崔豔華 等. 多尺度材料計算方法[J]. 科技導報, 2015, 33(10):20-30
來源:中國科學院上海矽酸鹽研究所