發現具有超高性能的材料配方一直是材料科學研究中的主要瓶頸之一。在近乎無窮大的化學成分設計空間搜索到具有穩定結構且有某種性能的材料搜索無異於大海撈針。這是因為絕大部分化學元素的混合組成都不能形成結構穩定且滿足化學條件可合成的化合物。光是基本的5元化合物,其組合空間(不含摻雜)就多達1013以上。而目前人類已知的無機晶體化合物才二十萬種左右。這種給定各種積木塊(如原子、胺基酸、電子元件),需要找出滿足各種功能條件的組合設計問題在新材料設計、化合物設計、藥物分子設計、電路設計等諸多領域都面臨如何有效地搜索具有約束和隱性組合規則的設計空間搜索問題。
該研究提出了一種利用深度學習中的生成對抗神經網絡模型MATGAN通過機器學習算法從已知無機材料化學式中學習化學元素組合成穩定化合物的隱性組合規則,從而能夠生成千萬級以上的新的無機材料化學分子式。來自中國貴州大學機械工程學院與美國南卡羅來納大學計算機科學系與機械工程系的胡建軍教授、李少波教授、胡明教授團隊通過應用人工智慧中的深度神經網絡對ICSD、OQMD、MaterialsProject等無機材料資料庫中的材料化學式進行訓練,發現他們得到的生成式機器學習模型能夠學習到組合不同元素形成符合化學電中性與電負平衡且具有穩定結構的材料的各種化學顯式與隱式規則(儘管在他們的模型中沒有給定這種規則),從而使得他們的模型能夠大規模生成各種滿足化學條件的新材料採樣點,避免了以前枚舉法或其他啟發式算法大量遍歷無效分子式的缺點。
他們生成的2百萬種分子式中,發現了很多訓練集裡面沒有包括的化學材料,得到了其他材料資料庫的驗證或者最近新材料發現文獻報導的間接驗證。這種算法有助於生成超大規模的新材料配方候選方案,以便進一步進行計算或者實驗驗證。這種通過生成對抗神經網絡自動從大量已知設計方案中學習各種隱性設計規則,然後應用於生成式創新設計的方法在無機材料、有機分子、藥物分子、蛋白質、電路等各種創新設計中具有廣泛的應用潛力。
該文近期發表於npj Computational Materials 6: 84 (2020),英文標題與摘要如下,點擊https://www.nature.com/articles/s41524-020-00352-0可以自由獲取論文PDF。
Generative adversarial networks (GAN) based efficient sampling of chemical composition space for inverse design of inorganic materials
Yabo Dan, Yong Zhao, Xiang Li, Shaobo Li, Ming Hu & Jianjun Hu*
A major challenge in materials design is how to efficiently search the vast chemical design space to find the materials with desired properties. One effective strategy is to develop sampling algorithms that can exploit both explicit chemical knowledge and implicit composition rules embodied in the large materials database. Here, we propose a generative machine learning model (MatGAN) based on a generative adversarial network (GAN) for efficient generation of new hypothetical inorganic materials. Trained with materials from the ICSD database, our GAN model can generate hypothetical materials not existing in the training dataset, reaching a novelty of 92.53% when generating 2 million samples. The percentage of chemically valid (charge-neutral and electronegativity-balanced) samples out of all generated ones reaches 84.5% when generated by our GAN trained with such samples screened from ICSD, even though no such chemical rules are explicitly enforced in our GAN model, indicating its capability to learn implicit chemical composition rules to form compounds. Our algorithm is expected to be used to greatly expand the range of the design space for inverse design and large-scale computational screening of inorganic materials.