藥明康德/報導
元素周期表是化學領域最偉大的科學成就之一。人類科學家們經過了將近一個世紀的反覆試驗,才將元素周期表整合成目前的樣子。而近日,史丹福大學的張首晟教授團隊開發了一個新的人工智慧程序,竟然在短短幾個小時內就完成了同樣的行動,在無監督條件下重現了元素周期表。
▲AI程序可以找出化學元素間的相關性,從而重現元素周期表(圖片來源:123RF)
這個AI程序名為Atom2Vec,它可以從在線資料庫中對化合物名稱進行分析,從而對不同的原子進行區分。然後,該AI系統在無監督條件下,使用自然語言處理的概念來根據元素的化學性質,對它們進行聚集整合。
在這裡,研究人員應用了自然語言處理領域的一個概念,即通過語境中在某一單詞周圍出現頻率較高的其他單詞,來理解該單詞的屬性和意義。例如,「國王」這個詞通常伴隨著「王后」這個詞一起出現,而「男人」和「女人」共同出現的頻率也非常之高。然後,AI程序會對已經輸入的自然語言進行解析,將單詞轉化為數學代碼或數學向量的形式。在上面的例子中,「國王」的數學向量就可以大概轉化為「國王=王后-女人+男人」的形式。通過對這些向量進行分析,AI可以在給出其他單詞出現頻率的情況下,對該單詞在文本中出現的頻率進行估計。
而這一概念可以同樣應用於原子上。與AI解析單詞和句子不同的是,研究人員並沒有向AI程序中輸入所有的單詞和句子,而是向Atom2Vec輸入了所有已知的化合物形式,如氯化鈉(NaCl)、氯化鉀(KCl)、水(H2O)等。從這些數據中AI程序發現,鉀(K)和鈉(Na)的性質是相似的,因為這兩種元素都可以和氯(Cl)進行結合。這樣一來,Atom2Vec就可以逐漸發現各個元素之間的關係,並逐步重現了我們熟知的元素周期表。
▲史丹福大學的張首晟教授(圖片來源:史丹福大學官網)
目前,張教授及其團隊已經在研究該AI程序的2.0版本,目的是解決醫學研究中的一個棘手問題:如何設計正確的抗體,來攻擊對於癌細胞具有特異性的抗原,即那些能夠誘導免疫應答的分子。目前,治癒癌症最有前途的方法之一是癌症免疫療法,需要利用特定的抗體,來攻擊癌細胞上的抗原。然而,人體內可以產生超過1000萬抗體,每個抗體都由大約50個不同基因組合而成。
「如果我們能夠將這些基因及其組合方式映射到數學向量中,那麼就可以形成一張由抗體組成的『元素周期表』,」張首晟教授表示:「這樣一來,如果你發現一種抗體對某種抗原有效,但是卻因自身毒性無法作為免疫療法的抗體進行使用,這時就可以利用抗體的『元素周期表』尋找另外一種同樣有效但毒性較低的抗體。」
參考資料:
[1] Stanford AI recreates chemistry’s periodic table of elements