隨著人工智慧技術的發展,深度學習方法在藥物分子設計中的應用愈發廣泛。分子性質的預測在藥物發現過程中起著很大作用。為了對分子性質進行預測,首先需要對分子進行表徵。應用深度學習對分子進行表徵有多種途徑,例如SMILES將分子編碼成一個字符串序列,根據成環結構斷開的位置不同,同一分子可能得到不同的SMILES。而使用圖表徵能夠保留更多的分子結構和拓撲信息,通常處理方式是將分子轉變為一個無向圖。今年年初,來自中國海洋大學的魏志強教授和李臻副教授的課題組在IEEE Access 發表了使用Multichannel Substructure Graph的分子表徵對分子性質進行預測的工作[1]。和傳統的圖卷積方法不同的是,作者藉助Junction Tree VAE將分子轉變成基於亞結構的圖(S-Graph),從而儘可能保留分子的亞結構信息,並通過將連接處的原子作為邊存儲亞結構間的拓撲關係,使用雙向門控遞歸單元(Bi-GRU)來依序提取亞結構的信息。
——方法——
Junction Tree VAE能夠根據分子亞結構形成樹形結構支架,組成了S-Graph的各個節點[2]。在分子中,每個節點表示一個亞結構,而每條邊表示亞結構之間公用的原子。特別的,當一個原子為三個以上亞結構共用時,單獨成為一個節點(圖1中1184)。而對於取代基位置不同的苯環結構,儘管節點中的原子、鍵類型相同,但仍然處理成兩種節點(圖1中662和675)。
圖1 分子到S-Graph的映射關係和構成
接著,對每個節點進行特徵提取,這其中包含了三個層面信息:節點中的原子、鍵、節點之間連接的「關節」。原子特徵通過以下方式提取:
其中a表示亞結構中各個原子,都用one-hot向量表示,使用全連接層輸出成一個個向量並連接。類似的,鍵信息通過以下方式提取:
其中d表示鍵的向量,和成鍵的兩個原子向量相連接,再經過全連接層提取鍵的特徵向量。最後,關節本身也是原子,因此同樣是將原子向量進行特徵提取:
其中N(s)表示構成關節的原子集合。之後,將節點的信息Xa,Xd,Xj進行合併,提取得到節點特徵向量Xo。此外,S-Graph中的邊信息儲存了節點之間的拓撲信息,作者根據節點間共有原子的原子類型進行特徵提取,得到邊向量:
值得注意的是,關節向量是對於節點而言,可能包括不止一個原子的特徵,由此區別於邊向量和原子的一對一關係。
圖2 節點層面的分子特徵
在節點層面進行信息提取後,需要在分子層面進行更複雜的信息提取,而這需要對節點信息進行拼接。通常的處理是根據SMILES起始的原子所在亞結構作為根節點,通過廣度搜索S-Graph得到節點的序列。之後,通過節點的特徵向量得到節點、鄰接和邊通道的向量組。其中節點通道向量組由以下方式獲得:
其中X0(s)表示分子的亞結構序列。鄰接通道向量組由以下特徵向量拼接而成:
其中H(s)表示該亞結構及其相鄰亞結構的特徵向量。類似於節點層面的bond特徵,邊通道的向量組包含了邊(共用原子)以及相鄰亞結構的向量,拼接成邊通道向量組:
圖3 表徵分子水平特徵的三個通道
得到三個通道的特徵向量後,作者分別將三個通道的向量通過Bi-GRU進行輸出,由於有兩層GRU,每個通道輸入的n個節點輸出的2n個隱藏層向量,合併後通過attention層進行輸出,得到最後的分子圖輸出Y,最後通過多層感知器進行各個任務的學習。
——數據集——
上述模型應用於多種回歸任務和分類任務中。回歸任務包括四個數據集:Free Solvation Database、ESOL、Lipophilicity、PDBBind。包含小分子水合自由能、溶解度、油水分配係數以及與蛋白形成複合物親和力的數據。分類任務包含BBBP、BACE數據集,分別評估血腦屏障穿透能力和與BACE-1抑制性能。
——模型表現與評價——
該模型主要與目前基於圖卷積的深度學習算法,如GC、DAG、Weave以及傳統的機器學習算法進行比較。結果顯示,該模型在各個任務上均表現出更好的性能,誤差更小,下圖展示了在FreeSolv和BBBP上的預測結果。作者還對網絡結構進行了調整,印證了三個通道輸入、雙向GRU結構對性能的改善,說明其必要性。
圖4 FreeSolv(左)和BBBP(右)數據集不同算法性能
作者在這裡利用S-Graph的框架提出了新的分子表徵方法。通過從節點到分子不同層級的特徵提取過程,認為同時提取了fine-grained和coarse-grained水平的信息。Bi-GRU的應用有助於節點間傳遞信息,使信息更為詳盡。筆者認為,S-Graph處理的最大優勢在於對成環結構進行了簡化,能夠從整體的角度提取苯環等結構的特徵。但其他亞結構劃分過細,容易大幅增加計算成本。此外S-graph的處理方式容易對分子較大的官能團進行拆分,如何進一步根據官能團,甚至更宏觀的藥效團信息進行信息提取,也是作者試圖進一步探索的問題。
參考文獻:
[1] Wang, Shuang, et al. "Molecular property prediction based on a multichannel substructure graph." IEEE Access 8(2020): 18601-18614.
DOI: 10.1109/ACCESS.2020.2968535
[2] Jin, Wengong, Regina Barzilay, and Tommi Jaakkola."Junction tree variational autoencoder for molecular graph generation." arXiv preprint arXiv:1802.04364 (2018).