HyperFoods:基於機器學習智能繪製食物中抗癌分子的圖譜

2020-12-15 DrugAI

作者 | 梁瑞

校稿 | 楊正飛，錢潔

編輯 | 肖冉

今天給大家介紹一篇由Kirill Veselkov、Guadalupe Gonzalez等人合作，於前段時間發表在Scientific report的一篇文章。文章中作者介紹了一個獨特的基於網絡的機器學習平臺HyperFoods，以識別推定的基於食物的抗癌分子。

1 簡介

作者利用基於一種在圖形上隨機遊走的機器學習算法，用來模擬人類相互作用網絡上的藥物作用，來識別特定的基於食物的抗癌分子，最後獲得1962種藥物的全基因組活性譜，然後用其相互作用組的活性譜形成的方法來預測未知的抗癌症分子，其經過驗證的模型性能預測抗癌療法的分類準確度為84–90％。作者將包含食物中7962種生物活性分子的綜合資料庫輸入該模型，預測出了110種抗癌分子，這些抗癌藥物來自各種化學類別，包括黃酮、萜類和多酚。這些食物生物活性成分最後構建成「食物分子圖譜」，每種食物的抗癌潛力可由其中發現的抗癌分子的數量定義。綜合來說，作者的這篇文章為下一代癌症預防和治療營養策略的設計奠定了良好基礎。

2 結果和討論

2.1 基於網絡的機器學習策略用於藥物和食品重定向

作者利用了關於分子與基因編碼的蛋白質相互作用以及蛋白質-蛋白質間相互作用的公開可用的數據。作者考慮到大多數藥物通過結合特定的蛋白質子集來發揮其生物醫學和功能活性，蛋白質很少單獨發揮作用，而是作為高度互連網絡的一部分發揮作用，所以作者在具有重啟功能的圖形上定製了隨機遊動（「c」參數），通過使用目標蛋白質的匯總數據集模擬減少單個藥物在人蛋白質組網絡上的擾動。這種網絡擴散是根據給定分子/藥物靶向蛋白質的網絡與靶標候選物的接近程度，將一小部分蛋白質靶向的蛋白質/藥物轉化為基因評分的全基因組分布圖。利用藥物的全基因組圖譜，訓練有監督的機器學習策略(在這種情況下是「最大間距準則」和支持向量機)，以準確地對分子的「抗癌」(vs「其他」)屬性進行分類。以獲得的最佳模型用於預測給定的現有批准藥物顯示抗癌特性的概率。在驗證了模型對抗癌藥物重定向的預測能力後，應用相同的機器學習策略來預測食物中的各種抗癌分子(見圖1)。

圖1.整個工作流程的示意圖

2.2 機器學習策略的基準測試和優化

在試驗的機器學習方法中，MMC和具有線性核的SVM表現出較好的性能和相對好的處理速度。作者還探索了2個神經網絡分類器和2個正則化的LASSO/Elastic回歸分類器，以查看它們是否可以提高分類精度。結果表明用線性核SVM可以得到的最佳f-score，抗癌預測的正確率為84%，非抗癌預測的正確率為90%。基於這些結果，作者選擇了前700個基於線性核SVM和MMC的模型（F-score≥0.84）用於對現有批准藥物(補充數據集S2)和食品化合物(補充數據集S3)的抗癌相似性預測。結果表示傳播普的對數變換系統地提高了分類器的性能。作者還評估了單個基因對最終分類的影響，即通過發現基因水平和優化模型預測結果之間的相關性來確定基因的重要度。結果表明佔比最高的基因參與細胞增殖控制，其突變通常與癌症有關，其為基於機器學習的藥物抗癌特性預測提供了透明度。

2.3 通路分析和差異化交互組

作者使用基因集富集對基於網絡的機器學習中獲得的用於預測對抗癌治療最有影響力的基因/蛋白質的列表進行通路分析。在受影響的前25個途徑中，有細胞周期、DNA複製、凋亡、p-53信號轉導、JAK-STAT信號轉導和錯配修復以及各種癌症特異性通路，被確定為關鍵驅動因素的通路始終與癌症的發展和進程有關。在圖2中，給出了相關的區分基因及其相應的受影響通路。單個節點的大小對應於給定基因編碼蛋白的相對區分能力，節點的顏色說明了共享的生物學通路功能。越來越多的人認識到，癌細胞存活、擴散和抗性治療的基礎機制是多方面的，涉及多種生化途徑。在作者的分析中，大多數機器學習衍生的通路被認為癌症預防或治療幹預的靶點。因此，「理想的」抗癌藥應該能夠破壞多種促腫瘤發生的生化過程。這裡提出的機器學習方法強調了受目前使用的抗癌療法影響的生物通路，因此允許對食品中的生物活性化合物進行並行式靶向搜索，這些化合物具有同時影響多種通路的潛力。

圖2.源自機器學習模型的相關基因和pathway，用於預測在人體試驗中測試的抗癌療法。單個結點大小對應於給定基因編碼蛋白的相對區分能力，結點顏色說明了共享的生物途徑功能。

2.4 腫瘤藥物重定向的相互作用組學方法

目前用作癌症治療的大多數化合物顯示出很強的抗癌可能性。而幾種不常用於癌症治療的化合物顯示出很高的抗癌相似性（ACL）。作者對這些化合物的現有文獻進行了進一步的調查，以了解這些藥物潛在抗癌作用的基礎機制。例如，喹諾酮衍生物羅沙星和基於喹啉的氯喹啉主要分別作為抗微生物劑和抗真菌劑。作者通過一些例子強調了該方法在識別與致癌過程相關的相互作用分子方面的局限性，該識別過程不考慮相互作用的性質(即抑制或刺激)。識別分子相互作用的性質需要額外的數據集，如基因表達或蛋白質組學，但這些通常不適用於食源分子。

2.5 食物中抗癌分子的預測

已知在所有批准用於抗癌治療的小分子中，幾乎一半來自天然產物。這些藥物通常對正常細胞具有較高的耐受性，較低的毒性。接下來，將上面概述的方法應用於預測各種食品類別中--7692種生物活性化合物的抗癌相似性。文章提供了食物中類藥分子的全面視圖，與迄今為止文獻中傾向於集中於單一化合物或單一食物類型的大多數研究不同。鑑定並分類了大約110種來自不同化學類別的分子（參見圖3），包括萜類，異類黃酮，類黃酮，多酚和類固醇，並使用多個資料庫根據其食物來源作圖。根據抗癌藥物相似度> 0.1，補充材料數據集S3提供了一個完整的食物分子的排序表。使用無監督學習在圖上隨機行走，作者展開了最有前途的分子與相互作用網絡之間的影響，並確定了其影響的分子途徑。此外，對現有排名靠前的抗癌藥物分子（ACL> 0.9）及其推定的抗癌作用分子機制進行了全面綜述。來自文獻的計算分析和實驗數據均表明，負責這些抗癌特性的通路和機制涵蓋了作者目前對癌變多步驟過程的理解。這些包括抗炎，促凋亡作用，有效的抗氧化活性和清除自由基；調節細胞增殖，細胞分化，癌基因和抑癌基因中的基因表達；調節解毒，氧化，調節激素代謝中酶的活性；以及抗菌和抗病毒作用。圖4直觀地提供了與強抗癌相似性相關的CBM的總結。圖中的每個節點表示特定的食品，並且節點大小在每種情況下都與CBMs的數量成比例。節點之間的聯繫反映了食物中CBMs的成對相關性，因此圖4中的食物簇說明了它們之間的分子共性。CBMs中表現出最大多樣性的食物包括茶、葡萄、胡蘿蔔、香菜、甜橙、蒔蘿、白菜和野生芹菜。

圖3.食品中抗癌藥物相似度> 0.7的前110種預測的抗癌分子的分層分類。

2.6 食物圖和植物化學協同作用。

食物資源發揮其預防或治療作用的潛力取決於其中所含的抗病分子化合物的生物利用度和多樣性。關於食源化合物現有文獻的一個關鍵限制是通常採用的多是一維視圖，研究傾向於關注分離的特定分子成分，例如抗氧化劑。公認的是，定期食用水果和蔬菜可以降低致癌的風險。但是，當單獨作用的抗增殖藥接受臨床試驗評估時，它們似乎並不能提供相同的影響水平。對於蘋果，這一點很容易說明；蘋果提取物含有生物活性化合物，已證明在體外能抑制腫瘤細胞的生長。然而，保留果皮的蘋果中的植物化學物質抑制結腸癌細胞的增殖達43％，而測試不含果皮的蘋果時，這種抑制效果降低到29％。因此，從這些觀察結果中可以明顯看出，在對抗諸如癌症等複雜疾病的過程中，成功實施以食物為基礎的方法將依靠如存在於整個水果和蔬菜中的生物活性物質之間的聯合，以增加成功抵抗疾病的機會。因此，給定食物的抗癌特性將由其各個成分的加和，拮抗和協同作用以及這些成分共同調節不同的細胞內致癌通路的方式決定。基於這種理解，作者已經構建了由250多種不同食物來源組成的抗癌類藥分子譜（參見圖4）。

圖4.選擇性食物中所含化合物的概況，極有可能有效對抗癌症。圖中的每個節點表示特定的食品，並且節點大小在每種情況下都與CBM的數量成比例。節點之間的聯繫反映了食物中CBM的成對相關性，因此食物的聚類說明了它們之間的分子共性。

3 結論

作者使用基於網絡的機器學習方法，通過以與現有療法類似的方式作用於分子網絡，證明了植物性食物（例如茶，胡蘿蔔，芹菜，橙子，葡萄，香菜，捲心菜和蒔蘿）包含最多的具有高抗癌性的分子。大規模計算分析進一步證明了某些食品具有更強的抗癌潛力，需要更有針對性的營養方法。

但文章的局限性第一：是沒有考慮生物活性分子的濃度。第二：所提出的方法僅考慮了具有生物活性的食品化合物與癌症相關分子網絡之間的相互作用，而沒有明確考慮這些關係的方向性。第三：描述的方法未考慮特定的癌症分子表型特徵。第四：尚未評估藥物與食物之間的相互作用。

但作者描述的機器學習策略是認識到「智能」營養計劃在預防和治療癌症中的潛在作用的第一步，概述的方法不僅限於癌症，還將適用於其他健康狀況，它將為超級食物和美食醫學的未來鋪平道路，並鼓勵引入個性化的「食品護照」。

參考文獻：

Veselkov K, Gonzalez G, Aljifri S, et al. HyperFoods: Machine intelligent mapping of cancer-beating molecules in foods[J]. Scientific reports, 2019, 9(1): 1-12.

HyperFoods:基於機器學習智能繪製食物中抗癌分子的圖譜

相關焦點

基於知識圖譜的智能問答

報名復旦大學副教授肖仰華:基於知識圖譜的機器語言認知

CometLabs :全球智能機器產業圖譜

首張薴麻分子標記遺傳圖譜繪製成功

繪製出史上最全癌症遺傳風險圖譜

知識圖譜發展的難點&構建行業知識圖譜的重要性

百分點認知智能實驗室:基於知識圖譜的問答技術和實踐

研究繪製微生物群落高度復用的空間圖譜

...人工智慧:與其坐等認知科學家「猜謎」,不如直接繪製大腦結構圖譜

亞林所繪製首個山蒼子基因組圖譜揭秘精油合成分子機制

科學家繪製出生物界的蛋白質圖譜

《自然》:科學家繪製出生物界的蛋白質圖譜

疫情可視化,基於知識圖譜的智能疫情監測服務平臺如何做?

「人工智慧師資班」(Python機器學習,圖像識別與深度學習,深度學習與NLP,知識圖譜,強化學習)

海洋所科研人員繪製完成牡蠣全基因組序列圖譜

我國科學家完成鯉魚全基因組序列圖譜繪製

科學家繪製出肺腺癌中免疫細胞的空間位置圖譜

基於向量空間的知識圖譜查詢及結果解釋

百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用

天文學研究者為恆星繪製家族圖譜

HyperFoods:基於機器學習智能繪製食物中抗癌分子的圖譜

相關焦點

基於知識圖譜的智能問答

報名 復旦大學副教授肖仰華:基於知識圖譜的機器語言認知

CometLabs :全球智能機器產業圖譜

首張薴麻分子標記遺傳圖譜繪製成功

繪製出史上最全癌症遺傳風險圖譜

知識圖譜發展的難點&構建行業知識圖譜的重要性

百分點認知智能實驗室:基於知識圖譜的問答技術和實踐

研究繪製微生物群落高度復用的空間圖譜

...人工智慧:與其坐等認知科學家「猜謎」,不如直接繪製大腦結構圖譜

亞林所繪製首個山蒼子基因組圖譜 揭秘精油合成分子機制

科學家繪製出生物界的蛋白質圖譜

《自然》:科學家繪製出生物界的蛋白質圖譜

疫情可視化,基於知識圖譜的智能疫情監測服務平臺如何做?

「人工智慧師資班」(Python機器學習,圖像識別與深度學習,深度學習與NLP,知識圖譜,強化學習)

海洋所科研人員繪製完成牡蠣全基因組序列圖譜

我國科學家完成鯉魚全基因組序列圖譜繪製

科學家繪製出肺腺癌中免疫細胞的空間位置圖譜

基於向量空間的知識圖譜查詢及結果解釋

百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用

天文學研究者為恆星繪製家族圖譜

報名復旦大學副教授肖仰華:基於知識圖譜的機器語言認知

亞林所繪製首個山蒼子基因組圖譜揭秘精油合成分子機制