HyperFoods:基於機器學習智能繪製食物中抗癌分子的圖譜

2020-12-15 DrugAI

作者 | 梁瑞

校稿 | 楊正飛,錢潔

編輯 | 肖冉

今天給大家介紹一篇由Kirill Veselkov、Guadalupe Gonzalez等人合作,於前段時間發表在Scientific report的一篇文章。文章中作者介紹了一個獨特的基於網絡的機器學習平臺HyperFoods,以識別推定的基於食物的抗癌分子。

1 簡介

作者利用基於一種在圖形上隨機遊走的機器學習算法,用來模擬人類相互作用網絡上的藥物作用,來識別特定的基於食物的抗癌分子,最後獲得1962種藥物的全基因組活性譜,然後用其相互作用組的活性譜形成的方法來預測未知的抗癌症分子,其經過驗證的模型性能預測抗癌療法的分類準確度為84–90%。作者將包含食物中7962種生物活性分子的綜合資料庫輸入該模型,預測出了110種抗癌分子,這些抗癌藥物來自各種化學類別,包括黃酮、萜類和多酚。這些食物生物活性成分最後構建成「食物分子圖譜」,每種食物的抗癌潛力可由其中發現的抗癌分子的數量定義。綜合來說,作者的這篇文章為下一代癌症預防和治療營養策略的設計奠定了良好基礎。

2 結果和討論

2.1 基於網絡的機器學習策略用於藥物和食品重定向

作者利用了關於分子與基因編碼的蛋白質相互作用以及蛋白質-蛋白質間相互作用的公開可用的數據。作者考慮到大多數藥物通過結合特定的蛋白質子集來發揮其生物醫學和功能活性,蛋白質很少單獨發揮作用,而是作為高度互連網絡的一部分發揮作用,所以作者在具有重啟功能的圖形上定製了隨機遊動(「c」參數),通過使用目標蛋白質的匯總數據集模擬減少單個藥物在人蛋白質組網絡上的擾動。這種網絡擴散是根據給定分子/藥物靶向蛋白質的網絡與靶標候選物的接近程度,將一小部分蛋白質靶向的蛋白質/藥物轉化為基因評分的全基因組分布圖。利用藥物的全基因組圖譜,訓練有監督的機器學習策略(在這種情況下是「最大間距準則」和支持向量機),以準確地對分子的「抗癌」(vs「其他」)屬性進行分類。以獲得的最佳模型用於預測給定的現有批准藥物顯示抗癌特性的概率。在驗證了模型對抗癌藥物重定向的預測能力後,應用相同的機器學習策略來預測食物中的各種抗癌分子(見圖1)。

圖1.整個工作流程的示意圖

2.2 機器學習策略的基準測試和優化

在試驗的機器學習方法中,MMC和具有線性核的SVM表現出較好的性能和相對好的處理速度。作者還探索了2個神經網絡分類器和2個正則化的LASSO/Elastic回歸分類器,以查看它們是否可以提高分類精度。結果表明用線性核SVM可以得到的最佳f-score,抗癌預測的正確率為84%,非抗癌預測的正確率為90%。基於這些結果,作者選擇了前700個基於線性核SVM和MMC的模型(F-score≥0.84)用於對現有批准藥物(補充數據集S2)和食品化合物(補充數據集S3)的抗癌相似性預測。結果表示傳播普的對數變換系統地提高了分類器的性能。作者還評估了單個基因對最終分類的影響,即通過發現基因水平和優化模型預測結果之間的相關性來確定基因的重要度。結果表明佔比最高的基因參與細胞增殖控制,其突變通常與癌症有關,其為基於機器學習的藥物抗癌特性預測提供了透明度。

2.3 通路分析和差異化交互組

作者使用基因集富集對基於網絡的機器學習中獲得的用於預測對抗癌治療最有影響力的基因/蛋白質的列表進行通路分析。在受影響的前25個途徑中,有細胞周期、DNA複製、凋亡、p-53信號轉導、JAK-STAT信號轉導和錯配修復以及各種癌症特異性通路,被確定為關鍵驅動因素的通路始終與癌症的發展和進程有關。在圖2中,給出了相關的區分基因及其相應的受影響通路。單個節點的大小對應於給定基因編碼蛋白的相對區分能力,節點的顏色說明了共享的生物學通路功能。越來越多的人認識到,癌細胞存活、擴散和抗性治療的基礎機制是多方面的,涉及多種生化途徑。在作者的分析中,大多數機器學習衍生的通路被認為癌症預防或治療幹預的靶點。因此,「理想的」抗癌藥應該能夠破壞多種促腫瘤發生的生化過程。這裡提出的機器學習方法強調了受目前使用的抗癌療法影響的生物通路,因此允許對食品中的生物活性化合物進行並行式靶向搜索,這些化合物具有同時影響多種通路的潛力。

圖2.源自機器學習模型的相關基因和pathway,用於預測在人體試驗中測試的抗癌療法。單個結點大小對應於給定基因編碼蛋白的相對區分能力,結點顏色說明了共享的生物途徑功能。

2.4 腫瘤藥物重定向的相互作用組學方法

目前用作癌症治療的大多數化合物顯示出很強的抗癌可能性。而幾種不常用於癌症治療的化合物顯示出很高的抗癌相似性(ACL)。作者對這些化合物的現有文獻進行了進一步的調查,以了解這些藥物潛在抗癌作用的基礎機制。例如,喹諾酮衍生物羅沙星和基於喹啉的氯喹啉主要分別作為抗微生物劑和抗真菌劑。作者通過一些例子強調了該方法在識別與致癌過程相關的相互作用分子方面的局限性,該識別過程不考慮相互作用的性質(即抑制或刺激)。識別分子相互作用的性質需要額外的數據集,如基因表達或蛋白質組學,但這些通常不適用於食源分子。

2.5 食物中抗癌分子的預測

已知在所有批准用於抗癌治療的小分子中,幾乎一半來自天然產物。這些藥物通常對正常細胞具有較高的耐受性,較低的毒性。接下來,將上面概述的方法應用於預測各種食品類別中--7692種生物活性化合物的抗癌相似性。文章提供了食物中類藥分子的全面視圖,與迄今為止文獻中傾向於集中於單一化合物或單一食物類型的大多數研究不同。鑑定並分類了大約110種來自不同化學類別的分子(參見圖3),包括萜類,異類黃酮,類黃酮,多酚和類固醇,並使用多個資料庫根據其食物來源作圖。根據抗癌藥物相似度> 0.1,補充材料數據集S3提供了一個完整的食物分子的排序表。使用無監督學習在圖上隨機行走,作者展開了最有前途的分子與相互作用網絡之間的影響,並確定了其影響的分子途徑。此外,對現有排名靠前的抗癌藥物分子(ACL> 0.9)及其推定的抗癌作用分子機制進行了全面綜述。來自文獻的計算分析和實驗數據均表明,負責這些抗癌特性的通路和機制涵蓋了作者目前對癌變多步驟過程的理解。這些包括抗炎,促凋亡作用,有效的抗氧化活性和清除自由基;調節細胞增殖,細胞分化,癌基因和抑癌基因中的基因表達;調節解毒,氧化,調節激素代謝中酶的活性;以及抗菌和抗病毒作用。圖4直觀地提供了與強抗癌相似性相關的CBM的總結。圖中的每個節點表示特定的食品,並且節點大小在每種情況下都與CBMs的數量成比例。節點之間的聯繫反映了食物中CBMs的成對相關性,因此圖4中的食物簇說明了它們之間的分子共性。CBMs中表現出最大多樣性的食物包括茶、葡萄、胡蘿蔔、香菜、甜橙、蒔蘿、白菜和野生芹菜。

圖3.食品中抗癌藥物相似度> 0.7的前110種預測的抗癌分子的分層分類。

2.6 食物圖和植物化學協同作用。

食物資源發揮其預防或治療作用的潛力取決於其中所含的抗病分子化合物的生物利用度和多樣性。關於食源化合物現有文獻的一個關鍵限制是通常採用的多是一維視圖,研究傾向於關注分離的特定分子成分,例如抗氧化劑。公認的是,定期食用水果和蔬菜可以降低致癌的風險。但是,當單獨作用的抗增殖藥接受臨床試驗評估時,它們似乎並不能提供相同的影響水平。對於蘋果,這一點很容易說明;蘋果提取物含有生物活性化合物,已證明在體外能抑制腫瘤細胞的生長。然而,保留果皮的蘋果中的植物化學物質抑制結腸癌細胞的增殖達43%,而測試不含果皮的蘋果時,這種抑制效果降低到29%。因此,從這些觀察結果中可以明顯看出,在對抗諸如癌症等複雜疾病的過程中,成功實施以食物為基礎的方法將依靠如存在於整個水果和蔬菜中的生物活性物質之間的聯合,以增加成功抵抗疾病的機會。因此,給定食物的抗癌特性將由其各個成分的加和,拮抗和協同作用以及這些成分共同調節不同的細胞內致癌通路的方式決定。基於這種理解,作者已經構建了由250多種不同食物來源組成的抗癌類藥分子譜(參見圖4)。

圖4.選擇性食物中所含化合物的概況,極有可能有效對抗癌症。圖中的每個節點表示特定的食品,並且節點大小在每種情況下都與CBM的數量成比例。節點之間的聯繫反映了食物中CBM的成對相關性,因此食物的聚類說明了它們之間的分子共性。

3 結論

作者使用基於網絡的機器學習方法,通過以與現有療法類似的方式作用於分子網絡,證明了植物性食物(例如茶,胡蘿蔔,芹菜,橙子,葡萄,香菜,捲心菜和蒔蘿)包含最多的具有高抗癌性的分子。大規模計算分析進一步證明了某些食品具有更強的抗癌潛力,需要更有針對性的營養方法。

但文章的局限性第一:是沒有考慮生物活性分子的濃度。第二:所提出的方法僅考慮了具有生物活性的食品化合物與癌症相關分子網絡之間的相互作用,而沒有明確考慮這些關係的方向性。第三:描述的方法未考慮特定的癌症分子表型特徵。第四:尚未評估藥物與食物之間的相互作用。

但作者描述的機器學習策略是認識到「智能」營養計劃在預防和治療癌症中的潛在作用的第一步,概述的方法不僅限於癌症,還將適用於其他健康狀況,它將為超級食物和美食醫學的未來鋪平道路,並鼓勵引入個性化的「食品護照」。

參考文獻:

Veselkov K, Gonzalez G, Aljifri S, et al. HyperFoods: Machine intelligent mapping of cancer-beating molecules in foods[J]. Scientific reports, 2019, 9(1): 1-12.

相關焦點

  • 基於知識圖譜的智能問答
    xx智能問答建設方案,介紹一下基於知識圖譜的智能問答,主要分為如下幾個方面:1、人機對話體系結構2、問答產品知識結構3、典型的智能問答產品4、智能問答的關鍵技術5、基於知識圖譜的智能問答1、人機對話體系結構
  • 報名 復旦大學副教授肖仰華:基於知識圖譜的機器語言認知
    本周將門「自然語言處理(NLP)」微信交流群線上分享,我們激動地邀請到復旦大學計算機學院副教授、博士生導師——肖仰華老師,他會為我們帶來以「基於知識圖譜的機器語言認知他將系統介紹復旦大學知識圖譜研究小組在機器語言認知方面的研究進展,以及相關技術的落地應用。
  • CometLabs :全球智能機器產業圖譜
    這份產業圖譜來自Comet Labs的舊金山實驗室,其針對全球智能機器領域進行了歷經數月的深度研究,製作完成了這張全球智能機器(機器人/人工智慧)創業公司產業圖譜。通過這張產業圖譜,可以讓中國的創業者深入細緻地了解全球智能機器行業。(諾瓦)智能機器即將改變世界,Comet Labs產業圖譜讓創業者看懂新世界。
  • 首張薴麻分子標記遺傳圖譜繪製成功
    本報北京4月17日電 記者胡其峰17日從中國農業科學院麻類研究所獲悉,首張薴麻分子標記遺傳連鎖圖譜近日由該所劉頭明博士領銜的科研團隊繪製成功,該團隊還同時完成了薴麻纖維產量相關性狀的數量性狀位點(QTL)定位。上述成果將可直接應用於薴麻的分子標記輔助選擇育種工作,對未來我國薴麻產業發展意義重大。
  • 繪製出史上最全癌症遺傳風險圖譜
    原標題:繪製出史上最全癌症遺傳風險圖譜 基於大數據繪製癌症遺傳風險圖譜是癌症遺傳風險圖譜研究的熱點和難點。4月5日,Cell雜誌刊發了迄今為止最全面的癌症遺傳風險圖譜研究。
  • 知識圖譜發展的難點&構建行業知識圖譜的重要性
    要實現真正的類人智能,機器需要掌握大量的常識性知識,以人的思維模式和知識結構來進行語言理解、視覺場景解析和決策分析。知識圖譜是智能社會的重要生產資料,如果把人工智慧比作一個「大腦」,那麼深度學習是「大腦」的運轉方式,知識圖譜則是「大腦」的知識庫,而大數據、GPU並行計算和高性能計算等支撐技術就是「大腦」思維運轉的支撐。
  • 百分點認知智能實驗室:基於知識圖譜的問答技術和實踐
    編者按:隨著網際網路軟硬體相關技術的飛速發展,人們逐漸從資訊時代進入智能時代。知識圖譜作為承載底層海量知識並支持上層智能應用的重要載體,在智能時代中扮演了極其重要的角色。而利用知識圖譜支撐上層應用仍存在諸多挑戰,因此基於知識圖譜的自然語言問答展開研究是十分有必要的。
  • 研究繪製微生物群落高度復用的空間圖譜
    研究繪製微生物群落高度復用的空間圖譜 作者:小柯機器人 發布時間:2020/12/4 13:55:55 美國康奈爾大學Iwijn De Vlaminck和Hao Shi研究組合作繪製了微生物群落的高度復用的空間圖譜。
  • ...人工智慧:與其坐等認知科學家「猜謎」,不如直接繪製大腦結構圖譜
    2016年4月,全球腦計劃研討會提出需要應對三大挑戰,第一個挑戰就是繪製大腦結構圖譜[10]:「在十年內,我們希望能夠完成包括但不限於以下動物大腦的解析:果蠅、斑馬魚、鼠、狨猴,並將開發出大型腦圖譜繪製分析工具。」仿佛是為了證明這個預測,2016年9月8日,日本東海大學宣布繪製出包括十多萬神經元的果蠅大腦神經網絡三維模型[11]。
  • 亞林所繪製首個山蒼子基因組圖譜 揭秘精油合成分子機制
    該研究首次繪製山蒼子染色體水平基因組圖譜,並基於此揭示樟科物種進化及其精油合成分子機制。深入南方香樹有怎樣的價值?我國山蒼子栽培面積21.60萬畝,精油年產量14.01萬噸,為世界上最大的生產國和出口國,每年產生的經濟價值約20億元。
  • 科學家繪製出生物界的蛋白質圖譜
    科學家繪製出生物界的蛋白質圖譜 作者:小柯機器人 發布時間:2020/6/21 19:24:35 德國馬克斯普朗克研究所Matthias Mann團隊繪製出生物界的蛋白質圖譜。
  • 《自然》:科學家繪製出生物界的蛋白質圖譜
    德國馬克斯普朗克研究所Matthias Mann團隊繪製出生物界的蛋白質圖譜。2020年6月17日,《自然》雜誌在線發表了這項成果。數據還為基於序列的機器學習提供了大規模的案例研究,正如通過實驗所證實的。這些結果提供了整個進化範圍內生物體功能組織的比較觀點。在所有生物界中,蛋白質組總質量中有很大一部分用於蛋白質穩態和摺疊,這突出了所有生物分支中維持蛋白質結構的重要性。
  • 疫情可視化,基於知識圖譜的智能疫情監測服務平臺如何做?
    PlantData《基於知識圖譜的智能疫情監測服務平臺》案例入選。基於知識圖譜的智能疫情監測服務平臺1 案例背景新冠肺炎疫情形勢不斷變化,在防治工作中,基於知識圖譜的智能疫情監測服務平臺能夠利用全面、有效,及時的數據和可視化技術準確感知疫情態勢和防控措施落實情況,為決策者、指揮者、管理人員提供數據服務;通過確診病例的親屬關係
  • 「人工智慧師資班」(Python機器學習,圖像識別與深度學習,深度學習與NLP,知識圖譜,強化學習)
    專題二:圖像識別與深度學習課程簡介:機器視覺是人工智慧技術最經典的技術,起步早,發展成熟,在識別、定位機器視覺技術主要包含圖像識別與目標偵測,本課程主要就是介紹這兩個方面的基礎內容;從圖像處理,到圖像特徵抽取,到特徵學習,主要介紹了基於卷積神經網絡的一些機器學習算法及其簡單應用。本課程主要以編程實現為主,用來強化機器視覺的理論與應用認知。
  • 海洋所科研人員繪製完成牡蠣全基因組序列圖譜
    近日,牡蠣基因組計劃(Oyster Genome Project,OGP)項目組宣布,歷時兩年的牡蠣基因組序列圖譜終於繪製完成。這是世界上第一張養殖貝類的全基因組序列圖譜,標誌著基於短序列的高雜合度基因組拼接和組裝技術獲得了重大突破。據悉,目前的基因組圖譜已達到國際領先的基因組圖譜標準。近年來,我國的海水養殖業取得了長足發展。
  • 我國科學家完成鯉魚全基因組序列圖譜繪製
    在國家「863」計劃、「973」計劃和國家自然科學基金、公益性行業科研專項等資助下,中國水產科學研究院聯合中國科學院、哈佛大學、奧本大學等單位組建的國際合作團隊完成了鯉魚全基因組序列圖譜繪製,並揭示其獨特的全基因組複製事件,這是國際上首個完成全面解析的異源四倍體硬骨魚類基因組圖譜
  • 科學家繪製出肺腺癌中免疫細胞的空間位置圖譜
    科學家繪製出肺腺癌中免疫細胞的空間位置圖譜 作者:小柯機器人 發布時間:2020/5/28 18:25:04 英國癌症研究所Yinyin Yuan、倫敦大學學院Charles Swanton、劍橋大學John Le Quesne
  • 基於向量空間的知識圖譜查詢及結果解釋
    它的主要內容包括五個方面,分別是知識圖譜及SPARQL查詢、查詢空集問題、知識圖譜表示學習、基於向量空間的近似查詢和實際應用。知識圖譜及SPARQL查詢知識圖譜是機器生成並為機器服務的,服務對象不是人類,需要追求機器可理解的東西。
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    坦率地講,各行各業對如何落地知識圖譜這個問題,或多或少都心存一絲疑惑。人類知識和機器可理解的知識有什麼區別?知識圖譜如何突破自身局限性,從「萬事通」轉為「科學家」?百分點認知智能實驗室在實踐探索中,通過利用自然語言處理技術獲取結構化的信息抽取能力,探索出了一套行業知識圖譜構建流程方法。
  • 天文學研究者為恆星繪製家族圖譜
    天文學研究者為恆星繪製家族圖譜 2017年03月07日 15:26 來源:中國社會科學網-中國社會科學報 作者:姚曉丹 字號 內容摘要:英國劍橋大學官方網站2月 20日發文表示,該校有關天文學研究人員利用通常在生物學和考古學研究中使用的原理和技術