不到現場,照樣看最乾貨的學術報告!嗨,大家好。這裡是學術報告專欄,讀芯術小編不定期挑選並親自跑會,為大家奉獻科技領域最優秀的學術報告,為同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。
人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裡挑一。「AI未來說·青年學術論壇」系列講座由中國科學院大學主辦,百度全力支持,讀芯術、paperweekly作為合作自媒體。承辦單位為中國科學院大學學生會,協辦單位為中國科學院計算所研究生會、網絡中心研究生會、人工智慧學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。2020年8月29日,第18期「AI未來說·青年學術論壇」(「AI+X」領域專場)以「線上平臺直播+微信社群圖文直播」形式舉行。星藥科技李成濤帶來報告《人工智慧在藥物研發中的應用》。
星藥科技創始人&CEO李成濤博士本科畢業於清華姚班,隨後在麻省理工學院獲得計算機博士學位。他曾先後在人工智慧頂級會議上發表多篇論文,其研究成果落地在藥物發現領域中的多個重要環節。
人工智慧在藥物研發中的應用
李成濤博士的報告內容是關於人工智慧在藥物研發的應用,內容涉及到一些落地的應用以及人工智慧在藥物研發流程當中的具體地位。整個藥物研發流程是一個非常漫長的過程,大概分為兩個階段:臨床許可是分界線,之前是候選藥物階段,之後是臨床實驗階段。臨床實驗可能大家耳熟能詳,以這次新冠疫情為例,大家可能知道有些國家已經有一些相關的臨床實驗,具體來說就是現在開發了一款新藥或者使用已有的藥,進一步想要嘗試該藥在新冠病人身上能不能發揮作用。此時就需要招募一些病人在醫院當中嘗試這樣的新藥,看一看最終的反應,到底是不是像想像的那樣可以痊癒,之後藥品可能就會上市。臨床之前也需要很多類似的過程,從靶點開始。生病吃藥其實本質上就是一個調控體內蛋白質的方式,服用的藥物小分子在體內會與相應的蛋白質進行結合,調控蛋白質功能,這個蛋白質就是所謂的靶點。根據靶點的性質和三維結構,可以設計一些藥物,經過一系列的設計、篩選、優化,再到體內外的實驗,測試一下有效性和毒性。如果一切順利就進入臨床許可階段,如果不行的話可能需要回去返工,重新優化分子的性質,讓它能夠達到實驗想要的目的。整個流程是非常長的,大概需要五到八年的時間。
如此長的研發時間和投入也對應著更多的研發成本。現在平均每一款藥的研發成本將近30億美金,是非常昂貴的。藥物研發領域其實出現一個非常奇怪的現象,叫做EROOM定律(Eroom’s Law),即摩爾定律(Moore’s Law)的反向。大家普遍會期待隨著時代進步、科技進步,藥物研發成本會逐漸下降,但是藥物研發領域的成本其實是逐漸上升的。現在這個階段需要投入巨大的人力物力,也需要花費巨量的時間和財力,才能做出一款藥物。與之相反的是這麼大的投入換來的是不夠對等的回報。從2010年開始,研發投入的回報率是逐年走低的,從2010年的10.1%到2018年的1.9%。目前整個產業處於這樣一個狀態,一方面成本非常高、研發時間非常長,另一方面大家做出來之後又賺不到多少錢,所以業界這邊就一直在思考怎樣找到一個非常好的方式,能夠降本增效。
人工智慧近年來有爆發式發展,ImageNet、硬體算力和各種各樣的算法導致很多領域都有了優化的場景,對於醫療影像,AI可以幫助醫生來做診療的判斷,其他方面,例如自動駕駛做得很好,AlphaGo關於圍棋的應用也非常不錯。AlphaGo的核心算法其實跟藥物研發是非常近的關係,李成濤博士會在後面會介紹AlphaGo是如何應用到藥物研發場景當中的。
AI能夠提供的價值主要是藥物研發的前期部分。從剛開始的靶點識別到根據靶點的三維結構等信息進行分子設計、篩選和優化,找到一些和靶點有相互作用的小分子。現在所有的這些東西都是在電腦當中,需要把它合成出來才能做各種各樣的實驗。所以怎樣才能合成這些新的分子也是一個很大的議題,這就涉及到合成路徑的設計。AI提供的落地場景還是很多的,本次報告主要講的就是關於分子設計優化以及合成路徑設計的內容。
李成濤博士首先介紹了分子設計優化。很多同學都知道紫杉醇是抗癌的天然產物。為了讓計算機能夠讀取分子信息,有兩種信息表達的方式可以表示整個紫杉醇分子。第一種是將整個分子都序列化,每一個序列都會唯一地對應一個分子,這裡可以應用到NLP相關的技術,後續會做介紹。另外一種更加直觀,如上圖中右圖所示,把整個結構看成一張圖,每個原子表示成一個圖裡的節點,不同原子是不同顏色的節點;不同的化學鍵,可以表示成不同的邊,所以現在既有不同的節點也有不同的邊,組成了這樣一個Molecular Graph(分子圖)。它本質上在計算機裡面是一個鄰接矩陣加上性質的標籤。這是現有的兩種比較有代表性的表示方式。
根據前面描述的內容,如果要做分子生成,可以把問題轉變為一個序列生成問題。序列生成有很多方法,報告中舉的例子是直接用VAE,即把序列作為輸入,輸出也是序列,使用編碼解碼網絡。做過NLP的同學基本上都比較清楚。編碼網絡和解碼網絡的中間的Latent Space就是把整個Continuous Space離散化了,對應的每個Local Part就是特異的分子,通過從整個空間當中Sample一些比較想要的分子來達成目的。
但是如果直接用SMILES String作為分子的Input和Output,直接產生序列有很大的弊端。第一點是它本身有一定的語法,從而在Decoding的時候不一定每次都能夠Decode在語法上正確的分子;第二點,即使能夠Decode語法上正確的分子,但是某些原子的價位可能不太一樣,或者某些原子此時不能接這個基團,否則在化學意義上會有語義上的錯誤,這個問題是很難避免的;第三點,結構相似的分子可能有完全不一樣的SMILES String,如上圖底部所示,最下面有兩個分子,它們在結構上是非常相似的,化學上普遍認為結構相似的分子有相似的性質,進而希望它們的表示方式儘可能相似。實際上,左邊分子和右邊分子的SMILES String是完全不一樣的,這就給做序列模型提出了比較嚴峻的挑戰,進一步轉換思路採用另外一種方法。本質上,序列的編碼和解碼對應的是把整個的二維圖結構變成了一維序列信息,原本二維結構圖裡面的結構信息在一維序列裡面不是很好發掘。
另外一種方法就是直接用圖作為輸入和輸出,圖本身是一個鄰接矩陣,所以計算機可以讀取。現在面臨的是全新的輸入和輸出,第一個問題是怎樣編碼一個圖,涉及到最近比較火的圖神經網絡。如上圖所示,現在有一個分子圖,放到計算機裡面,每個原子都有一個對應的向量,設計多層的Message Passing機制,每個原子對應的向量可以和鄰近的向量進行信息交換。比如藍色的會和鄰居以及自己進行信息的整合和交換,最後達到所有原子上都有一個編碼鄰近信息的向量,最後通過把所有的向量都整合到一個向量裡,直接做加和或者平均。
下一步是怎樣解碼,之前並沒有特別好的解碼方法從一個定長的向量當中解碼出來不定大小的圖。不過最近已經出現了很多的方法,這裡以JTVAE為例進行介紹。很多分子當中都有一些常見的基團,苯環在很多有機化合物當中都會出現。五元雜環也算是一個基團,也可以抽象出來,這些東西都抽象出來之後變成一個點。如果把所有環類的東西都抽象成一個點,由於圖中就沒有環了,一個無環的連通圖就是一棵樹。樹做Encoding和Decoding就相對容易一些,原本每次生成一個原子需要考慮生成之後怎麼和已有的原子進行連接,但是現在不需要考慮環的情況,只需要考慮樹的情況,而樹是可以直接用RNN生成的。如上圖所示,每個節點有兩個方向的生成,一個生成Children,另一個生成Siblings,直到每個節點都選擇停止,這個時候整個Encoding或者Decoding就完成了,加上樹和圖之間可以進行相互轉換,最後就得到一個從圖到圖的VAE,即Junction Tree VAE。
知道了做VAE的Encoding和Decoding,Training和Generation也相應可以明確。Training即拿一些圖作為輸入和輸出,然後去做Auto Encoding。Generation是在Training之後直接用解碼器,在隱空間中採樣一些定長的向量,然後解碼成一些圖,這個圖是分子圖,每個分子圖是一個分子,所以已經達到了生成分子的目的。
關於合成路徑設計,李成濤博士對具體思路進行了介紹。AlphaGo對化學合成路線設計有一定的啟示作用。圍棋每一步都有數十種、上百種可能性,每次都可能在棋盤的空位落子,每一步都會造成之後策略的相應調整。下圍棋的最終目標是贏,但是要下幾百步才能知道到底是贏還是輸,所以需要搜索的空間是非常大的,需要搜索幾百步,搜索空間是巨量的。當時AlphaGo是用MCTS做了這些估算,然後找到一些相對來講非常好的路徑做了搜索。這些東西和化學逆反應合成有一定的關係。入上圖所示,綠框裡面的分子是想要合成的分子。最開始無法知道怎麼合成,但是知道圖中A和B可以經過幾步合成目標分子,把A和B分別的合成路徑不斷往回倒推,直到出來的分子可以直接買到時停止。這個概念就像打遊戲要合成一些遊戲裝備,最開始需要合成非常基礎的東西,然後逐漸地往上合成,一直到最後能夠合成出來非常高級的裝備,它們本質上是一樣的。
星藥科技本質上做這個合成是往回倒推的過程,其中最大的問題是搜索空間是非常大的。假如要合成A,對於A來講可以有很多種可能的合成方式,B和C、B和D、C和E都可以合成A,但是現在B和D不知道怎麼合成,可能E和F可以合成D,或者H和G可以合成D,所以每一步其實都有幾十種甚至上百種合成方式,每決定一條路、每決定一步其實對後面的合成方式會有一定的影響。可能某一次選擇的是B和D,下次可能選擇B和C,這個時候目的是要合成B和C,而不是合成B和D,它們之間有很大的差別。最終目標就是找到一種可行的合成方式,涉及到非常巨大的搜索空間,造成了計算的複雜度,實際上它可以用蒙特卡洛樹搜索的方式來做。
2018年有研究人員在《Nature》上發表了一篇論文,通過蒙特卡洛樹搜索的方法找到可行路徑,也是第一次通過Deep Learning加上RL來做到以前大家都做不到的事情。目前為止仍然有很多的化學物質其實是不知道怎麼合成的,AI可能會為它們提供一些新的思路。
化學合成的AI方法分為單步逆反應預測和多步逆反應搜索,目前有很多的論文在做這件事情,尤其是最近兩年。星藥科技和Google Brain、MIT、螞蟻金服的研究人員一起做了一系列相關的工作,在NeurIPS和 ICML上發表了數篇關於單步和多步反應的文章,大家感興趣的話歡迎去關注。
星藥科技去年下半年才成立,是一家非常年輕的公司。我們想要通過人工智慧來基於靶點設計、篩選和優化分子,目的就是希望儘可能降低整個藥物研發的成本,能夠讓藥物研發的時間縮到更短,也能夠讓合適的藥物到達患者手中。星藥科技去年年末入選默克加速器,同時獲得了包括高榕、源碼、DCM、晨星這些基金的支持和認可,現在他們也在積極地開展合作,包括一些知名高校科研機構,國內的上市藥企都是星藥科技的合作夥伴。非常歡迎感興趣的同學可以聯繫星藥科技公司(info@galixir.com)對這一塊做交流和探討。
(整理人:張雪豐)
AI未來說*青年學術論壇
第一期 數據挖掘專場
1. 李國傑院士:理性認識人工智慧的「頭雁」作用
2. 百度熊輝教授:大數據智能化人才管理
3. 清華唐傑教授:網絡表示學習理論及應用
4. 瑞萊智慧劉強博士:深度學習時代的個性化推薦
5. 清華柴成亮博士:基於人機協作的數據管理
第二期 自然語言處理專場
1. 中科院張家俊:面向自然語言生成的同步雙向推斷模型
2. 北郵李蕾:關於自動文本摘要的分析與討論
3. 百度孫珂:對話技術的產業化應用與問題探討
4. 阿里譚繼偉:基於序列到序列模型的文本摘要及淘寶的實踐
5. 哈工大劉一佳:通過句法分析看上下文相關詞向量
第三期 計算機視覺專場
1. 北大彭宇新:跨媒體智能分析與應用
2. 清華魯繼文:深度強化學習與視覺內容理解
3. 百度李穎超:百度增強現實技術及應
4. 中科院張士峰:基於深度學習的通用物體檢測算法對比探索
5. 港中文李弘揚 :物體檢測最新進展
第四期 語音技術專場
1. 中科院陶建華:語音技術現狀與未來
2. 清華大學吳及:音頻信號的深度學習處理方法
3. 小米王育軍:小愛背後的小米語音技術
4. 百度康永國:AI 時代的百度語音技術
5. 中科院劉斌:基於聯合對抗增強訓練的魯棒性端到端語音識別
第五期 量子計算專場
1. 清華大學翟薈:Discovering Quantum Mechanics with Machine Learning
2. 南方科技大學魯大為:量子計算與人工智慧的碰撞
3. 荷蘭國家數學和計算機科學中心(CWI)李繹楠:大數據時代下的量子計算
4. 蘇黎世聯邦理工學院(ETH)楊宇翔:量子精密測量
5. 百度段潤堯:量子架構——機遇與挑戰
第六期 機器學習專場
1. 中科院張文生:健康醫療大數據時代的認知計算
2. 中科院莊福振:基於知識共享的機器學習算法研究及應用
3. 百度胡曉光:飛槳(PaddlePaddle)核心技術與應用實踐
4. 清華大學王奕森:Adversarial Machine Learning: Attack and Defence
5. 南京大學趙申宜:SCOPE - Scalable Composite Optimization for Learning
第七期 自動駕駛專場
1. 北京大學查紅彬:基於數據流處理的SLAM技術
2. 清華大學鄧志東:自動駕駛的「感」與「知」 - 挑戰與機遇
3. 百度朱帆:開放時代的自動駕駛 - 百度Apollo計劃
4. 北理宋文杰:時空域下智能車輛未知區域自主導航技術
第八期 深度學習專場
1. 中科院文新:深度學習入門基礎與學習資源
2. 中科院陳智能:計算機視覺經典——深度學習與目標檢測
3. 中科院付鵬:深度學習與機器閱讀
第九期 個性化內容推薦專場
1. 人民大學趙鑫:基於知識與推理的序列化推薦技術研究
2. 中科院趙軍:知識圖譜關鍵技術及其在推薦系統中的應用
第十期 視頻理解與推薦專場
1. 北京大學袁曉如:智能數據可視分析
第十一期 信息檢索與知識圖譜專場
1. 北京郵電大學邵鎣俠:知識圖譜高效嵌入方法
2. 人民大學徐君:智能搜索中的排序-突破概率排序準則
3. 百度周景博:POI知識圖譜的構建及應用
4. 百度宋勳超:百度大規模知識圖譜構建及智能應用
5. 百度馮知凡:基於知識圖譜的多模認知技術及智能應用
第十二期 年度特別專場
1. 復旦大學桂韜:當NLP邂逅Social Media--構建計算機與網絡語言的橋梁
2. 清華大學董胤蓬:Adversarial Robustness of Deep Learning
3. UIUC羅宇男:AI-assisted Scientific Discovery
4. 斯坦福應智韜:Graph Neural Network Applications
第十三期 AI助力疫情攻關線上專場
1. 清華大學吳及:信息技術助力新冠防控
2. 北京大學王亞沙:新冠肺炎傳播預測模型
3. 百度黃際洲:時空大數據與AI助力抗擊疫情——百度地圖的實踐與思考
4. 百度張傳明:疫情下的「活」導航是如何煉成的
第十四期 深度學習線上專場
1. 中國科學院徐俊剛:自動深度學習解讀
2. 北航孫鈺:昆蟲目標檢測技術
3. 百度尤曉赫:EasyDL,加速企業AI轉型
4. 百度鄧凱鵬:飛槳視覺技術解析與應用
第十五期 大數據線上專場
1. 復旦趙衛東:大數據的系統觀
2. 中科大徐童:AI×Talent數據驅動的智能人才計算
3. 百度李偉彬:基於PGL的圖神經網絡基線系統
4. 中科大張樂:基於人才流動表徵的企業競爭力分析
第十六期 NLP前沿技術及產業化線上專場
1. 復旦大學黃萱菁:自然語言處理中的表示學習
2. 中科院劉康:低資源環境下的事件知識抽取
3. 百度何中軍:機器翻譯 —— 從設想到大規模應用
4. 百度孫宇:百度語義理解技術ERNIE及其應用
5. 哈佛鄧雲天:Cascaded Text Generation with Markov Transformers
6. 復旦大學桂韜:Uncertainty—Aware Sequence Labeling
第十七期 百度獎學金特別專場
1. 麻省理工學院趙明民:能穿牆透視的計算機視覺
2. 卡內基梅隆大學梁俊衛:視頻中行人的多種未來軌跡預測
3. 清華大學丁霄漢:深度網絡重參數化——讓你的模型更快更強
4. 南京大學趙鵬:動態環境在線學習的算法與理論研究
5. 上海交通大學方浩樹:人類行為理解與機器人物體操作
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範