不到現場,照樣看最乾貨的學術報告!嗨,大家好。這裡是學術報告專欄,讀芯術小編不定期挑選並親自跑會,為大家奉獻科技領域最優秀的學術報告,為同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。
人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裡挑一。「AI未來說·青年學術論壇」系列講座由中國科學院大學主辦,百度全力支持,讀芯術、paperweekly作為合作自媒體。承辦單位為中國科學院大學學生會,協辦單位為中國科學院計算所研究生會、網絡中心研究生會、人工智慧學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。2020年8月29日,第18期「AI未來說·青年學術論壇」(「AI+X」領域專場)以「線上平臺直播+微信社群圖文直播」形式舉行。UIUC羅宇男帶來報告《交叉學科中的人工智慧和科學發現》。
羅宇男的研究方向是AI+X,人工智慧、藥物發現、計算生物學、化學、農業等等領域。總的來說人工智慧是很有效的技術,能夠挖掘數據當中存在的信息,轉化成為知識,從而提供不同領域的預測甚至決策。本次論壇他為大家介紹了幾個方面的人工智慧和交叉學科的研究。
交叉學科中的人工智慧和科學發現
他的報告首先是AI和生物方面,其中第一個例子是結合AI的蛋白質工程以及基於數據驅動的分析。生物化學有一個重要的領域就是蛋白質工程,目的是尋找或者優化自然界當中現存的蛋白質性質。比如抗體也是一種蛋白質,現在如果想要發現或者設計結合更好的抗體,比如更好地結合新冠肺炎的病毒,就需要優化自然界現有的蛋白質使其擁有更好的性質。因此研究者們可能會遇到這樣的問題,就是怎樣設計一個蛋白質的序列,使其具有某種想要的信息。這是一個非常難的問題,蛋白質序列的影響非常大,比如哪怕一個蛋白質有五個胺基酸,它的可能的序列就達到幾十萬中,然而自然界中的很多蛋白質所含胺基酸會更多,可能會超出計算機所能窮舉的最大數目。
2018年諾貝爾化學獎獲得者Frances提出的一種方法是蛋白質定向進化,隨機進行蛋白的突變,比如胺基酸從A變成B,對於具有突變的蛋白在實驗室測量某種值,可以衡量這個性質的好壞,最後選擇性質比較好的部分作為下一代的母本蛋白質並不斷迭代,就像一個優勝劣汰的過程,經過幾輪迭代之後就可以得到性質很好的蛋白。
這個方法在效率上受到一定的限制,因為它突變的過程是完全隨機的。從研究計算的角度來說,就有很多可以優化的地方,一種直觀的方法是可以把測量這個蛋白質的性質部分從實驗室的傳統非常耗時耗力的流程替換成計算模型,比如用神經網絡來預測某個突變後蛋白質的性質,這樣在一定程度上提升整個實驗的效率。有了這個模型以後,就可以結合這個模型設計出具有某種性質的蛋白質序列,有了這個序列就可以合成出這個蛋白質。羅宇男等人從這個角度出發設計出了人工智慧的模型,目的就是加速或者協助傳統生物實驗流程當中比較耗時耗力的部分,從而能夠加速整個蛋白質進化的基礎。他們主要結合了兩個部分的信息:一個是全局信息,類似自然語言處理的語言模型,但是是在蛋白質上訓練的模型,用於蛋白質在全局上面的相互依賴的關係。另一個是生物信息,比如生物蛋白質兩個胺基酸之間可能會有協同進化的效應,因為進化的過程當中整個胺基酸並不是獨立進化的,可能會有空間和物理性質上的依賴關係,使得兩個胺基酸同時進化,這樣就會影響結構,結構就會影響功能。他們發現結合這兩種信息的模型能夠更準確地預測蛋白質的信息。
除此之外他們還在模擬若干輪次的蛋白質進化。每一輪當中隨機突變一些蛋白質,然後用模型預測突變之後蛋白質的性質,選擇比較好的那些作為下一輪突變,重複三輪以後羅宇男發現蛋白質性質的分布是越來越朝著數值高的方向推動,也就是說這個模型在不斷地提升蛋白質變異後的性質。他們也在實驗當中對計算模型進行生物實驗驗證,通過這個神經網絡推薦一些比較好的蛋白質的變種,TEM-1就是細菌當中某種抗藥性的蛋白質,然後他們和生物學家合作,在實驗室當中對這些蛋白質變種進行合成,並測量抗藥性。結果發現模型預測的蛋白質變種的抗藥性都高於自然界現存的蛋白質性質,甚至優於訓練數據當中最好的樣本,說明這個模型成功地發現了性質優於自然界現存蛋白質的蛋白質變種。這個模型可以用來設計更多具有更好性質的蛋白質,比如基因編輯當中的酶和化學催化劑。
羅宇男講到的第二個例子是分析新冠病毒的多樣性。他們的這項工作是對幾百個患者進行研究,探究冠狀病毒的多樣性,包括在患者的體內以及患者群體層面的病毒多樣性。現在的方法大多假設一個病人只攜帶一種基因型的病毒。然而一個病人可能攜帶多種病毒,同一個病毒在病人體內也可能發生變異進化出不同基因型的病毒。羅宇男等人通過分析現有的數據發現病人攜帶多種基因型病毒的現象並不罕見,62%的樣本中都顯示了一個樣本內部帶有多種病毒基因型的現象。研究病毒在患者內部和群體間的多樣性有助於更好地理解這個病毒的特徵,重構這個病人病毒傳播的路徑,最後能夠更好地實現更精準的接觸追蹤,這些都是這個項目的直接應用。
於是,羅宇男等人開發了一個算法,來從測序數據中解析出同一樣本內部中的不同毒株。他們基於冠狀病毒基因上的41個突變定義了冠狀病毒的不同毒株,可以解釋整個資料庫當中94%樣本的多樣性。他們的算法基於一個經典的機器學習算法——非負矩陣分解,但是要求分解後的矩陣具有一些限制,比如矩陣A代表某一個毒株內是否存在某種變異,矩陣B代表每個樣本每種毒株代表百分之多少。利用這個模型,羅宇男等人對現有的新型肺炎病人的測序數據進行分析,獲得了一些有意思的結果。
比如在美國患者中,第三類分支佔到絕大多數,而澳大利亞的毒株就非常多樣化,每種毒株都有一定程度的體現,這是關於病毒分布的結果。他們也有考慮在進化上的分布,利用測序數據構建的進化樹和他們發現的變異毒株結構也非常相似的。
此外,他們發現這些變異大都處於蛋白質的表面,而且對蛋白質穩定性的影響很小。在能夠改變胺基酸類型的突變中,92%都是處於蛋白質的表面上,他們也是從數據出發找到了一些之前文獻當中還沒有被發現的新的分析結果,然後為後續的研究提供了一些思路。
接著羅宇男介紹了人工智慧在藥物發現當中的工作。藥物的研發是非常漫長、耗時,需要花費巨大資金的過程,往往成功率也是非常低的。他們一直在想能否用AI的技術更高效地發現藥物的新用途。於是他們構建了一個大規模的異構生物網絡。
基於這個資料庫設計機器學習的算法,來對每個網絡當中的每個節點做出低維向量表示,解決網絡當中高維度高噪聲的問題,從而進行藥物和靶點蛋白質之間相互關係的預測。這種方法取得了比現有方法更好的預測效果,圖中展示了他們的算法預測中比較靠前的藥物和靶點蛋白之間的作用關係,其中大部分能夠在之前的文獻當中找到相應的論證,對於後面文獻當中沒有發現、沒有找到印證的預測,他們和藥物學家合作進行了實驗,並證實了他們預測的三種藥物和蛋白之間的新作用關係的確是存在的,而這是之前文獻中並沒有被發現的。
最後一部分是關於智能農業相關的研究進展。羅宇男及其合作者想要基於海量衛星遙感數據構建一個平臺,用這個平臺代替傳統需要大量的人力、物力、財力實現的農田監測。
這個過程當中就有很大的挑戰,這個平臺是想利用衛星圖片,然而現有的衛星圖片要麼空間解析度高、拍攝頻率低,要麼拍攝頻率高、空間解析度低。所以羅宇男等人開發了一個算法,將不同時間和空間解析度的圖片整合在一起,生成一個時間和空間解析度都很高的圖片,通過這種方法就可以做很多的事情。比如利用這種數據可以結合計算機視覺的人工智慧的模型,可以對每一塊農田作物的種類進行預測,對灌溉水的需求量進行預測,羅宇男和他的合作者們在這一方向上發表了多篇了論文,同時他的合作者還設計了一個平臺,使得大家可以非常準確地實時觀測每一塊農田的農作物信息。
(整理人:何嘉偉)
AI未來說*青年學術論壇
第一期 數據挖掘專場
1. 李國傑院士:理性認識人工智慧的「頭雁」作用
2. 百度熊輝教授:大數據智能化人才管理
3. 清華唐傑教授:網絡表示學習理論及應用
4. 瑞萊智慧劉強博士:深度學習時代的個性化推薦
5. 清華柴成亮博士:基於人機協作的數據管理
第二期 自然語言處理專場
1. 中科院張家俊:面向自然語言生成的同步雙向推斷模型
2. 北郵李蕾:關於自動文本摘要的分析與討論
3. 百度孫珂:對話技術的產業化應用與問題探討
4. 阿里譚繼偉:基於序列到序列模型的文本摘要及淘寶的實踐
5. 哈工大劉一佳:通過句法分析看上下文相關詞向量
第三期 計算機視覺專場
1. 北大彭宇新:跨媒體智能分析與應用
2. 清華魯繼文:深度強化學習與視覺內容理解
3. 百度李穎超:百度增強現實技術及應
4. 中科院張士峰:基於深度學習的通用物體檢測算法對比探索
5. 港中文李弘揚 :物體檢測最新進展
第四期 語音技術專場
1. 中科院陶建華:語音技術現狀與未來
2. 清華大學吳及:音頻信號的深度學習處理方法
3. 小米王育軍:小愛背後的小米語音技術
4. 百度康永國:AI 時代的百度語音技術
5. 中科院劉斌:基於聯合對抗增強訓練的魯棒性端到端語音識別
第五期 量子計算專場
1. 清華大學翟薈:Discovering Quantum Mechanics with Machine Learning
2. 南方科技大學魯大為:量子計算與人工智慧的碰撞
3. 荷蘭國家數學和計算機科學中心(CWI)李繹楠:大數據時代下的量子計算
4. 蘇黎世聯邦理工學院(ETH)楊宇翔:量子精密測量
5. 百度段潤堯:量子架構——機遇與挑戰
第六期 機器學習專場
1. 中科院張文生:健康醫療大數據時代的認知計算
2. 中科院莊福振:基於知識共享的機器學習算法研究及應用
3. 百度胡曉光:飛槳(PaddlePaddle)核心技術與應用實踐
4. 清華大學王奕森:Adversarial Machine Learning: Attack and Defence
5. 南京大學趙申宜:SCOPE - Scalable Composite Optimization for Learning
第七期 自動駕駛專場
1. 北京大學查紅彬:基於數據流處理的SLAM技術
2. 清華大學鄧志東:自動駕駛的「感」與「知」 - 挑戰與機遇
3. 百度朱帆:開放時代的自動駕駛 - 百度Apollo計劃
4. 北理宋文杰:時空域下智能車輛未知區域自主導航技術
第八期 深度學習專場
1. 中科院文新:深度學習入門基礎與學習資源
2. 中科院陳智能:計算機視覺經典——深度學習與目標檢測
3. 中科院付鵬:深度學習與機器閱讀
第九期 個性化內容推薦專場
1. 人民大學趙鑫:基於知識與推理的序列化推薦技術研究
2. 中科院趙軍:知識圖譜關鍵技術及其在推薦系統中的應用
第十期 視頻理解與推薦專場
1. 北京大學袁曉如:智能數據可視分析
第十一期 信息檢索與知識圖譜專場
1. 北京郵電大學邵鎣俠:知識圖譜高效嵌入方法
2. 人民大學徐君:智能搜索中的排序-突破概率排序準則
3. 百度周景博:POI知識圖譜的構建及應用
4. 百度宋勳超:百度大規模知識圖譜構建及智能應用
5. 百度馮知凡:基於知識圖譜的多模認知技術及智能應用
第十二期 年度特別專場
1. 復旦大學桂韜:當NLP邂逅Social Media--構建計算機與網絡語言的橋梁
2. 清華大學董胤蓬:Adversarial Robustness of Deep Learning
3. UIUC羅宇男:AI-assisted Scientific Discovery
4. 斯坦福應智韜:Graph Neural Network Applications
第十三期 AI助力疫情攻關線上專場
1. 清華大學吳及:信息技術助力新冠防控
2. 北京大學王亞沙:新冠肺炎傳播預測模型
3. 百度黃際洲:時空大數據與AI助力抗擊疫情——百度地圖的實踐與思考
4. 百度張傳明:疫情下的「活」導航是如何煉成的
第十四期 深度學習線上專場
1. 中國科學院徐俊剛:自動深度學習解讀
2. 北航孫鈺:昆蟲目標檢測技術
3. 百度尤曉赫:EasyDL,加速企業AI轉型
4. 百度鄧凱鵬:飛槳視覺技術解析與應用
第十五期 大數據線上專場
1. 復旦趙衛東:大數據的系統觀
2. 中科大徐童:AI×Talent數據驅動的智能人才計算
3. 百度李偉彬:基於PGL的圖神經網絡基線系統
4. 中科大張樂:基於人才流動表徵的企業競爭力分析
第十六期 NLP前沿技術及產業化線上專場
1. 復旦大學黃萱菁:自然語言處理中的表示學習
2. 中科院劉康:低資源環境下的事件知識抽取
3. 百度何中軍:機器翻譯 —— 從設想到大規模應用
4. 百度孫宇:百度語義理解技術ERNIE及其應用
5. 哈佛鄧雲天:Cascaded Text Generation with Markov Transformers
6. 復旦大學桂韜:Uncertainty—Aware Sequence Labeling
第十七期 百度獎學金特別專場
1. 麻省理工學院趙明民:能穿牆透視的計算機視覺
2. 卡內基梅隆大學梁俊衛:視頻中行人的多種未來軌跡預測
3. 清華大學丁霄漢:深度網絡重參數化——讓你的模型更快更強
4. 南京大學趙鵬:動態環境在線學習的算法與理論研究
5. 上海交通大學方浩樹:人類行為理解與機器人物體操作
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範