朱強博士:人工智慧、大數據能揭示生命信息嗎?

2020-09-29 計算機大學生

來源微信公眾號:計算機大學生


人工智慧、大數據能揭示生命信息嗎?



1953年,沃森和克裡克發現DNA的雙螺旋結構,標誌著分子生物學這門學科的誕生,它從分子水平研究生物大分子的結構與功能以揭示生命的本質。

2001年,六國科學家共同完成對人體23對染色體的人類基因組草圖,初步發現人類基因組中包含3萬多個蛋白編碼基因,它蘊含了人類生老病死的遺傳信息。

20年過去了,人類離讀懂「生命天書」還相差甚遠。一個人的遺傳密碼到底有多長?約30億個鹼基對即3000Mbp!不同的序列段記載不同的信息。

有些片段含有製造蛋白質的信息,這些片段被稱為基因

它們大約佔全部DNA序列的1%~1.5%,其它98%的DNA序列功能未知,甚至一度被人們認為是無用DNA,隨著現在研究的深入,發現這些所謂無用DNA在生物功能和調控上發揮著巨大作用。

面對海量基因組數據,生物學家卻無法了解其生物功能和過程。人類之渺小,造物主之偉大,不勝唏噓!


一、什麼是生物信息學?

我們有幸生活在資訊時代,看到計算機影響著生活的方方面面,不僅影響我們的社交出行,甚至影響著我們解決問題的思維方式。賈伯斯曾說過:「Everyone in the country should learn to program a computer, because it teaches you to think.」

當前,計算機或人工智慧與其他學科的交叉是創新的熱點。計算機與生物的結合稱為計算生物學,也稱為生物信息學,兩者基本無明顯差異但稍有區別。

計算生物學注重利用數學模型來解釋或預測生物現象,生物信息學則注重數據的整理、分析和挖掘,從而發現潛在規律。簡而言之,問數學背景的科學家他們主要研究什麼,他們會說是做生物計算的;如果問計算機科學家,他們會說是做生物信息的。

總之,生物信息學主要針對具體生物學問題提供工具和算法,比如序列拼接工具,蛋白質結構預測方法等。

二、生物信息學是建立資料庫嗎?

數據是信息科學的基礎元素,如果沒有數據,計算機就無用武之地了。由於生物醫學數據呈現爆發式增長,因此需要採取有效手段來管理這些數據,這就涉及生物或醫學資料庫的建立,因為資料庫可以有序地組織和檢索數據。

隨著科學實驗的不斷發現和數據累積,湧現出大量各種不同類型的專門資料庫,如醫學文本資料庫、基因組資料庫、蛋白質結構資料庫等。

生物信息學不僅僅要建立和開發資料庫並為方便訪問資料庫提供工具,更為重要的是,生物信息學要從海量生物醫學數據中挖掘潛在信息和規律以指導生物學發現。比如,傳統新藥研發耗時耗力,計算機輔助藥物發現可以通過挖掘已知藥物數據獲取最有潛力新藥,從而大大提高效率,節省資源。

三、為什麼生物學家要使用計算機?

現代基因測序方法正在改變傳統生物學研究,海量數據處理正在把生物學家的工作從實驗臺上拉向電腦旁。

傳統的典型生物學研究場景是:一個穿著白大褂的科學家坐在實驗臺前使用移液管和培養皿,戴著護目鏡在顯微鏡下觀察,這被生物學家稱為「溼實驗」。

這種場景正在改變,在現代化生物醫學研究中心,溼實驗僅佔10%工作量,大部分工作要在電腦前完成。

研究方式的改變不僅意味著生物學家所需技能的改變,其背後是研究方式的變化,即從傳統「產生想法,設計實驗,進行實驗,驗證結果」的研究模式轉變成「分析數據,發現規律,提出假設,再進行實驗」。

面對這種研究方式的轉變,要求研究人員掌握數據處理和分析的方法,包括計算機編程。

四、生物學給計算機科學提出了哪些挑戰?

在基因組時代,生物學研究的目標是量化地理解生物如何編碼它們的基因形成一個個鮮活的生命個體。

生命神奇的地方是基因編碼了幾乎一切信息。信息的傳遞受基因控制,什麼時候發育,生長,繁殖...但生物相關的數據不僅數量大,而且多尺度、異質化、高度複雜。

從大小尺度來講,這些數據小到分子、細胞,大到器官、整體,尺度相差甚遠;從時間尺度來說,涉及基因轉錄和翻譯,這些過程在時間上有先後順序並且時間跨度大,有的致病基因在人的一生中都沒表現出來。

生物醫學數據有的是數字、符號,如基因組數據;有的是波形,如心電圖;有的是圖像,如CT;有的是文字,如電子病歷。此外,疾病的產生、發展是一個複雜的動態過程,往往涉及多個基因參與。

如何融合這些不同類型數據以及複雜網絡的關係,將成為海量生物大數據分析面對的巨大挑戰。

基因組大數據


五、人工智慧與生物信息學有什麼關係?

什麼是人工智慧?

有時人工智慧也叫機器智能,它是研究如何使機器或計算機變得智能起來。人工智慧是研究使計算機來模擬人的某些思維過程和智能行為,但人的思維過程看不見、摸不著,而人的智能更加難以定義和統一。

現代人工智慧更多藉助技術手段來使機器能夠勝任一些通常需要人類智能才能完成的任務,屬於弱人工智慧的範疇。

與之對比,強人工智慧是指機器有自我意識,具備思考和推理的能力,但當前技術遠未達到此目標並且也不應該達成(想想一個機器人有了自我意識該多麼可怕!)。

人們知道學習能力是一種智能行為,比如人類從經驗中學習來改善後續表現,那麼機器如何有這種學習能力呢?

一切活動都會留下痕跡即數據,機器或計算機是否可以通過歷史數據來發現規律從而預測未來行為呢?

這就是機器學習,它是研究如何通過計算的手段,利用經驗來改善系統自身的性能,而經驗通常以數據形式存在。機器學習是實現人工智慧眾多途徑中的其中一條,它包含一大類學習算法,比如深度學習、強化學習、遷移學習等。

從數據角度來看,生物信息學是研究如何處理和使用數據,機器學習絕大多數方法都可以在生物信息學中得到廣泛應用。

六、生物信息學的未來

生物信息學是生物學與計算機科學、數學交叉融合而衍生出的新興學科,它要求從業人員有較好的生物學背景知識,紮實的數學和統計基礎,還需要精通計算機。

實際上,大部分生物學家不熟悉計算機,而從事計算機科學的研究人員多數又缺乏生物背景。

馬克思說過,「一門科學只有當它達到了能夠成功地運用數學時,才算真正發展了。」當前人們對生命的理解還遠遠不夠,生命科學作為一門實驗科學,其受到數學的影響還遠遠比不上數學對物理化學學科的影響。

未來生物學的發展將會是信息技術與生物學的深度融合,研究範式將會從數據驅動方向發展,採用機器學習等人工智慧方法從生物大數據中獲取洞見,把生物學知識轉變成數學模型,系統揭秘生命的本質。

相關焦點

  • 推進大數據、人工智慧等信息技術與人文社會科學研究深度融合
    在大數據時代,運用信息技術有助於人們更加深入透徹地了解人文社會科學研究中的新動向,例如,進一步跟蹤和關注以下具體研究問題。  值得重視的移動泛在的信息行為:智慧型手機和終端。人人持有的智慧型手機和終端形成了信息獲取和信息生產的泛在環境。用戶不僅可以無時無刻、隨時隨地生產數據,還可以獲取數據、傳遞數據。現在,很多數據通過移動手機和終端不斷產生、不斷傳遞,使得信息傳遞模式、人類信息行為表現都呈現出新的特徵,而且移動信息服務又與生活經濟發展密切相關。
  • 叢斌院士:生命科學領域需揭示三大基本科學問題
    這是生命科學技術發展的方向和追求的目標。醫學科學與以大數據、物聯網、人工智慧和量子計算為代表的信息技術深度融合,是促進生命科學進步的必然途徑。採用密集數據驅動的科學範式,挖掘隱藏於高維、高通量多維融合的生物醫學大數據中的新洞見,將生物醫學領域的知識模型轉換為數學模型,以生物醫學大數據作為輸入參數,以人工智慧算法對模型進行迭代、訓練,輸出旨在揭示逼近於真實的生命系統結構與功能的時相變化表徵
  • 叢斌院士:生命科學領域需揭示三大基本科學問題
    這是生命科學技術發展的方向和追求的目標。醫學科學與以大數據、物聯網、人工智慧和量子計算為代表的信息技術深度融合,是促進生命科學進步的必然途徑。生命科學的困境現代科學技術解決了生命科學領域的部分難題,人類健康維護有了明顯進步,疾病譜發生了改變。
  • 人工智慧和大數據,到底能改變什麼?答案或將顛覆我們的想像
    我們這個時代,正慢慢走近由人工智慧、大數據、物聯網等主宰的全新的世界!「難道機器不可能完成一些應該被描述為思考但與人所做的事情有很大不同的事情嗎?」圖靈問道。圖靈認為他們可以。AI通過將大量數據與智能算法(一系列指令)結合在一起來工作,這使該軟體可以從數據的模式和特徵中學習,正如這本SAS人工智慧入門書所解釋的。就像SAS所述,在模擬大腦工作方式時,人工智慧利用了許多不同的子域。機器學習可自動進行分析模型構建,從而在數據中查找隱藏的見解,而無需進行編程以尋找特定的事物或得出一定的結論。
  • 北京大學圖書館館長朱強當選環太平洋數字圖書館聯盟指導委員會主席
    在最近進行的環太平洋數字圖書館聯盟(Pacific Rim Digital Library Alliance,簡稱PRDLA)指導委員會匿名選舉中,北京大學圖書館朱強館長當選為該委員會下一屆輪值主席,自2010年開始任職。
  • 醫藥研發領域大數據和人工智慧的應用探討
    隨著語音交互、文本識別、圖像識別和大數據分析,以及智能終端等技術的逐漸成熟, AI 的應用場景越發多樣。其中 晶泰科技通過應用人工智慧高效地動態配置藥物晶型,能完整預測一個小分子藥物的所有可能的晶型, 大大縮短晶型開發周期,更有效地挑選出合適的藥物晶型,減少成本。
  • 華為「200萬年薪」背後,人工智慧博士真的可以這麼高薪資嗎?
    昨天,一則華為內部郵件「華為將對八位2019屆頂尖學生實行年薪制管理」登上了各大平臺的熱榜,網友大呼華為「大手筆」!EDN小編扒了扒這些百萬年薪博士的履歷,發現他們的專業背景大多和人工智慧、大數據等當前最熱門的專業相關。
  • 基於大數據的人工智慧海洋學預報研究取得進展
    近日,由中國科學院海洋研究所研究員李曉峰領銜、國內多家海洋科研單位人員組成的人工智慧海洋學團隊,以熱帶不穩定波相關聯的海表溫度場為例,研發了以衛星遙感大數據驅動的針對海氣系統中複雜海洋現象的人工智慧預報模型,並在針對熱帶不穩定波相關的海表溫度時空演變預報方面取得研究進展。
  • 大數據和人工智慧浪潮下的未來進化
    人工智慧的發展將會給社會帶來怎樣的衝擊?它會和人類和諧共處還是會取代人類?智能和意識如果可以分離,他們孰輕孰重?假使技術的發展使得人類大規模失業,我們到時該如何自處?在新技術的衝擊下,未來商業形態又會向何處演化?為了探究這些未來話題,中國具有強大影響力的文化服務機構中信出版集團攜手大數據及人工智慧公司百分點集團聯合舉辦首屆關於大數據+人工智慧的「XWorld大會」。
  • 人工智慧的自我意識與信息進化論(二):人工智慧是否會具有自我意識?
    所以「人工智慧應用」共享「人工智慧載體」,並且可能存在於特定的任意範圍內。人的生命由身體和意識組成,意識部分包括了智能。「人工智慧應用」之所以還不是一種生命,是因為其沒有意識。意識並不是人類所獨有的,任何生物,包括動物、植物、細胞都有意識。是否具有自我意識是生命體和非生命體的區分標誌。那麼「人工智慧應用」有可能產生「自我意識」嗎?即便是其特有的意識形式。
  • 聚焦前沿——「當分子病理檢測技術」偶遇「大數據與人工智慧」
    在過去的十年裡,人工智慧和機器學習對醫療部門產生了巨大的影響。技術的進步也已經為大數據的分析和整合鋪平了道路。在人工智慧的賦能下,醫療的技術性得到了前所未有的提高。2016年科大訊飛入局AI醫療領域,2017年阿里健康聯合萬裡雲發布AI系統Doctor you,騰訊發布AI醫學影像輔助產品覓影,IBM公司與紀念斯隆凱特琳癌症中心合作開發的Watson 產品金。
  • 人工智慧在生命科學上是如何應用的
    打開APP 人工智慧在生命科學上是如何應用的 網際網路 發表於 2020-03-31 10:37:11 根據埃森哲的一份報告,到2026年,醫學和製藥領域的大數據和機器學習相結合將帶來驚人的每年1500億美元的價值。
  • 如何避免人工智慧、大數據讓世界越來越分裂?
    大數據在新聞選擇、音樂選擇、電影選擇等等方面都是按照每個用戶的的興趣來推薦的,這樣的話我們就只看到自己想看的新聞、只聽到想聽的音樂……這算是人工智慧、大數據的局限嗎?這裡提到一個智能推薦會不會讓用戶只能看到人工智慧想讓我們看到的、想讓我們聽到的、為我們做選擇。這個思考非常好,總結成一點就是「人工智慧會不會以個性化為由剝奪我們自主選擇的權利?」每日心選覺得有這個風險,而這正是我在開頭中回答的,是趨勢導致的風險,就像技術帶來好處背後的問題。
  • ...大數據創新聯盟,再次首推雲創高校大數據與人工智慧實驗室建設...
    4月1日,由全國高校人工智慧與大數據創新聯盟組織編寫的《全國高校人工智慧大數據區塊鏈學院(專業)基本概況彙編(2020版)》(以下簡稱《彙編》)正式出品。《彙編》為大16開本,精裝,1111頁,125萬字,是進一步落實教育部「高等學校人工智慧創新行動計劃」戰略的重要舉措,旨在促進高校人工智慧、大數據、區塊鏈專業人才培養。
  • 大數據、人工智慧、人像對比,技術真能阻擋互金黑產?-虎嗅網
    大數據、人工智慧、活體識別、人像比對、設備指紋、人臉識別……大量的風控技術,都開始運用到場景之中。但技術真的能阻擋網際網路金融黑產嗎?傳統信用卡會有聯名卡,本質是認為某一類場景下的用戶就是資質比較好的客戶,通過預篩選把風控前置,不管是主動邀請被動觸發,都能解決用戶體驗和風控的矛盾。預設白名單,一方面能改進用戶體驗,更快進行額度定位、審批;對於信貸機構而言,能夠做到風險前置,避免風險後置的矛盾。
  • 基因與人工智慧技術應用 生命大數據解碼生命將重組
    基因與人工智慧結合技術應用,人體生命大數據解碼而生命將重組生命的本質是什麼?就是一串串由基因組成的大數據!從人類認識細胞開始,對生命的理解就一直在不斷加深。生命的重組才更精彩!那麼,人工智慧到底將靠什麼走向大眾?筆者認為,大健康、人體生命數位技術將是發展方向。每個社會大眾都應該需要一位超級智能的健康管家。明我的健康智能管理身體明我根據不同人群及常見健康問題推出「明我」常規、兒童、老人及慢病系列健康方案,通過明我健康方案解決不同健康問題,讓用戶能更準確更全面的管理好自己身體。
  • 人工智慧如何助力疫情防控?
    上周末,「疫情與人工智慧」公開學術講座在網上直播平臺開播,來自香港中文大學(深圳)、深圳市人工智慧與機器人研究院(AIRS)和深圳市大數據研究院的專家學者在直播中分享了人工智慧在疫情防控工作方面的應用。
  • 摘要翻譯、論文寫作、信息檢索、抄襲檢測……人工智慧延伸科學...
    所選論文來自生命科學等領域,涉及《自然》《細胞》《新英格蘭醫學雜誌》等期刊。  記者對照分析了小柯作品《單細胞測序揭示冠狀動脈疾病保護機制》及其英文原文。新聞中,小柯先對論文主題、研究單位以及發表期刊進行簡單介紹,後接英文原文摘要的翻譯,大致反映原文內容;翻譯時會對原文進行適當的語句簡化,同時在對專業詞語的翻譯上也使用了如「血管平滑肌細胞」「保護性纖維帽」等專業表述。
  • 腦科學打開生命禁區之窗 或是下代信息技術創新源頭
    比如,近日,復旦大學類腦智能科學與技術學院院長馮建峰教授的課題組對超過1萬例影像遺傳學數據進行計算分析,有望幫助人類揭示精神分裂症發病機制。本期特邀請馮建峰教授和北京腦科學與類腦研究中心主任饒毅教授等專家介紹我國腦科學研究的前沿和相關進展。  大腦,是人的神經中樞,稍有損傷就有可能造成生命危險,因此腦部區域也被稱為「生命禁區」。
  • 聚焦大數據算力、人工智慧 大橫琴科技公司五天四項突破備受矚目
    (原標題:聚焦大數據算力、人工智慧 大橫琴科技公司五天四項突破備受矚目)