計算機幫助破解人類生命密碼?

2020-11-28 網易科技

(原標題:計算機如何幫助生物學家破解人類生命「密碼」?)

本文來源:機器之心

當完全完成足足三十億字母長度的人類染色體組測序後,我們也就勢不可擋地進入了生物研究中的「組學」紀元。科學家現在正爭相測定所有染色組(包含全部的基因組),不同器官的的蛋白質組,並正在處理著這些過程中的海量數據。

舉個例子,科學家可以利用「組學」中的工具,比如DNA序列,剔出被流感病毒所影響的人類基因。但是因為人類的染色體總數至少有25000個基因組,即使在在上述最簡單的情況下,改變的基因組也可以千位來計數。

儘管測序與識別基因和蛋白質可以給它們名字和相應的位置,但無法告訴我們它們到底有何用處。我們需要去了解這些基因、蛋白質,以及不同生物作用過程中的一切。

今天,即使最基本的實驗也會產生大量的數據,最大的挑戰來自於將相關的結果從混雜的實驗背景中分離開來。計算機正在幫助我們克服數據過大的問題,它們甚至可以做到更多,幫我們做出科學假設,解釋新的生物作用。數據科學從基本上支撐起了前沿的生物研究。

計算機的作用

計算機之所以能夠成為大數據最完美的處理者,是因為它們可以自動跟蹤所有重要分析必要的前提。

雖然人為編程使得它們有著人類的一些缺點,但是計算機能夠有效處理大量數據,並且不會像人類研究員一樣容易趨向於熟悉區域。

計算機還可以經過指導後自動尋找實驗數據裡的特殊模式——即機器學習,在1950年代首先提出,並由數學家阿蘭·圖靈而聞名。它是一種指導計算機從資料庫中熟悉模式,並在遇到新的數據式可作出預測的算法。

自從我們可以利用大數據並讓計算機幫助理解未知生物學,機器學習就已經在生物研究中引起了變革。


通過模擬大腦作用訓練計算機去「思考」

我們曾經在實驗室裡用過一種有趣的機器學習類型,叫做人工神經網絡(ANN)。大腦由複雜的神經網絡組成,通過在神經網絡中傳導電脈衝進行交流。相似的,計算機神經網絡可以回應其他的神經信號打開並關閉,進行模擬。

通過採用模擬真實神經的算法,我們可以讓網絡學習解決多種問題。比如谷歌就利用了一個強力的ANN進行著名的Deep Dream 項目,計算機可以分類甚至創造圖像。

而我們的目標在於免疫系統,希望能夠找出癌症的新療法。我們利用ANN計算模型來研究人類的免疫細胞用以決定是否阻擊人體內外來物的短表面蛋白質組代碼。如果我們知道了更多免疫細胞(例如T細胞)與正常/自細胞和異常/異細胞的區別,我們就可以設計出更有效的疫苗與療法。


我們在公開的資料中搜羅了前人們識別的上千個蛋白質代碼的分類,並將這個巨大的資料庫分為兩組:健康細胞的正常自蛋白代碼,以及病毒、癌症和病菌的異常蛋白質代碼。接著,我們便交給了實驗室研發的神經網絡。

一旦我們給ANN足夠的蛋白質代碼數據,算法就可以識別正常與異常蛋白質代碼的基本區別。對於人類來說,跟蹤這些生物現象過於艱難,因為起碼有上千個蛋白質代碼需要去分析,一個機器才能夠應付這些問題,並確定新的生物學。

機器學習所做出的預測

機器學習在生物學中最重要的應用便是它可以基於大數據作出預測。計算機的預測可以讓這些大量的數據有所作用,檢測假設並節省了珍貴的時間與資源。

例如,在T細胞的領域,知道哪些病毒的蛋白質代碼為目標,對於研發疫苗與療法是非常關鍵的。但是每一個病毒有著太多不同的蛋白質代碼,要去針對每一個都做實驗是非常艱巨且昂貴的。

反之,我們訓練人工神經網絡來幫助機器學習正常與異常的蛋白質代碼的重要生物化學特徵。接著我們可以讓模型來預測哪些病毒蛋白質代碼與「異常」分類中的代碼相似,可以被T細胞與免疫系統所識別。我們對不同的未曾研究過的病毒蛋白質進行了ANN模型的測試。

當然,就像一個迫切地想要取悅老師的勤奮學生,神經網絡能夠精確地在病毒中識別能夠引起T細胞活躍的蛋白質。我們還實驗性地測試了計算機所標識的蛋白質代碼以驗證其預測的精確度。利用這種神經網絡模型,科學家可以此迅速地預測有害病毒中所有重要的短蛋白質代碼,進行測試以研發療效與疫苗,而不是僅僅猜測,並一個一個進行試驗。

完善機器學習

由於不斷地進步,大數據科學與機器學習正在逐漸成為所有科學研究無可取代的一部分。在生物學中利用計算機進行訓練與預測已經成為了可能。從找出那些生物標記物的組合可以更好地檢測疾病,到知曉為何某些特殊的癌症治療方法只適合於某些病人,利用計算機挖掘大數據已經成為了研究中最有效的手段。

不過,它也有局限性。大數據科學的最大問題就是數據本身。如果組學研究所獲得的數據開始就是錯誤的,或者基於不可靠的科學,利用這些數據所進行的計算機訓練也就是錯誤的,並導致錯誤的預測。正所謂上梁不正下梁歪。

因為計算機(現在)還無法感知,即使在還不存在的情況下,它們也必須需要一個模型來進行思考,並因此又給了劣質數據與不可重複科學以可趁之機。

一些研究員也在擔憂著計算機變成數據的黑匣子,科學家無法理解計算機代表人類所進行的的操作與機制。

儘管有著許多問題,大數據依然有著許多好處,並能夠維持著它們研究好夥伴的角色。因此只要意識到這些危險,我們就可以理解生物學能夠通過機器眼睛所看到的未來。

本文來源:網易科技報導 責任編輯:張鐵健_NF2431

相關焦點

  • 「史前」美味七腮鰻身上的密碼,成為人類破解地球生命的奧秘!
    這是困惑人類許久的一個話題,隨著人類科技的不斷進步,從人類點滴積累的生物認知常識,出現了生物進化論,告訴人類起源於生物進化,而最早的地球生命來自於海洋,隨著地球環境的變化,已經有很多的生物被自然環境所淘汰,就連曾稱霸陸地的恐龍也被滅絕,人類的未來會像恐龍一樣成為化石嗎?相對於地球的年齡,人類的實力太過的短暫,人類打開自然科技之門後,科學家們發現自己了解的越多,越覺得生命的神奇。
  • 破解密碼時,人工智慧在「思考」什麼?
    數周前,我去了倫敦的帝國戰爭博物館,觀摩一個人工智慧程序試圖破解德國人在二戰期間使用的複雜的英格瑪(Enigma)密碼。它用了12分50秒就破解了那套密碼。在機器閱讀了來自《格林童話》的一些德文培訓數據後,人工智慧程序分析了由四個轉子的英格瑪機器生成的數十億個排列組合,在海量字母組合中尋找德文語句。
  • 復旦人類表型組:破解人群生命健康密碼的探索者
    復旦青年記者 鍾佳琳 主筆復旦青年記者 潘玥 報導復旦青年記者 張飛宇 編輯一段頭髮、一顆指甲蓋、一串腳印、甚至是濾紙上微量的齦溝液,這些性狀都可以成為人類生命健康密碼。人體特徵即是表型,是由基因和環境的相互作用決定的。人類全部特徵的集合就是表型組。
  • 九章量子計算機可以破解網絡密碼嗎?美國會怎樣應對我國量子崛起
    所以,我們可以認為公鑰加密的信息是安全的,我們在手機上輸入銀行密碼,就是通過這樣的加密方法傳輸給銀行的,不法分子就算從網上截取了我們發送的信息,也看不明白銀行密碼是多少。但是量子計算機可以更輕鬆地破解這類密碼,因為量子計算機一次計算就可以得出特別多的結果,只要結果夠多,總有一個正確的結果在裡面。
  • 中國女天才破解最難密碼!計算機需100萬年,國家重獎711萬
    在科研界有很多獎項,這些獎項會頒給很多取得突出成就的科學家,嘉獎和鼓勵他們在專業領域做出的貢獻,2019年的未來科學大獎頒獎典禮上,一名來自我國的女科學家獲得了數學與計算機科學獎,並得到711萬的獎金,這名女科學家就是我國的
  • 德軍總部:新秩序英格瑪密碼破解_怎麼破解英格瑪密碼
    導 讀 德軍總部:新秩序的英格瑪密碼是個非常有趣的小遊戲,破解的結果不同還會給遊戲帶來不同的效果增益。
  • 計算機之父,科技界家喻戶曉的人物,破解了二戰的德國密碼
    有名的「計算機之父」和「人工智慧之父」。他也是計算機邏輯的先驅,還首次提出了「圖靈測試」和「圖靈機」等一些重要的概念。還有用他的名字命名的「圖靈獎」被稱為「計算機界的諾貝爾獎」。也是他二戰時,破解了德國著名的密碼系統,使得二戰提前結束兩年。接下來,小編來給各位介紹一下這位很多標籤的人工智慧之父——艾倫·麥席森·圖靈。
  • 破解生命密碼,阿爾法狗的親兄弟Alpha Fold 2又開掛了
    當準確率超過90分時,將被認為是與實驗所確定的結構相一致,徹底破解密碼,這一成績已相當接近,是人工智慧推進科學發展的又一裡程碑!通常情況下,蛋白質會呈現出能量效率最高的任何形狀,但它們可能會糾纏在一起或者摺疊錯誤,對人類而言,就可能導致糖尿病、阿茨海默症等各種疾病。如果科學家可以根據蛋白質的化學構成來預測其形狀,就能了解它的功能、會如何出錯及所造成的危害,並設計新的蛋白質來對抗疾病,或幫助其正常履行職責,邁入科學和醫學研究的新紀元,並最終解決健康、生態、環境等生命系統的任何問題。
  • 人類是被設計出來的?克隆羊出現,是否說明人類掌握了生命密碼?
    人類文明發展至今,很多在以前看起來不可思議的事物,如今都可以用科學原理進行解釋。由科學衍生出來的科技,發明了各種各樣的工具,也給我們的生活帶來了極大的便利。不過關於這個世界上最大的秘密,生命密碼,對此人類仍然處於一片茫然狀態。千百年來,很多科學家都在思考一個問題,那就是人類的起源究竟是什麼?
  • 破解生命密碼
    《生命密碼2:人人都關心的基因科普》:尹燁著;中信出版集團出版。在與讀者朋友們的交流中,我發現大家對生命健康問題很感興趣,但很多人對決定生老病死的主要因素——基因,卻陌生得很。我們為什麼會生病?人類可能永生嗎?如何生育一個健康的孩子?
  • 美國的超難密碼,計算機破譯需100萬年,中國女子只用了2年
    密碼的安全性由密碼算法決定,密碼算法有複雜和簡單之分,算法越複雜的密碼越難被破解,安全性能越高;反之,算法越簡單的密碼則越容易被破解,安全性能越低。「MD5」和「SHA-1」是兩種主要基於Hash函數進行設計的國際密碼算法,十幾年前由美國標準技術局推出,並成為當時號稱全球最為先進、最為安全、最難被破解的兩大算法。難到什麼程度?
  • 在量子計算機到來之前,請準備好抗量子破解的密碼學
    撰文 | Jeremy Hsu翻譯 | 無邪(量子計算領域研究人員)當實用的量子計算機最終來臨的時候,它將能夠破解一直在為我們的在線隱私、政府安全、公司安全以及幾乎所有網際網路使用者的個人安全保駕護航的標準數字密碼。這就是為什麼美國政府機關開始鼓勵研究人員去開發新一代抗量子破解的密碼學算法。
  • 用設計破解生命之花的成功密碼
    在福壽園文化基因的DNA密碼之中,設計,是不可或缺的一環。從傳統墓園到人文紀念公園,再從人文紀念公園到城市歷史紀念館......這一場美麗的蛻變,正向人們展示著殯葬設計作為開啟生命傳承大門的獨特魅力。在這場密碼破解大會上,逾100人的設計團隊參與了研討,這也是全國殯葬行業中規模最大、人數最多、最專業的設計主題大會,正是這種專業設計團隊的熱情不斷地支撐著福壽園走向行業的前列,帶動行業的發展,提升行業的高度。
  • 我科學家破譯黃種人生命密碼(圖)
    百米高基因圖揭示生命秘密  第九屆高交會一號展館,「炎黃一號」的黃種人基因組序列圖譜以一系列神秘的符號展現出來。這些神秘的符號揭示了某個人的遺傳密碼,他的祖傳命運以及未來可能發生的病變。「炎黃一號」研究人員之一、年僅31歲的博士王俊介紹說,這只是他們繪製的首個黃種人基因圖譜極少的一部分內容。「基因圖譜全部測序數據打成文字排成書,其厚度可達100米。
  • 抗量子密碼技術漫談
    老爺爺說:「都說很多國家部門人浮於事,這次我算漲見識了,連密碼都要有一個專門局來管理」。老奶奶回覆說:「嗯,這也算是國家為老百姓著想,否則像咱們這樣經常忘記密碼的人該多痛苦啊,下次再忘了銀行存摺的密碼就來這個部門尋求幫助好了」。
  • 潘建偉:量子科技或將幫助人類實現如今難以企及的夢想
    今天,量子信息技術正在引領一場新的科技革命,將深遠地影響人類社會。放眼更久遠的未來,量子科技發展所取得的突破或許將幫助人類實現如今難以企及的夢想。從這個意義上說,量子科技正是帶領我們「飛向未來的船與帆」。
  • 高速運行的量子計算機,可能破壞密碼防禦
    為什麼量子計算機會對加密技術構成威脅?因為它們可以幫助黑客更快地通過算法陷門工作。與傳統計算機使用的比特可以是1或0不同,量子計算機使用的量子比特可以同時表示1和0的多種可能狀態,這種現象稱為疊加。由於被稱為糾纏的現象的存在,它們還可以在一定距離內相互影響。
  • 量子計算機如何重塑人類未來
    確實,破解1024位長的RSA算法,傳統的計算機可能需要幾十萬年,而用一臺512個量子比特(qubits)的量子計算機理論上可以做到1秒破解。隨著密鑰位長的增加,破解難度急速增加。不少計算機科學家認為傳統計算機幾乎不可能破解出大於2048位長的RSA加密內容,而2048位長是RSA加密最常用的基礎形式。
  • 塵封51年的黃道十二宮殺手密碼被破解了
    當時,他挑釁媒體並寄了很多信件給他們,信中包含4道密碼和經過加密的內容,目前仍有3道密碼未被解開。51年過去了,3個業餘密碼專家聲稱已破解黃道十二宮殺手(下圖為殺手素描)的密碼。據外媒Vice報導,大衛•奧蘭查克(David Oranchak)和另外2個密碼專家表示,已破解由340個符號組成的密碼(下圖),其中一些是英文字符,另一些是含義模糊的符號。
  • 基因編輯——破解上帝的密碼
    免疫系統對人類和動物個體的生存具有重要作用。我們防禦病毒、細菌的侵染,實際上是免疫系統在發揮作用。我們知道,當細菌或病毒入侵人體細胞時,人類通過激活免疫系統,使用吞噬作用、產生抗體進行體液免疫等方式,消滅細菌或病毒。