2015年是《Plos Computational Biology》創刊十周年,藉此機會,正好可以梳理十年來計算生物學領域的發展,展望今後計算生物學的機遇和挑戰。作為計算生物學領域的著名期刊,《Plos Computational Biology》幾乎囊括了該領域的所有方向,總結該期刊的發展歷程也正好可以講述計算生物學領域的十年來的成就。
從「什麼是計算生物學」到「什麼不是計算生物學」
實際上計算生物學的起步很早,發展至今已經有了很多的分支和方向。計算生物學的分支方向已經融入了生命科學的不同,甚至已經成為了基礎生物學密不可分的一部分,深度融入了從分子尺度到生態系統尺度的不同領域。因此,我們現在不會再問「什麼是計算生物學?」相反,回顧這些年來發表在該期刊的文章,更加合適的問題應該是「生命科學研究中,有沒有哪些領域和方向沒有涉及到計算生物學?」現在大多數的研究院所都會招募在計算生物學領域有所建樹的研究者。而且越來越多的地方開始培訓計算生物學的研究生博士生,而且有該領域的經歷也可以算是自己個人簡介上面濃墨重彩的一筆。這正說明了,計算生物學越來越得到了生命科學領域的認可。
下一個十年會有哪些奇蹟
那麼,下一個十年又會怎樣呢?相比之前,有哪些事情是之前無法實現的呢?近年來,隨著海量實驗數據的積累和計算機性能的快速提升,計算生物學得到了長足的發展。這兩個方面將會繼續推動計算生物學的前進,都有可能實現從量變到質變的轉變,從而實現計算生物學飛躍式發展。尤其是當大數據時代已經到了,巨量生物學數據必然要求著數據分析的軟體和方法有很大進步,這種倒逼或許會促進從數據到知識的轉化。美國國立衛生研究院2012年提出的BD2K(Big Data to Knowledge)項目正是旨在催化從數據到知識的轉化。
大數據到大數據集
數據的量級在下一個十年可能會更大。生物學領域的數據將會更加量化,這能夠補充傳統生物學領域那些描述性的數據。舉個例子,未來研究者會持續分辨、分類和量化在不同環境中的微生物群體,這些微生物可能在不同的人身體的不同位置、組織,這些人有不同的健康狀態、年齡等。還有,這些微生物可能在不同的土壤、水域,整合這些微生物的環境信息也是非常必要和有意義的。再例如,發現和分類具有平行效果或者冗餘效果的細胞信號通路。還有,可以發現在不同細胞環境下的轉錄後翻譯的模式。這些數據都已經不單單是傳統的生物數據,而是更多地整合了大量包括相關信息及其環境的大數據集。可以說這些數據集將會包括生態系統,診斷模式,不同的腫瘤類型等等。整合這些信息,可能促進分析方法和模型的進一步發展,這是之前所不敢想的。
標準化數據處理可能容忍生物多樣性和統計誤差
傳統生物學實驗往往局限於特定的條件,依賴於特定的方法和實驗材料。但是,隨著數據量變大,數據的尺度也是非常宏大,如果能夠發展新的分析方法,或許能夠從海量數據中找到具有生物學意義的、穩定的、普適性的知識,這些知識可能針對不同的遺傳多樣性是普適的,而且能夠容忍統計誤差。可以預料到的是,數據的精確性和連續性是需要克服的最大障礙。這些原始數據裡面包含了大量的背景信息、背景噪音。比如表達強度、結合強度以及mRNA-蛋白質相關性等,都會成為背景噪音的來源。這些問題都需要解決,因此,如果有標準化的處理方法能夠針對不同的實驗,合理地將隨機性噪音統一化,那麼這些問題都可以迎刃而解。此外,生命科學領域,來自儀器的測量誤差、遺傳多樣性、多樣化的分子結構都對數據的標準化處理和分析造成了困難。解決了數據標準化處理方法,那麼計算生物未來將會非常光明。
分析整合數據集需要超級計算機
單獨的數據集僅僅只能提供有限的信息,如果能夠整合不同生物學領域、尺度的數控,那麼意義將非常重大。然而,面對這樣的整合數據集,現有的方法和計算能力還遠遠不夠。考慮到能夠使用這些單獨數據集一起得到更多有用的信息,因此需要有一個單獨的數據分析框架,能夠深度融合不同的生物組織樣式、尺度的數據。現有的計算能力還十分有限,我們對生物系統的模擬還只限於很小的體系和很短的時間尺度,這些體系只佔到了細胞的很小一部分,而且也很難做到非常真實地模擬生物系統。如果需要模擬整合體系長時間尺度的系統,則需要非常大量的計算能力。超級計算機應用在該領域非常必要,起碼需要達到百億億次每秒的計算速度才能算能用。
數據共享意義重大
《Plos Computational Biology》是一個具有開發閱讀權限的期刊,在這樣開發的框架下,作者們鼓勵數據和工具的共享。而且,作者們也堅定地認為,這種共享是非常重要的。生物計算正以前所未有的速度在發展和革新,開放共享的數據和軟體將會極大促進全球範圍內的研究者們的參與和貢獻。
沒人能夠預測未來的計算生物學會有怎樣的走向,但是,有一點是肯定不會變的,那就是未來的世界計算機只會越來越重要。而且生物領域的計算方法和模型也會越來越多,也會更加深度地整合進入不同的生物學分支。標準化的數據分析方法可能會帶來更加可信的結果,這些方法允許不同的數據的整合以及較小的統計學誤差。大數據量的積累,如果用了超級計算機的助力,無疑會對未來的計算生物學產生巨大的推動。《Plos Computational Biology》歷經十年發展,也已經走向成熟,如今再問「什麼是計算生物學?」雖然也沒有問題,但是顯然,問「什麼不是計算生物學?」會更加合適。和國際計算生物學學會(International Society for Computational Biology)攜手、和越來越多的讀者一起,《Plos Computational Biology》將繼續作為計算生物學發展和交流的平臺之一,見證計算生物學在下一個十年更加輝煌。
本公眾號由中國科學院微生物研究所信息中心承辦
輸入「七月排行」可瀏覽二零一五年七月人氣文章。
輸入「六月排行」可瀏覽二零一五年六月人氣文章。
輸入「五月排行」可瀏覽二零一五年五月人氣文章。
輸入「四月排行」可瀏覽二零一五年四月人氣文章。
輸入「三月排行」可瀏覽二零一五年三月人氣文章。
輸入「二月排行」可瀏覽二零一五年二月人氣文章。
輸入「一月排行」可瀏覽二零一五年一月人氣文章。
輸入「十二月排行」可瀏覽十二月人氣文章。
輸入「十一月排行」可瀏覽十一月人氣文章。
輸入「十月排行」可瀏覽十月人氣文章。
截止到2014年10月31日Top30文章列表已整理完畢。輸入標題後括號中的期號可瀏覽該篇文章,如「20140518」。
輸入「伊波拉」可瀏覽伊波拉相關專題人氣文章。
輸入"轉基因"可瀏覽轉基因相關專題人氣文章。
輸入"大數據"可瀏覽大數據相關專題人氣文章。
輸入「癌細胞」可瀏覽癌細胞、癌症相關專題人氣文章。
輸入「糖尿病」可瀏覽糖尿病相關專題人氣文章。
輸入「測序」可瀏覽測序相關專題人氣文章。
輸入「免疫」可瀏覽免疫相關專題人氣文章。
1、中式體檢讓美國醫生瞠目結舌(20140518)
2、Nature:中國將大力改革科研資助體系,「973」和「863」將被停止(20141025)
3、施一公組:六年,一場「聚光燈」下的負重跑(20140704)
4、「科研過勞症」離你並不遙遠(20140822)
5、25位諾獎獲得者聯名支持轉基因(20140802)
6、一篇Ebola論文之沉重:六名作者去世(20140831)
7、哈佛大學遺傳學家:轉基因食品安全之我見(20140508)
8、Nature:中國科學界面臨重大改革(20140924)
9、國內科學家們為什麼顯得浮躁?(20141011)
10、施一公、王曉東院士:基礎研究有什麼用(20140505)
11、中國人為什麼反轉基因(20140810)
12、揭秘:人類為何越來越易過敏?(20140918)
13、轉基因基礎解惑(20140622)
14、饒毅:扒鐵路保龍脈與反轉基因保龍種(20140808)
15、2014年度國家自然科學基金分析(20140821)
16、每日步行2公裡癌症風險減半(20140913)
17、Nature:戳穿甜味劑的健康謊言(20140918)
18、圖解常用腫瘤標誌物(20140515)
19、腿粗的人智商高(20141024)
20、《柳葉刀》上的中國(20140808)
21、湯森路透發布2014年最新SCI雜誌影響因子(20140730)
22、睡眠,世界上最有效的健康仙丹(20140926)
23、「全球轉基因農作物發展現狀和未來展望國際研討會」共識(20141018)
24、世界頂級癌症專家教你怎樣活得更久(20140920)
25、人為何會得癌症?(20140921)
26、如何拉出健康的便便?(20140830)
27、腸道可能在撒謊(20140831)
28、2014年中國大學研究生教育排行榜揭曉(20141030)
29、改變腸道菌,一天也不晚(20141031)
30、施一公:八面玲瓏的人難做科學家?(20140811)