來源微信公眾號:計算機大學生
人工智慧、大數據能揭示生命信息嗎?
1953年,沃森和克裡克發現DNA的雙螺旋結構,標誌著分子生物學這門學科的誕生,它從分子水平研究生物大分子的結構與功能以揭示生命的本質。
2001年,六國科學家共同完成對人體23對染色體的人類基因組草圖,初步發現人類基因組中包含3萬多個蛋白編碼基因,它蘊含了人類生老病死的遺傳信息。
20年過去了,人類離讀懂「生命天書」還相差甚遠。一個人的遺傳密碼到底有多長?約30億個鹼基對即3000Mbp!不同的序列段記載不同的信息。
有些片段含有製造蛋白質的信息,這些片段被稱為基因。
它們大約佔全部DNA序列的1%~1.5%,其它98%的DNA序列功能未知,甚至一度被人們認為是無用DNA,隨著現在研究的深入,發現這些所謂無用DNA在生物功能和調控上發揮著巨大作用。
面對海量基因組數據,生物學家卻無法了解其生物功能和過程。人類之渺小,造物主之偉大,不勝唏噓!
我們有幸生活在資訊時代,看到計算機影響著生活的方方面面,不僅影響我們的社交出行,甚至影響著我們解決問題的思維方式。賈伯斯曾說過:「Everyone in the country should learn to program a computer, because it teaches you to think.」
當前,計算機或人工智慧與其他學科的交叉是創新的熱點。計算機與生物的結合稱為計算生物學,也稱為生物信息學,兩者基本無明顯差異但稍有區別。
計算生物學注重利用數學模型來解釋或預測生物現象,生物信息學則注重數據的整理、分析和挖掘,從而發現潛在規律。簡而言之,問數學背景的科學家他們主要研究什麼,他們會說是做生物計算的;如果問計算機科學家,他們會說是做生物信息的。
總之,生物信息學主要針對具體生物學問題提供工具和算法,比如序列拼接工具,蛋白質結構預測方法等。
數據是信息科學的基礎元素,如果沒有數據,計算機就無用武之地了。由於生物醫學數據呈現爆發式增長,因此需要採取有效手段來管理這些數據,這就涉及生物或醫學資料庫的建立,因為資料庫可以有序地組織和檢索數據。
隨著科學實驗的不斷發現和數據累積,湧現出大量各種不同類型的專門資料庫,如醫學文本資料庫、基因組資料庫、蛋白質結構資料庫等。
生物信息學不僅僅要建立和開發資料庫並為方便訪問資料庫提供工具,更為重要的是,生物信息學要從海量生物醫學數據中挖掘潛在信息和規律以指導生物學發現。比如,傳統新藥研發耗時耗力,計算機輔助藥物發現可以通過挖掘已知藥物數據獲取最有潛力新藥,從而大大提高效率,節省資源。
現代基因測序方法正在改變傳統生物學研究,海量數據處理正在把生物學家的工作從實驗臺上拉向電腦旁。
傳統的典型生物學研究場景是:一個穿著白大褂的科學家坐在實驗臺前使用移液管和培養皿,戴著護目鏡在顯微鏡下觀察,這被生物學家稱為「溼實驗」。
這種場景正在改變,在現代化生物醫學研究中心,溼實驗僅佔10%工作量,大部分工作要在電腦前完成。
研究方式的改變不僅意味著生物學家所需技能的改變,其背後是研究方式的變化,即從傳統「產生想法,設計實驗,進行實驗,驗證結果」的研究模式轉變成「分析數據,發現規律,提出假設,再進行實驗」。
面對這種研究方式的轉變,要求研究人員掌握數據處理和分析的方法,包括計算機編程。
在基因組時代,生物學研究的目標是量化地理解生物如何編碼它們的基因形成一個個鮮活的生命個體。
生命神奇的地方是基因編碼了幾乎一切信息。信息的傳遞受基因控制,什麼時候發育,生長,繁殖...但生物相關的數據不僅數量大,而且多尺度、異質化、高度複雜。
從大小尺度來講,這些數據小到分子、細胞,大到器官、整體,尺度相差甚遠;從時間尺度來說,涉及基因轉錄和翻譯,這些過程在時間上有先後順序並且時間跨度大,有的致病基因在人的一生中都沒表現出來。
生物醫學數據有的是數字、符號,如基因組數據;有的是波形,如心電圖;有的是圖像,如CT;有的是文字,如電子病歷。此外,疾病的產生、發展是一個複雜的動態過程,往往涉及多個基因參與。
如何融合這些不同類型數據以及複雜網絡的關係,將成為海量生物大數據分析面對的巨大挑戰。
基因組大數據
什麼是人工智慧?
有時人工智慧也叫機器智能,它是研究如何使機器或計算機變得智能起來。人工智慧是研究使計算機來模擬人的某些思維過程和智能行為,但人的思維過程看不見、摸不著,而人的智能更加難以定義和統一。
現代人工智慧更多藉助技術手段來使機器能夠勝任一些通常需要人類智能才能完成的任務,屬於弱人工智慧的範疇。
與之對比,強人工智慧是指機器有自我意識,具備思考和推理的能力,但當前技術遠未達到此目標並且也不應該達成(想想一個機器人有了自我意識該多麼可怕!)。
人們知道學習能力是一種智能行為,比如人類從經驗中學習來改善後續表現,那麼機器如何有這種學習能力呢?
一切活動都會留下痕跡即數據,機器或計算機是否可以通過歷史數據來發現規律從而預測未來行為呢?
這就是機器學習,它是研究如何通過計算的手段,利用經驗來改善系統自身的性能,而經驗通常以數據形式存在。機器學習是實現人工智慧眾多途徑中的其中一條,它包含一大類學習算法,比如深度學習、強化學習、遷移學習等。
從數據角度來看,生物信息學是研究如何處理和使用數據,機器學習絕大多數方法都可以在生物信息學中得到廣泛應用。
生物信息學是生物學與計算機科學、數學交叉融合而衍生出的新興學科,它要求從業人員有較好的生物學背景知識,紮實的數學和統計基礎,還需要精通計算機。
實際上,大部分生物學家不熟悉計算機,而從事計算機科學的研究人員多數又缺乏生物背景。
馬克思說過,「一門科學只有當它達到了能夠成功地運用數學時,才算真正發展了。」當前人們對生命的理解還遠遠不夠,生命科學作為一門實驗科學,其受到數學的影響還遠遠比不上數學對物理化學學科的影響。
未來生物學的發展將會是信息技術與生物學的深度融合,研究範式將會從數據驅動方向發展,採用機器學習等人工智慧方法從生物大數據中獲取洞見,把生物學知識轉變成數學模型,系統揭秘生命的本質。