用基因大數據打造「生命周期表」

2021-01-10 人民網

原標題:用基因大數據打造「生命周期表」

「計劃通過對地球上的生命進行基因、表型、生態等方面信息和知識的梳理、歸納和分析,發現隱藏在數據背後的生命規律,最終實現『數位化動植物,數位化地球』的宏偉目標。」華大基因副總裁、首席技術官方曉東所說的「計劃」,是華大基因近日發布的「生命周期表計劃」。

此前,華大基因CEO尹燁發布「2020計劃」及「生命周期表計劃」時表示,「生命周期表計劃」的開展,意義並不亞於「元素周期表」。

基因測序+數據挖掘 探尋生命之樹秘密

對於生命科學來說,在生命周期中起著類似化學元素在化學中基礎性作用的是基因。然而,生命個體的基因遠比化學元素複雜。

「像化學家從各種物質中鑑別出元素那樣,我們先要從豐富的物種中通過測序檢測出儘可能多的基因。這就是生命周期表計劃的基礎部分——針對地球上所有物種的基因組測序。」方曉東告訴科技日報記者,難點在於收集世界各地不同來源的物種樣本,生物樣本的採集、授權和轉移寄送並非易事。

有了物種樣本後,科研人員藉助高通量測序技術和大數據分析挖掘。「首先要獲得目標物種的基因組序列圖譜。為確保測序的準確性,我們要保證測序數據量平均覆蓋全基因組幾十甚至上百次,並通過足夠聰明的算法和高性能的計算機來推算出目標基因組的序列,進而根據分子進化論計算推斷出物種的譜系關係。」方曉東說,這些生物大數據,不僅體量巨大,維度也非常高,要挖掘隱藏在背後的生命運行規律非常困難,譜系關係相對還是比較簡單的分析。

華大基因的研究,希望通過對生命數據的積累,促進生命科學研究從量變到質變奇點的發生,讓人類更好地了解生命運行規律,與大自然和諧相處。

首選哺乳動物 為保護瀕危動物打call

「生命周期表」計劃第一期測序對象選擇了哺乳綱。用方曉東的話來說,「幾乎找不到不選它的理由」,不僅是因為哺乳綱和人類的生存發展息息相關,也是基於多年來研究動植物基因組的經驗。

「我們和國內多家動物園、科研單位合作,拿到了很多哺乳綱樣本的材料。」方曉東表示,相對其他物種,哺乳動物的基因組在大小和複雜度上較簡單,這便於在現有技術條件和經費下,更好更快地完成生命周期表計劃的前期成果,為後續研究提供更多經驗和技術儲備。

鼠兔到底是鼠還是兔?大熊貓是熊還是浣熊,為啥它們不愛吃肉?「鼠兔是指兔亞科鼠兔屬動物,是跟普通大白兔很接近的動物。鼠兔的種屬分類以前就搞清楚了,基因測序進一步證實了上述關係。」方曉東直言,通過對北京奧運會吉祥物熊貓「晶晶」的測序研究,進而為大熊貓歸屬於熊科動物提供論據,還解釋了大熊貓不喜歡吃肉,是因為感受肉類鮮美的T1R1基因失去活性。

值得關注的是,基因測序研究也為瀕危動物保護提供了重要參考。華南虎目前數量上升很快,但整個種群全是6隻華南虎的後代,基因多樣性堪憂,被世界自然保護聯盟列為極度瀕危的十大物種之一。

「在無法改變近親繁殖現狀的情況下,必須加強基因病的研究,控制有害基因擴大化。」方曉東建議,對現存種群個體進行全面測序,保存儘可能多的華南虎基因信息,以便儘快探索使用基因編輯等技術來防治華南虎基因病。

解碼生命奧秘 已測序500多種高等動植物

目前,全球已測序高等動植物中(含未公布),39%由華大基因和合作夥伴共同完成,已測序的高等動植物有500多種。「生命周期表」在此基礎上,擬完成5600多種哺乳動物的測序,其後將逐步完成物種數位化計劃。

「代表性的動物有常見的家畜,如豬、馬、貓、狗等,以及動物園裡的明星——熊貓、獅虎、大象等。植物則包括了禾本科的水稻小麥等,以及豆科、茄科、薔薇科和十字花科等植物。」方曉東稱,這些物種的測序分析,極大推進了對生命之樹的整體認識。比如,釐清了動物中一些物種在進化樹上的位置關係,證實了植物中一些物種單倍體和多倍體的演化順序,後續要擴大範圍實現物種全覆蓋。

尹燁透露,「生命周期表計劃」第一期測序對象為現存27目157科的哺乳綱,已有超過127科物種被認領。項目組將通過眾籌的方式,推動該科物種的基因組分析、解讀和知識傳播、保護。

「關於植物的選擇,第一期會優先啟動藥用植物計劃,這符合我國中醫藥發展戰略規劃,與大眾健康密切相關。」方曉東說,中長期計劃則是在3-5年內,覆蓋所有代表性的開花植物,甚至解密所有的動植物基因組,構建物種的生命周期表。

(責編:張歌、吳亞雄)

相關焦點

  • 李國傑院士:大數據時代需要新「元素周期表」—資訊—科學網
    這股熱潮的主要驅動力來自網絡服務公司,各地政府投資大數據的主要目的則是增加GDP,但其實發展大數據的意義不僅僅體現在經濟上。」日前,在清華大學舉行的大數據時代高端論壇上,中國工程院院士李國傑表示,發展大數據技術的另一個重要意義是促進社會公平正義,促進國家治理的現代化。「大數據的挖掘分析還能促進科學研究,尤其是基礎科學研究的發展。面對大數據浪潮,我們的科學研究也需要作出一定的調整。」
  • 「大數據+」助推生命科學、醫學、農業創新發展!ICG-15國家基因庫...
    上圖:深圳國家基因庫承辦的分論壇現場在此期間,國家基因庫生命大數據平臺(CNGBdb)重磅發布生命大數據可信計算平臺CODEPLOT,將生命大數據的安全共享和利用轉化帶上了一個新臺階CNGBdb重磅發布生命大數據可信計算平臺CODEPLOT「大數據分析與生物樣本庫」論壇上,國家基因庫生命大數據平臺(CNGBdb)重磅發布生命大數據可信計算平臺CODEPLOT(https://db.cngb.org/codeplot/)。
  • 華大基因:用科技護佑生命與健康
    抗疫一線展現「華大速度」與擔當新冠肺炎疫情發生以來,華大基因雄厚的研發實力迅速展現,「華大速度」不斷提升。不僅第一時間破譯新冠病毒全基因組序列,組織科研及生產力量研製檢測試劑盒,成為首批獲批核酸檢測試劑盒的公司;用5天時間打造出「火眼」實驗室,並聯合同濟大學、易託邦共同研發出氣膜版「火眼」實驗室,再次提升檢測效率。
  • 打造智慧機場 從全生命周期視角出發
    得益於大數據、生物識別、人工智慧等前沿技術的快速發展,現如今自助服務在機場的覆蓋度日益提高且愈發高效智能,旅客出行體驗也得到了全面優化。很多過去經常吐槽機場的旅客也不由得感嘆到:「智慧機場,真香!」然而,機場的智慧可不止於此。
  • 大數據+」助推生命科學、醫學、農業創新發展!ICG-15國家基因庫分...
    )重磅發布生命大數據可信計算平臺CODEPLOT,將生命大數據的安全共享和利用轉化帶上了一個新臺階。CNGBdb重磅發布生命大數據可信計算平臺CODEPLOT「大數據分析與生物樣本庫」論壇上,國家基因庫生命大數據平臺(CNGBdb)重磅發布生命大數據可信計算平臺CODEPLOT(https://db.cngb.org/codeplot/)。
  • 基因與人工智慧技術應用 生命大數據解碼生命將重組
    基因與人工智慧結合技術應用,人體生命大數據解碼而生命將重組生命的本質是什麼?就是一串串由基因組成的大數據!從人類認識細胞開始,對生命的理解就一直在不斷加深。而現在人類又在逐漸掌握一個更加微觀和神秘的領域——基因!未來,人和人的區別,將被精確到基因這個單位!也就是說,基因科學可以將一個人的基因組與另一個基因組進行比較,從而在數十億個DNA中發現相似和不同!商業重組算什麼?生命的重組才更精彩!那麼,人工智慧到底將靠什麼走向大眾?筆者認為,大健康、人體生命數位技術將是發展方向。每個社會大眾都應該需要一位超級智能的健康管家。
  • 元素周期表見過嗎?一座樓那麼大的「限量版」!
    加粗的框線,反差過大的區域色彩,中文不認識,英文記不住……你可能想不到,元素周期表還能長這樣↓為迎接5月18日至19日的中國科學院第十五屆公眾科學日,同時也紀念門捷列夫版化學元素周期表誕生150年,中科院化學所把包含了118個元素的最新版元素周期表,重新設計,一格一格,貼滿了這幢10層的實驗樓。
  • 從基因組大數據到精準醫學
    人類基因組研究促成基因檢測等一系列新技術出現,還帶來基因診斷、基因治療、靶向藥物等醫學新手段,生物醫學進入建立在基因組大數據基礎上的精準醫學時代。在分子水平上認識人類生命活動「人類基因組計劃」不僅找到了各種人類基因,積累了大量基因組數據,還積累了由基因組轉錄出來的各種RNA(核糖核酸)數據,以及由mRNA翻譯產生的各種蛋白質數據。
  • 從基因組大數據到精準醫學
    人類基因組研究促成基因檢測等一系列新技術出現,還帶來基因診斷、基因治療、靶向藥物等醫學新手段,生物醫學進入建立在基因組大數據基礎上的精準醫學時代。 在分子水平上認識人類生命活動 「人類基因組計劃」不僅找到了各種人類基因,積累了大量基因組數據,還積累了由基因組轉錄出來的各種RNA(核糖核酸)數據,以及由mRNA翻譯產生的各種蛋白質數據。
  • 斯坦福最新研究:用AI重建化學元素周期表
    元素周期表可以說是化學領域最偉大的科學成就之一,人類科學家用了近一個世紀的時間,反覆嘗試才將元素周期表組織成目前的形式。而由史丹福大學物理學教授們開發的一個新型人工智慧(AI)程序,在幾個小時內就完成了同樣的壯舉。
  • 化學元素周期表的概述
    元素周期表是我們能夠觸摸到的任何東西的總目錄。有一些東西不在元素周期表裡,例如光、愛情、邏輯和時間,但是這些東西我們是無法觸摸的。地球、你的腳等任何可以觸摸的東西都由元素構成。你的腳的大部分是由氧構成的,同時還有許多碳和它結合在一起,從而為有機分子賦予了結構,這些有機分子確定了你是以碳為主要成分的生命的一個例子。
  • 國家基因庫生命大數據平臺發布原始2019新型冠狀病毒組裝數據
    2020.01.23 11:01【國家基因庫生命大數據平臺發布原始2019新型冠狀病毒組裝數據】2019年12月,湖北省武漢市突現一種由新型冠狀病毒引起的病毒性肺炎。華大基因與中國科學院微生物研究所、山東大學通力合作,依託華大智造超高通量測序儀DNBSEQ-T7,快速完成基因組測序,於2020年1月3日完成該新型冠狀病毒數據組裝,並第一時間上傳至國家基因庫生命大數據平臺(CNGBdb)。在進一步確認對末端序列的完成和相關倫理審批合規後,於2020年1月22日正式釋放。
  • 2015中國SaaS生態「元素周期表」
    因此,我們特別策劃了2015中國SaaS生態「元素周期表」,希望從一個比較直觀的角度勾勒出2015年中國SaaS大生態,共譜中國SaaS大勢。同時,基於用戶交易和消費行為的數據分析,是精準營銷的核心,如何快速處理海量數據,進行多維度、低延時的統計分析、數據挖掘,對系統性能和可伸縮性提出了更高的挑戰。CRM的目標是數據營銷,需要提供各種緯度的靈活的查詢分析。舉例來說,餐廳一個簡單的需求,希望根據消費時間、性別、消費金額篩選出目標客戶,隨著數據量增大,僅靠關係資料庫分庫分表和索引優化已經難以滿足企業的效率要求。
  • 如何計算用戶生命周期天數?
    我們在取值的時候用的就是這種方法,此方法的優勢在於計算周期天數準確,劣勢在於及時性不高,因為確保用戶在完整生命周期內。以為數據樣本是1年之前的數據樣本,反映的結果是一年之前的用戶生命周期結果。>專櫃會員生命周期天數:92電商會員生命周期天數:165 (注意按照這個時候的計算雙11大促未包含進去)這個數據當時造成了2個疑問:1,專櫃為什麼如此低?
  • 揭秘懷雙胞胎基因 大數據找到基因突變位點 後代身高或可基因測算
    核心提示: 華大正式發布一項迄今為止最大規模的中國人基因組學大數據研究成果。這是由中國科學家主導,歷時兩年,對14餘萬中國人的無創產前基因檢測數據進行深入研究後,首次揭秘中國人群基因遺傳特徵的科研成果,也是由華大主導的「百萬人群基因大數據研究」項目的首秀。
  • 計算機行業:從數據的生命周期看大數據發展
    大數據的本質是從海量數據中挖掘出有價值的信息。將整個大數據產業依據數據處理周期劃分為數據源、數據管理與數據應用三個環節。從海外發展現狀來看,高附加值、工具化的企業值得關注。1)首先,數據的所有權和隱私保護是容易被市場忽視的基礎問題。
  • 23魔方周坤:基因數據化生命,創業28月融資7千萬 | 大咖論健49期
    創業心得   數據化生命建議用時7分【大咖論健】8月2日消息,國內著名基因檢測公司23魔方CEO周坤透露,23魔方已完成B輪4000萬元人民幣融資。消費基因檢測行業的核心主要包括:消費升級(消費者驅動的健康支出)、大數據和人工智慧、社交網絡、最後才是基因本身。組成消費基因檢測每個部分都是未來的發展趨勢。其次,美國的23andme和Ancestry的這兩年增長特別快。
  • 從基因組大數據到精準醫學(開卷知新)
    人類基因組研究促成基因檢測等一系列新技術出現,還帶來基因診斷、基因治療、靶向藥物等醫學新手段,生物醫學進入建立在基因組大數據基礎上的精準醫學時代。在分子水平上認識人類生命活動「人類基因組計劃」不僅找到了各種人類基因,積累了大量基因組數據,還積累了由基因組轉錄出來的各種RNA(核糖核酸)數據,以及由mRNA翻譯產生的各種蛋白質數據。RNA的集合稱為轉錄組,蛋白質的集合稱為蛋白質組,機體所有代謝產物組成代謝組,此外還有表觀遺傳組等。
  • 元素周期表口訣 如何快速記憶元素周期表
    元素周期表口訣 如何快速記憶元素周期表很多學生覺得元素周期表很難背誦,想知道怎麼才能快速記憶元素周期表,下面小編為大家介紹一下元素周期表口訣快速記憶法。快速記憶元素周期表的方法諧音記憶周期表的具體方法如下:一、按周期記憶第一周期:「氫氦」。諧音:「輕嗨!」
  • 用HoloLens背化學元素周期表 懸空互動超炫酷
    「化學元素周期表」,是個既枯燥又重要的知識,現在Hololens上出現了一款叫「MyLab」的應用可以讓你懸空學習元素周期表,同時可以和單個元素互動,多個元素還可以結合,看元素反應後的效果。 VR遊戲下載、新遊推薦、福利,盡在17173VR!