基因的雲端故事:尋找你和我差異的百分之一

2021-01-09 天極網

  「我就是那個統計學上渺小到無關緊要、但沒人可以抹去的1%。」這句出自《Gattaca》的經典臺詞讓無數影迷淚目。

《Gattaca》電影海報

  這部22年前上映的科幻電影,講述了這樣一個故事:不久的未來,科技的力量勝於一切,基因決定著命運,有基因缺陷的主人公追逐夢想的故事。人和人基因組序列的差異不到1%,但人類的外貌、性格和疾病等正是由這1%的基因差異導致的。雖然電影中探討的基因決定論目前仍是生物學界辯論的主題,但對於基因的「測定」與「解讀」是近些年生命科學領域最熱門的一項研究。

  實際上,人類對於生命科學的熱情從20世紀中葉就已經開始。1990年,「人類基因組計劃」的提出標誌著生命科學進入了一個新紀元,而電影所設定的那個「未來」,如今卻已然近在咫尺。

  人類基因組計劃的決心不亞於「把人送上月球」,但它是一項跨國跨學科的複雜工程。上個世紀90年代,幾位科學家代表中國承擔了人類基因組計劃的1%工作,而中國也成為了「人類基因組計劃」的第六個參與國。1999年,他們成立了中國第一家基因組學研發機構——華大基因。

  2019年,是中國參與「人類基因組計劃」20周年,也是華大基因成立的20周年。

  解讀「生命奧妙」徵程中的困惑

  華大基因秉承「基因科技造福人類」的願景,以推動生命科學研究進展、生命大數據應用和提高全球醫療健康水平為出發點,基於基因領域研究成果及精準檢測技術在民生健康方面的應用,致力於加速科技創新,減少出生缺陷,加強腫瘤防控,抑制重大疾病對人類的危害,實現精準治癒感染,全面助力精準醫學。

  如今的基因測序已經走入了尋常百姓家,技術的力量讓測序的時長不斷壓縮、價格也越來越親民。然而,在基因測序的流程中,需要龐大的算力支持。從某種意義上說,生命科學的研究競賽,很多時候已經演變成一場算力的比拼,甚至如今已經普及應用的產前檢測,腫瘤檢測等醫療檢測的背後也是大量的算力支持。基因測序對算力的需求更大,且往往是波動的,一段時間的消耗量大而一段時間又變小。同時,對於不同生物的基因組,需要的算力也不同,傳統的數據中心計算集群無法滿足快速的擴縮容。

  具體到華大基因,過去計算資源比較緊張,在使用峰值時,任務經常需要排隊等候;同時科技服務有很多複雜基因組,客戶需要藉助不同規格的計算資源,所以,「上雲」成了華大基因的必經之路。

  基因的「雲端」之旅

  華大基因清晰地意識到,只有雲計算才能夠應對以上的種種挑戰。此後,經過反覆的調研和綜合細緻的考察,華大選擇了華為雲。

  早在2018年,針對基因測序行業的困難與挑戰,華為雲推出了以Kubernetes為基礎的基因容器服務GCS(Gene Container Service)。據悉,GCS將基因測序和容器技術完美結合,是對基因企業來說「更省、更快、更輕鬆」的雲科學計算平臺。

  藉助於華為雲GCS服務,以及華為雲專門為華大基因的常用軟體進行了一系列優化,通過46人/天的駐場時間,60人/月的工程師遠程支持,15+新特性的研發…..雙方打通上雲流程,目前,雙方已完成超過300萬核時計算,平穩運行超過100天。此外,環境部署從原來的3-5天縮短為20分鐘; 應對業務的波動實現了資源的按需調度使用;高並發釋放2萬核資源池;靈活的彈性大大節約了成本。

  GCS還提供了全自動化測序分析能力,其亮點體現在:

  - GCS提供了生物信息流設計器,再複雜的業務也可以編排到一個流程中,一鍵搞定測序任務;

  - 針對國內生信人設計的流程控制語法,結構簡練、易懂,既滿足了流程編寫的易用性,同時也保證了流程遷移的方便性;

  - 用直觀的流程熱力圖的方式隨時了解測序進展,精確掌握資源消耗走勢,指導優化方向;

  - 可根據判斷條件選擇執行分支,從而滿足企業複雜流程的管理的需要。

  賦能基因行業,華為雲在路上

  除了創新的華為雲GCS服務,針對基因行業的普遍痛點,華為雲打造了完整的基因測序解決方案,該方案基於「標準架構+持續創新」的思路,擁有諸多亮點。


華為雲基因行業解決方案全景圖/來源:華為雲官網

  具體來說:

  在數據收集階段,提供了多通道完成本地-雲和雲-雲間的數據交互,實現OBS最低0.033元/GB/月的低成本、可達4個9可用性、11個9持久性的3AZ特性,提供OBS-Browser、obsutil和SDK等多種配套工具,適配Windows/Linux作業系統,可與本地業務流無縫對接,基於公有雲內網交付一站式傳輸,多級防護,訪問隔離。

  在測序分析階段,公有雲HPC可無縫移植本地IDC架構,提供高性能的計算實例和簡化存儲流程,GCS(基因容器服務)提供一鍵式生信分析平臺,支持普通任務+GPU任務混合調度、支持Spark等加速軟體、支持OBS、SFS、EVS存儲的容器化掛載,流程設計器輕鬆可視化設計複雜流程、提供資源消耗熱力圖和標準流程或自定義流程, 提供秒級彈性伸縮能力、按需按秒計費、支持任務親和性調度,自動釋放閒置資源。

  在數據交付階段,OBS提供了快速交付通道。POSIX功能可將OBS直接掛載至測序分析平臺,平臺可直接寫入分析數據,華為雲內網傳輸,大帶寬讓客戶獲取數據後可直接開展分析,提供多種配套工具,適配Windows/Linux作業系統、工具一鍵式完成子帳戶數據訪問權限配置;上傳下載提供MD5校驗、保證數據的安全可靠。

  專注在底層技術上的持續創新、聯合頂尖企業共同建設整個基因技術生態決心。華為雲持續為基因行業賦能,為推動人類基因的藍圖實現打造了一個又一個鮮活的實踐案例。

  寫在最後:未來已來

  人類對1%的探索徵途才剛剛開始。筆者相信,不遠的未來,解讀基因密碼,人類或許能夠找出生命的出路,讓科技造福人類。華為雲將為基因測序鋪好「上雲」的跑道,助力基因測序行業騰飛。

相關焦點

  • 華大基因牽手華為雲,雲端解密基因奧秘
    「我就是那個統計學上渺小到無關緊要、但沒人可以抹去的1%。」這句出自《Gattaca》的經典臺詞讓無數影迷淚目。《Gattaca》電影海報這部22年前上映的科幻電影,講述了這樣一個故事:不久的未來,科技的力量勝於一切,基因決定著命運,有基因缺陷的主人公追逐夢想的故事。
  • 女性和男性的大腦,有差異嗎?
    在20世紀和21世紀,研究人員還在更小的腦區中尋找女性或男性帶有的明顯特徵。作為一位行為神經生物學家和一位科學作者,我認為這類研究具有誤導性,因為人類的大腦非常多樣而不同。比如我的身高是170釐米,你能從這個數字反推出我的性別嗎?而大腦區域的平均性別差異通常比身高還要小得多。許多特徵的分布曲線具有很大重疊。
  • 專訪七橋基因:雲端計算如何與基因學系統的完美結合?
    我是「七橋基因」公司的董事長,我們是一家雲端計算公司,致力於生物醫學、數據分析;我們專注於國家型合約, 所以,我們兩大客戶國是美國政府和英國政府。我們正在為美國政府建設三個試點之一的雲端,以便存儲和分析世界上最大的癌症基因組數據集。實際上,我們的核心,是一家軟體數據公司。記者:您能不能介紹一下公司的核心技術呢?詹姆斯:當然可以。
  • 在文化差異中尋找理解和共鳴
    活動節目的選擇和活動項目的開展過程中,充分尊重到訪國家的不同文化背景,創新話語表達方式,努力在文化的差異性中尋找情感理解和共鳴,取得了很好的效果,充分發揮了文化「走出去」在價值觀層面上的影響力。文化差異隨處可見。西班牙首都馬德裡人的工作生活方式,和我們就大不相同。
  • 差異基因表達分析(上)
    研究方法定量PCR這部分我不太懂,所以就放幾段百度百科和維基百科的定義。細胞特異性的基因;發育階段特異性的基因;疾病狀態相關的基因;環境相關的基因;…基本方法就是以生物學意義的方式計算基因表達量,然後通過統計學分析表達量尋找具有統計學顯著性差異的基因,從而分析方法尋找差異表達基因有三種方式:第一種是計算
  • 科學家:中國人的基因與非洲人口基因有極大差異
    作者: 伊利亞• 貢恰羅夫 中國交通大學的基因工程師們公布了最大規模的中國人基因庫研究結果。研究結果指出,中國人的基因與非洲人口基因有極大差異,漢族人群的基因可以分為7個亞群。俄羅斯衛星通訊社和廣播電臺採訪了中國人類學家,企圖搞清楚所得數據有何益處。
  • 社會基因組學長文翻譯-該如何面對先天差異和種族問題
    一些消息靈通的觀察家認為,這一新戰略只是在錯誤層面分析複雜現象的歷史上最新的一次努力。引用心理學家 Eric Turkheimer 的話,尋找基因變體來洞察複雜行為和社會結果,就像尋找巖石的化學成份來理解板塊構造。即使是那些對這些分數的最終效用最感興趣的人也清楚地意識到,之前利用分子遺傳學的洞察力所做的努力非常令人失望。
  • 玉米蛇棕櫚基因,你可能不知道的發現和命名故事!
    玉米蛇基因會是一種雜交基因嗎?為什麼表現和棕櫚沒有任何關係卻有著這樣一個基因名稱?誰在進行棕櫚基因的繁育?它背後被發現的基因故事又是什麼?今天,就讓玉米蛇繁育大神,來自#@South Montain Reptiles的主理人Don Soderberg,來給大家介紹一下玉米蛇棕櫚基因被發現的故事。
  • 學習差不怪你!人們一半以上智力差異由基因變異導致
    對於是什麼讓我們聰明或愚蠢,有「先天決定與後天決定」 的爭論,而這些新發現無疑將為這一爭論火上澆油。除了基因,成長環境、營養水平以及胎兒在子宮接觸的化學物質等環境因素也被認為對一個人的智力有顯著影響。英國愛丁堡大學開展的這項新研究,強調了罕見基因變異對智力的影響。
  • 怕你在雲端跌落墜毀那灑滿天際的雨是什麼歌 我是誰歌詞
    怕你在雲端跌落墜毀那灑滿天際的雨是什麼歌 我是誰歌詞  抖音「怕你在雲端跌落墜毀那灑滿天際的雨是尼羅河的眼淚」是什麼歌?不知道的小夥伴們可以來看看小編給大家分享的這首歌曲介紹。  怕你在雲端跌落墜毀那灑滿天際的雨是尼羅河的眼淚什麼歌  歌曲:《我是誰我是誰我是誰》  歌手:李大為 / 王樂汀  《我是誰我是誰我是誰》完整歌詞  詞:李大為/王樂汀  曲:李大為/王樂汀  編曲:王樂汀  混縮:王樂汀  母帶:王樂汀  錄音:王樂汀/李大為
  • 男女的大腦有什麼差異嗎?
    長久以來,研究人員一直試圖將大腦作為研究對象,來尋找男女之間思維和行為存在差異的原因。然而總結過去近百年的研究發現,男性與女性的大腦之間並不存在顯著性差異。進入 20 世紀、21 世紀,科學家仍在不斷通過研究大腦區域,試圖通過分析大腦細分領域的差別,來尋找明顯的男性和女性特徵。然而多年的研究證明,這一研究方向的諸多結論可能並不可靠。大腦有差異,並非只因為性別在大腦中有一個控制生殖生理和行為的小結構 —— 下丘腦。
  • 男人和女人的故事,男女之間的巨大差異到底有哪些呢
    首先,非常感謝大家看我寫的文章,人生的無意中一次相遇,也許就是一種緣分,我會用心地寫一些自己的故事和遇到的生活,自己的一些感悟。正如之前說的「今天你穿得真好看」那句話,男人會覺得你是在誇獎我,女人卻往往因為你的語調,表情等來猜測你是在誇獎我或者嘲笑我。所以男人往往做事的時候容易一心一意廢寢忘食,而女人做事的時候卻更有創造性和豐富的想像力,有時候也會有意想不到的成果。男人主大事,女人重細微。所以有男女搭配,幹活不累,思維的差異性和互補性。
  • 我把生氣分解了,此時,我可能跨了界|世上百分之一的事與你有關
    「我生氣了」「氣得我發抖」「我這很不舒服,就是上次被氣的」「這個人是被氣死的」……生活裡似乎充滿了生氣,人有很多病就是氣出來的。身體不好,精神萎靡,所有的不舒服,在生氣後都會反映在自己身上,痛苦是多倍的。當你生病難受的時候想一想,有生氣的必要嗎?值得生氣嗎?生氣有用嗎?其實有些氣,真的沒必要。
  • 人和人的差異到底是什麼?
    在《見識》這本書中,有一節是講「我們和天才相差有多遠?」為了吸引讀者的注意力,吳軍先生在這一節還專門講了愛因斯坦大腦失竊以及後來偷竊者將愛因斯坦大腦的切片交給全球科學家對進行全面研究的曲折故事,全球科學家全面研究後最後得出的結論是,愛因斯坦的大腦在生理上可能和常人並沒有什麼不同。
  • 差異基因富集分析及作圖
    前面介紹了怎麼分析差異基因,那麼肯定需要對差異基因進行功能富集分析,今天simplify老師來給大家介紹一下怎麼做差異基因富集分析。
  • 差異基因分析方法——p-value
    我們都知道,在利用RNA-seq數據比較分析兩個樣品中同一個基因是否存在差異表達的時候,一般選取兩個標準:1)FoldChangeFoldChange,很容易理解了。就是兩樣品中同一個基因表達水平的變化倍數。
  • 作為一個科學家,我為什麼要死磕香菜和基因的關係?
    中國吃貨和美國吃貨的基因差異 我們知道人群的基因組是有多樣性的,跟植物一樣,不同的人群之間的基因組,有非常大的差異。 所以你說美國人吃香菜的習慣和我們吃香菜的習慣是一碼事嗎? 花1000萬去測試為啥有人愛香菜有人恨香菜?
  • 說說臺前幕後的故事|《我和我的祖國》
    《我的我的祖國》作為新中國成立70周年的獻禮片,其重要程度不言而喻。那段時間走進電影院八成的人都會選擇看《我和我的祖國》。電影題材內容老少皆宜,講述的都是能讓各個年代百姓切身感受到,經歷過的故事。《我的我的祖國》總共分為7個故事片段,分別是:《前夜》(1949年開國大典)《相遇》(1964年第一顆原子彈爆炸)《奪冠》(1984年女排三連冠)《回歸》(1997年香港回歸)
  • 尋找賽鴿導航腦部DNA基因奧秘祖源
    新發表的論文為了研究此一問題,全新定序8個賽鴿品系,加上之前發表過的2個,一共有10個賽鴿基因組,與35個非賽鴿品系相比。可是比較這麼多樣本以後,研究團隊竟然找不到明確的答案?到底是怎麼回事,讓我們來看看。
  • 卡魯扎,克萊恩和他們的第五個維度的故事
    如果你正在安排一場會議,那麼你需要多提供一條信息:會議的時間,比如下午3點。有了四個坐標,你可以描述任何事件。我們不會把時間和空間維度混為一談但如果你仔細想想,任何事件都是在四維的時空中發生的。你可以測量時間上的差異就像你可以測量空間上的差異我們用尺子測量空間上的差異我們用時鐘測量時間上的差異。所以任何你能想到的關於空間的東西你都能想到時間。