谷歌推出開源工具DeepVariant,用深度學習識別基因變異

2020-12-05 量子位

Root 李林 編譯整理

量子位 出品 | 公眾號 QbitAI

Google今天推出了一個名叫DeepVariant的開源工具,用深度神經網絡來從DNA測序數據中快速精確識別鹼基變異位點。

學科研究的革命性進展,特別是基因學上,需要依賴於新技術的出現。比如桑格發明了測序法之後,才實現了人類基因組的測序。

再比如DNA(微陣列)晶片技術的誕生,使得大規模的基因測序成為可能。這些技術讓我們能夠獲得大量遺傳信息,可以更廣泛地應用於健康、農業和生態上。

基因測序領域裡,最革命性的技術當屬2000年初首次商用的高通量測序(縮寫為HTS)了。HTS可以大規模、低成本、快速地獲得任何生物的基因序列。

不過,HTS有個致命的問題在於,測序出來的結果不是完整的,而是碎片化的片段信息。

比如測的是人的基因序列的話(也就是說,信息量級為23對染色體上的30億對鹼基排序),那麼得到的測序結果是不到10億個短序列片段,一般每個短序列片段我們稱為讀取單位(reads)。

每個讀取單位含有100個鹼基對(不同讀取單位的信息需要重疊,才能最後拼全),而每個鹼基的錯誤率範圍是0.1%到10%。所以,一直以來,對於HTS來說,最大的挑戰是把碎片化的結果信息拼成一整段完整的序列信息。

瓶中基因組聯盟Genome in a Bottle Consortium(GIAB),和精準FDA平臺(美國藥監局做的基因組信息學社區和共享數據平臺)一樣,致力於提高基於HTS基因測序結果。他們能提供高精度的人體基準基因組序列信息。

把測序結果與基準基因序列一比對,就可以得到很多個鹼基變異位點(就是上圖打星的地方),這些位點,可能是SNP單核苷酸多態性導致的,也可能是測序過程中複製出錯造成的。

今天,Google Brain團隊,聯合同屬於Alphabet旗下的生命科學兄弟公司Verily,用了兩年多時間,研發出了一個名叫DeepVariant的開源工具,專門用深度神經網絡來識別HTS結果中DNA測序數據裡這些鹼基變異位點。這個工具在準確率上和精確度上,比傳統的比對拼接方法都高出一大截。

DeepVariant,把工作量巨大的拼接問題(HTS碎片化的結果拼接成完整的基因序列),轉變成了一個典型的圖像分類問題。而圖像分類正是谷歌擅長的技術。

2016年,DeepVarient還在PrecisionFDA Truth Challenge中贏得了最高SNP性能獎(Highest SNP Performance)。在那之後,Google Brain團隊又將錯誤率降低了50%。

下面的四幅圖,分別代表實際測序的片段和基準序列的比對結果。

A:單核苷酸多態性造成的鹼基變異位點;

B:一條染色體上少了一個鹼基;

C:兩條染色體上都少了一個鹼基;

D:複製錯了的鹼基變異位點。

在比對過程中,要回答的一個關鍵的問題是,怎麼判斷比對後得到的鹼基變異位點,是存在於兩條染色體中,還是只在一條裡,還是都沒有。造成鹼基變異位點的原因不只一種,最常見的三種可能是單核苷酸多態性,或多插了一個鹼基,或少複製了一個鹼基。

這些變異位點如果用視覺識別的算法就能快速找出來。大大提高HTS後的比對拼接的效率。

因為瓶中基因組聯盟Genome in a Bottle Consortium(GIAB)提供的人體基準基因組序列信息是高精度可信的,或者更嚴謹地說,是最接近真實序列的信息。

通過這個基準序列得到的複製數據,谷歌團隊可以拿它們來訓練基於Tensor Flow的圖像分類模型,所得到的DeepVariant,最後可以區別真實序列數據和複製數據。

儘管DeepVariant根本不懂什麼是基因組序列,也不懂HTS,但是只用了一年,就已經贏得了PrecisionFDA Truth Challenge中的最高SNP性能獎(Highest SNP Performance)。而且到目前為止,把已有最優異的方法拼接錯誤率降低了50%多。

在發布開原始碼的同時,Google Brain還發布Google Cloud上的DeepVarient工作流,方便開發者用它來處理大型數據集。

最後,附上相關連結:

Google Research Blog介紹:

https://research.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html

開原始碼:

https://github.com/google/deepvariant

Google Cloud版:

https://cloud.google.com/genomics/deepvariant

— 完 —

活動報名

加入社群

量子位AI社群11群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot4入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot4,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

相關焦點

  • 當AI遇到生物-深度學習在生物研究中的應用案例列表
    由於這個領域的進步很快,深度學習助力基因科技這篇一年前寫的文章,現在看來已有些過時。本篇文章列出了部分現有的應用深度學習技術處理醫學和生物學問題的工具,從這個列表中,可以看出當前深度學習在該領域的挑戰和局限,也可以全面的了解深度學習在計算生物學,醫學影像及生物信息等學科所具有的廣泛應用場景。深度學習+生物的論文發表數量
  • 從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...
    另外,雷鋒網 AI 研習社在原文的基礎上補充了部分開源項目,為 AI 開發者提供更加詳細的 AI 項目和資源。機器學習是用數據來學習、概括、預測的研究。近幾年,隨著數據的開發、算法的改進以及硬體計算能力的提升,機器學習技術得以快速發展,不斷延伸至新的領域。從
  • Deep Genomics:融資1670萬美元,它將深度學習帶到基因組學
    基因組學正在探索DNA變異如何影響特定疾病,使用機器深度學習對DNA和細胞中關鍵分子的關係進行建模,從而讓基因組學的研究更有效。在用深度學習研究基因組學的時代,Deep Genomics推開了第一扇窗。
  • 谷歌大數據工具衍生新開源平臺Drill
    首頁 > 外聞 > 關鍵詞 > 衍生最新資訊 > 正文 谷歌大數據工具衍生新開源平臺Drill
  • 谷歌推出首款基於機器學習的古埃及象形文字翻譯工具Fabricius
    來源:TechWeb.com.cn【TechWeb】7月15日消息,今天,谷歌藝術與文化今天推出了全球首個基於機器學習的埃及象形文字的數字翻譯工具Fabricius。不管是普通人還是學者都能利用這個工具體驗象形文字,或者助力學術 研究。
  • 橫評:五款免費開源的語音識別工具
    為此,我們對比了五款基於 HMM 和 N-gram 模型的語音識別工具:CMU Sphinx,Kaldi,HTK,Julius 和 ISIP。它們都是開源世界的頂級項目,與 Dragon 和 Cortana 等商業語音識別工具不同,這些開源、免費的工具可以為開發者提供更大的自由度以及更低的開發成本,因此在開發圈始終保持著強大的生命力。
  • OpenCV+深度學習預訓練模型,簡單搞定圖像識別 | 教程
    李林 編譯自 pyimagesearch作者 Adrian Rosebrock量子位 報導 | 公眾號 QbitAIOpenCV是一個2000年發布的開源計算機視覺庫,有進行物體識別、圖像分割、人臉識別、動作識別等多種功能,可以在Linux、Windows、
  • 通過對比深度學習各大框架的優缺點尋找最優
    開源的深度學習神經網絡正步入成熟,而現在有許多框架具備為個性化方案提供先進的機器學習和人工智慧的能力。那麼如何決定哪個開源框架最適合你呢?本文試圖通過對比深度學習各大框架的優缺點,從而為各位讀者提供一個參考。你最看好哪個深度學習框架呢?
  • 15 個開源的頂級人工智慧工具
    Artificial intelligence,AI是科技研究中最熱門的方向之一。考慮到人們對此感興趣的程度,我們將不會驚訝於斯坦福的專家在人工智慧報告中得出的結論:「越來越強大的人工智慧應用,可能會對我們的社會和經濟產生深遠的積極影響,這將出現在從現在到 2030 年的時間段裡。」在最近的一篇文章中,我們概述了 45 個十分有趣或有前途的人工智慧項目。在本文中,我們將聚焦於開源的人工智慧工具,詳細的了解下最著名的 15 個開源人工智慧項目。
  • Facebook開源物體識別工具Detectron,加速計算機視覺研究
    它是用Python編寫的,支持Caffe2深度學習框架。就在2天前,紐約大學教授Yann LeCun剛剛宣布卸任Facebook人工智慧實驗室(FAIR)主任,並擔任AI首席科學家。近日,Facebook的人工智慧實驗室(FAIR)開源了計算機視覺研究平臺Detectron。Detectron系統實現了最先進的物體檢測算法,包括Mask R-CNN。 它是用Python編寫的,支持Caffe2深度學習框架。
  • 不只是AlphaGo,谷歌DeepMind到底是何方神聖?
    谷歌DeepMind的歷史DeepMind最初由丹米斯·哈撒比斯(Demis Hassabis)、穆斯塔法·蘇萊曼(MustafaSuleyman)和謝恩·列格(ShaneLegg)創立,他們都是人工智慧愛好者,有些人認為他們是深度學習的先驅。DeepMind科技於2010年在倫敦成立,四年後被谷歌收購了,其所有權在2015年也發生了變化。
  • 谷歌地圖重大升級 用深度學習實時更新街景
    雷鋒網了解到,在「從街景圖像中提取基於注意機制的結構化信息」(Attention-based Extraction of Structured Information from Street View Imagery)一文中,谷歌描述了所採用的方法——怎樣在街景視圖中使用深度神經網絡自動且準確無誤地讀出街道名稱。
  • NeuralNLP-NeuralClassifier:騰訊開源深度學習文本分類工具
    NeuralNLP是騰訊廣告(Tencent Marketing Solution,TMS)(https://e.qq.com/)數據算法團隊搭建的一個基於PyTorch的深度學習NLP公共實驗平臺,主要涵蓋文本分類、序列標註、語義匹配、BERT微調和文本生成等,目前已經廣泛應用於騰訊廣告業務文本相關的需求場景中,如廣告定向、相關性計算、LookAlike、動態創意、點擊率/轉化率預估等
  • 一種免費的開源可視化工具 可以對同源基因進行深入比較
    一種免費的開源可視化工具 可以對同源基因進行深入比較 2018-10-26 14:39:13 來源:sciencedaily Aequatus是Earlham Institute(EI)開發的一種新型生物信息學工具,它有助於深入了解不同物種之間的同線信息
  • 谷歌推出全球首款古埃及象形文翻譯工具Fabricius
    美股研究社7月16日消息,據TechWeb報導,昨日谷歌藝術與文化推出了全球首個基於機器學習的埃及象形文字的數字翻譯工具Fabricius。不管是普通人還是學者都能利用這個工具體驗象形文字。據谷歌介紹稱,Fabricius中包含了首個基於機器學習解碼埃及象形文字的開源數字工具,以此更好的支持和推動古代語言研究領域的發展。具體來說,Fabricius使用谷歌雲的AutoML Vision技術創建了一個機器學習模型,使其能夠理解什麼是象形文字。
  • Facebook 開源 3D 深度學習函數庫 PyTorch3D
    原標題:Facebook開源3D深度學習函數庫PyTorch3D來源:開源中國Facebook近日開源了將PyTorch用於3D深度學習的函數庫PyTorch3D,這是一個高度模塊化且經過優化的庫,具備獨有的功能,旨在通過PyTorch簡化3D深度學習。
  • AI 從業者該如何選擇深度學習開源框架丨雷鋒網公開課
    正如程序語言一樣,深度學習開源框架同樣各有優劣和適用的場景,那麼 AI 從業者該如何有針對性地選擇這些平臺來玩轉深度學習?本期公開課特邀了先後在谷歌、亞馬遜、微軟供職的機器學習科學家彭河森博士為大家講述《MXNet火了,AI從業者該如何選擇深度學習開源框架》。彭河森博士親眼見證並深入參與了這三家巨頭布局深度學習的過程。嘉賓介紹彭河森,埃默裡大學統計學博士。
  • 基於DeepSpeech2實現中文語音識別,實施全流程講解,拿來即用
    你是否在苦苦尋找能識別中文的語音識別模型?那認真看完本文,你也能實現,本文可能為您節省少則幾小時多則數天的工作時間。DeepSpeech2由百度矽谷AI實驗室在2015年發布,是一個採用PaddlePaddle深度學習框架實現的端到端自動語音識別系統,它能通過簡單學習算法較準確的識別英語和中文。
  • 深度學習框架比較,我該選擇哪一個?
    近年來,深度學習在很多機器學習領域都有著非常出色的表現,在圖像識別、語音識別、自然語言處理、機器人、網絡廣告投放、醫學自動診斷和金融等領域有著廣泛應用。面對繁多的應用場景,深度學習框架有助於建模者節省大量而繁瑣的外圍工作,更聚焦業務場景和模型設計本身。
  • 谷歌《Cell》論文:光學顯微鏡+深度學習=螢光顯微鏡
    螢光顯微技術中會用螢光分子染色需要觀察的目標(比如細胞核),這種做法能簡化分析過程,但其仍需要複雜的樣品製備。隨著包括圖像質量自動評估算法和協助病理醫師診斷癌組織在內的機器學習技術在顯微鏡領域的應用越來越廣泛,谷歌因此考慮是否可以結合透射光顯微鏡和螢光顯微鏡這兩種顯微鏡技術來開發一種深度學習系統,從而最大限度降低兩者的不足之處。