Root 李林 編譯整理
量子位 出品 | 公眾號 QbitAI
Google今天推出了一個名叫DeepVariant的開源工具,用深度神經網絡來從DNA測序數據中快速精確識別鹼基變異位點。
學科研究的革命性進展,特別是基因學上,需要依賴於新技術的出現。比如桑格發明了測序法之後,才實現了人類基因組的測序。
再比如DNA(微陣列)晶片技術的誕生,使得大規模的基因測序成為可能。這些技術讓我們能夠獲得大量遺傳信息,可以更廣泛地應用於健康、農業和生態上。
基因測序領域裡,最革命性的技術當屬2000年初首次商用的高通量測序(縮寫為HTS)了。HTS可以大規模、低成本、快速地獲得任何生物的基因序列。
不過,HTS有個致命的問題在於,測序出來的結果不是完整的,而是碎片化的片段信息。
比如測的是人的基因序列的話(也就是說,信息量級為23對染色體上的30億對鹼基排序),那麼得到的測序結果是不到10億個短序列片段,一般每個短序列片段我們稱為讀取單位(reads)。
每個讀取單位含有100個鹼基對(不同讀取單位的信息需要重疊,才能最後拼全),而每個鹼基的錯誤率範圍是0.1%到10%。所以,一直以來,對於HTS來說,最大的挑戰是把碎片化的結果信息拼成一整段完整的序列信息。
瓶中基因組聯盟Genome in a Bottle Consortium(GIAB),和精準FDA平臺(美國藥監局做的基因組信息學社區和共享數據平臺)一樣,致力於提高基於HTS基因測序結果。他們能提供高精度的人體基準基因組序列信息。
把測序結果與基準基因序列一比對,就可以得到很多個鹼基變異位點(就是上圖打星的地方),這些位點,可能是SNP單核苷酸多態性導致的,也可能是測序過程中複製出錯造成的。
今天,Google Brain團隊,聯合同屬於Alphabet旗下的生命科學兄弟公司Verily,用了兩年多時間,研發出了一個名叫DeepVariant的開源工具,專門用深度神經網絡來識別HTS結果中DNA測序數據裡這些鹼基變異位點。這個工具在準確率上和精確度上,比傳統的比對拼接方法都高出一大截。
DeepVariant,把工作量巨大的拼接問題(HTS碎片化的結果拼接成完整的基因序列),轉變成了一個典型的圖像分類問題。而圖像分類正是谷歌擅長的技術。
2016年,DeepVarient還在PrecisionFDA Truth Challenge中贏得了最高SNP性能獎(Highest SNP Performance)。在那之後,Google Brain團隊又將錯誤率降低了50%。
下面的四幅圖,分別代表實際測序的片段和基準序列的比對結果。
△
A:單核苷酸多態性造成的鹼基變異位點;
B:一條染色體上少了一個鹼基;
C:兩條染色體上都少了一個鹼基;
D:複製錯了的鹼基變異位點。
在比對過程中,要回答的一個關鍵的問題是,怎麼判斷比對後得到的鹼基變異位點,是存在於兩條染色體中,還是只在一條裡,還是都沒有。造成鹼基變異位點的原因不只一種,最常見的三種可能是單核苷酸多態性,或多插了一個鹼基,或少複製了一個鹼基。
這些變異位點如果用視覺識別的算法就能快速找出來。大大提高HTS後的比對拼接的效率。
因為瓶中基因組聯盟Genome in a Bottle Consortium(GIAB)提供的人體基準基因組序列信息是高精度可信的,或者更嚴謹地說,是最接近真實序列的信息。
通過這個基準序列得到的複製數據,谷歌團隊可以拿它們來訓練基於Tensor Flow的圖像分類模型,所得到的DeepVariant,最後可以區別真實序列數據和複製數據。
儘管DeepVariant根本不懂什麼是基因組序列,也不懂HTS,但是只用了一年,就已經贏得了PrecisionFDA Truth Challenge中的最高SNP性能獎(Highest SNP Performance)。而且到目前為止,把已有最優異的方法拼接錯誤率降低了50%多。
在發布開原始碼的同時,Google Brain還發布Google Cloud上的DeepVarient工作流,方便開發者用它來處理大型數據集。
最後,附上相關連結:
Google Research Blog介紹:
https://research.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html
開原始碼:
https://github.com/google/deepvariant
Google Cloud版:
https://cloud.google.com/genomics/deepvariant
— 完 —
活動報名
加入社群
量子位AI社群11群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot4入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微信號qbitbot4,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。