我行我show!中國醫院管理案例評選,醫院卓越管理實踐大秀場。
點擊查看整理丨張楠
近日,2017中國精準醫療產業領袖峰會暨第七屆Bio4P中國醫健創新創業大會在杭州舉行。24日上午,在精準測序和健康管理分論壇上,深圳雲蜂生物的創始人李奇斌博士作了題為《臨床級的基因數據分析和解讀》的精彩報告。
我們2015年底創立了雲蜂生物做臨床級的基因數據分析。首先簡單回顧一下外顯子測序在臨床應用發展的過程。2007年NimbleGen的科學家開發了基於晶片雜交技術的外顯子測序技術。2009年華盛頓大學的幾個科學家發表了第一篇將外顯子成功應用到遺傳病研究的科學論文——他們應用外顯子測序技術成功檢測到弗裡曼-謝爾登症候群(FSS)的致病基因和突變。2011年華盛頓大學的EEE研究組通過對20個trio進行外顯子測序,發現de novo突變是患自閉症的重要原因,有1/5的自閉症病人由de novo突變引起的。2013年貝勒醫學院在新英格蘭醫學雜誌上發表了外顯子測序應用到250個病人的臨床診斷結果,對25%的病人做了明確的分子診斷。到2014年他們又發表了2000例病人外顯子測序的結果。隨著測序的樣本越來越多,資料庫不斷更新,現在大約30%的遺傳病病人應用外顯子測序能做出準確的分子診斷。
隨著科學家逐步把外顯子測序應用到臨床,2015年美國醫學遺傳學與基因組學學會發布了變異解讀的標準《ACMG指南》,指導大家如何把外顯子測序應用在臨床上診斷遺傳病。2016年國內成立了CHPO,全稱是中國人類表型標準用語聯盟。測序這個工作本身比較簡單,現在國內有兩三百家測序公司;但是如何用測序數據回答臨床問題,解釋病人為什麼得各種遺傳病,為什麼得自閉症、ALS等,還需要對表型做準確的描述,這樣才能和基因做關聯。我們病人去醫院看病的時候,不同醫生對病人的表型描述是不同的。CHPO的成立,很好的促進了基因測序在臨床的應用。2017年,中國人類遺傳學會遺傳諮詢分會將ACMG指南翻譯成了中文,用來指導在中國該怎樣將外顯子測序應用到臨床上。
前面講了測序本身比較簡單,但測序數據的分析和解讀是非常複雜的一個流程。全外顯子測序的分析解讀流程,計算過程(包含數據預處理、基因組比對、變異檢測和注釋等步驟)通常需要在高性能伺服器上運行五六個小時,變異的解讀的過程是由人工完成。通過計算機分析我們通常可以篩選出十多個或者幾十個候選變異,但到底是哪一個突變真的能導致疾病呢?電腦程式不能完全確定,需要有經驗的遺傳諮詢師針對每個基因查找大量的資料庫和文獻,判斷病人的表型是否能和基因關聯起來。接下來找到候選變異用Sanger測序做家系驗證,然後手工撰寫報告,解讀過程通常花費幾天或者幾周,整個周期通常是三個月左右。整個過程對分析和解讀人員的要求高、分析流程長、速度慢,而且陽性率偏低;各個實驗室之間的一致性也很低,最近的一年文章報導不同實驗室的異質性在20%~70%。兩家公司報導的致病基因和突變不一樣,至少有一家是錯的。醫生也會擔心,不知道是否應該做這個事情。
我們創業的時候定了目標,一定要把數據分析和解讀這件事情在一天以內完成,做到標準化並保證準確,於是我們開發了一套自動化分析系統。現在測序越來越便宜,外顯子測序明年可能可以做到一千元左右。我記得2009年做了大型科研項目,測了2000個糖尿病病人的外顯子,花了四五千萬經費;現在價格已經降了10倍以上,帶來的好處是大量的遺傳病人有機會得到明確的分子診斷。我國新生兒出生缺陷的發生率是5.6%,絕大多數是由基因缺陷造成的,其中只有小部分的人群能在臨床上得到基因水平的確診。所以遺傳病的基因檢測,從市場空間來講潛力很大。測序後可以在我們的系統上做分析解讀,最後出分析報告。
現在系統可以分析幾個主要的外顯子的測序類型,包括Agilent、Nimblgen和艾吉泰康的全外顯子。在用戶界面輸入病人的表型,病人的候選疾病,經過五六個小時的分析就可以得到分析結果。明年我們要把分析時間壓縮到兩個小時之內,早上做完外顯子測序下午就可以出報告。隨著測序時間的進一步壓縮,原來兩三個月的工作很可能壓縮到兩三天內完成。
分析系統重點介紹幾個方面:首先是我們開發了變異過濾的程序,將假的變異儘可能多的過濾掉,真的變異儘可能少的過濾掉——過濾太多真實的變異很可能會丟掉真的致病變異;第二,我們自己開發了變異注釋系統,整合了十多個資料庫,一個變異有五十多項注釋;第三,為了提高檢出率,我們自己建了一個致病突變資料庫,整合了多個公共資料庫的信息,並且對可能錯誤的致病突變進行校對,目前我們已經校對了兩千多個,明年我們還要開展更大規模的校對。最核心的是,我們自己開發了一套算法來快速的鎖定causative 變異。開發這個算法是因為依靠簡單的過濾不能快速確定患者致病基因。舉例來說,通常測序一個人的外顯子能找到差不多四五萬個變異,過濾掉有問題的變異,再過濾內含子和同義變異,再按照頻率、功能有害性、隱性遺傳模型過濾,最後得到差不多十多個基因。如何從這些候選基因中確定患者的致病基因?我們建了一套統計學習的框架,首先是根據臨床表型,得到病人候選的疾病列表,計算每一個疾病的可能性;得到疾病列表後,就知道哪些基因和這些疾病有關,列出候選基因;再藉助已知基因相互作用資料庫得到潛在致病基因。綜合所有這些信息就可以在我們的模型中計算出一個基因是患病致病基因的可能性,並按大小從高到低排序。
舉一個案例,有一個流產男胎,表型是腦積水以及胼胝體缺失。通過我們系統分析發現這個X染色體L1CAM基因上有一個突變,排在第一位。經過查詢OMIM資料庫我們得知L1CAM會導致腦積水、MASA/CRASH症候群和科爾普斯部分胼胝體發育不全等疾病,L1CAM突變的典型症狀是腦積水,部分病人有胼胝體發育不全等症狀,和病人的表型完全相符。
我們保證用戶數據的高度安全。用戶通過加密算法上傳數據,系統上的數據也有嚴格的權限控制,只有用戶自己或者授權用戶才能查看自己的數據。數據有三個備份,本地兩份,雲端一份,不用擔心數據丟失。我們承諾免費存放數據三年,用戶隨時可以通過帳號訪問。
除此之外,我們開發了一個資料庫Pubvar,包含目前公開發表的所有人類遺傳變異,是目前世界上最全的一個人類遺傳變異資料庫。現在有3.4億個變異,將在12月底上線,到時會免費給所有科研和企業用戶使用。目前我們和國內外的很多醫院和企業達成了合作,包括宣武醫院、湘雅醫院、艾吉泰康等。希望未來與更多的醫院和企業合作,把我國的遺傳病基因檢測做的更快更好。
參考文獻:
1.Albert T J, Molla M N, Muzny D M, et al. Direct selectionof human genomic loci by microarray hybridization. Nature Methods, 2007,4(11):903.
2.Ng S B, Turner E H, Robertson P D, et al. Targetedcapture and massively parallel sequencing of 12 human exomes. Nature, 2009,461(7261):272-6.
3.O'Roak B J, Deriziotis P, Lee C, et al. Exome sequencingin sporadic autism spectrum disorders identifies severe de novo mutations.Nature Genetics, 2011, 43(6):585-9.
4.Yang Y, Muzny D M, Xia F, et al. Molecular Findings AmongPatients Referred for Clinical Whole-Exome Sequencing. Jama, 2014,312(18):1870-9.
5.Yang Y, Muzny D M, Reid J G, et al. Clinical whole-exomesequencing for the diagnosis of mendelian disorders. New England Journal ofMedicine, 2013, 369(16):1502-1511.