即使你不從事生命科學相關工作,也會聽說過「人類基因組計劃」。從1990年到2003年,這個項目聯合6個國家,20個機構,歷時13年,最終圓滿完成。
然而,相比於同樣在20世紀的原子彈計劃、登月計劃,人類基因組計劃的成果似乎看不見、摸不著,很難說對於我們的日常生活有什麼直接影響。
也治不了媽媽的胃潰瘍。
但另一方面,如今流行的生命科學相關話題,基因編輯、精準醫療、遺傳診斷等等,全都離不開這一具有劃時代意義的項目。人類基因組計劃究竟做了什麼事?時間和經費都花在了哪裡?
隨著50年代DNA雙螺旋結構的解析,遺傳學的研究也逐漸進入分子層面。DNA由磷酸-脫氧核糖骨架和4種鹼基形成的配對組成。大多數的遺傳信息都蘊含在DNA內4種鹼基的排列順序當中。有些DNA序列對應著基因,能夠影響蛋白質產生,決定生物的性狀。
DNA的結構和四種鹼基。
於是,科學家們激動地開始各自展開課題,結果今天我克隆了一個基因,明天你又測序了一個基因,後天他又又發現了一個基因。長此以往,文章倒是可以一直水下去了,對於人類基因組究竟有怎樣的構成,一共有多少基因,卻還是缺乏整體的認識。因此,學者們提議集中力量辦大事,合作對整個人類基因組序列進行研究。
1990年,由美國主導的人類基因組計劃正式啟動,預計投入30億美元,用15年時間完成人類基因組測序。英、日、法、德、中也陸續加入。國家人類基因組研究中心的第一任主任正是DNA雙螺旋結構的提出者之一James Watson。1993年Francis Collins接任該職。
事實上,人類基因組計劃是為了構建人類的「參考基因組」,它不代表任何一個個體的基因組,所使用的樣本也是來自於多名捐獻者的混合樣本。在兩個沒有血緣關係的人之間,基因組的相似度也有將近99.9%。而「參考基因組」序列正代表了這99.9%的人類共性。
即使0.1%的差異也對應著6百萬處位點不同,足以產生大量性狀分辨你我他。畢竟人和黑猩猩基因組也有96%相似。
另外,人是兩倍體的生物。一個正常人的染色體數量是46條,女性為22對常染色體和1對X染色體,男性為22對常染色體和1條X一條Y染色體。之所以稱為「對」,是因為編號相同的兩條同源染色體之間是也是極為相似的。所以,人類基因組計劃測定22條常染色體加上X和Y染色體。這樣24條染色體DNA大約包含31億個鹼基對,就是人類基因組測序的工作量了。
可以說,人類基因組計劃做的都是奠基性質的工作。如今風靡的個體基因組測序則以某個人全部46條染色體60億鹼基對為目標,以尋找突變位點,推測遺傳病風險。這與當年的人類基因組計劃的目的已大為不同。
(廣告位招租)個人基因組測序報告
90年代的DNA測序是基於Sanger測序法,即所謂的第一代測序技術。總體而言,這種方法準確度很高,讀長也還行。但它的硬傷在於,通量實在太低,一次只能測幾十個序列。對於人類基因組計劃這樣的測序量,當時的技術勢必導致花費大量的時間和金錢在測序上。
現常用的一代測序儀Thermo Fisher Scientific 3730,能同時測96個序列。
現常用的二代測序儀Illumina Hiseq 2500,能同時測300M~4B序列。在通量比較上跟前者完全不在一個段位。
但好消息是,參與計劃的一些機構已配置了自動化程度很高的樣品準備和測序流水線,省了不少搬磚工,大大提升了測序效率。
當時麻省理工的自動化流水線
不過,人類基因組計劃的挑戰並不在於測序,而在於組裝。
由於讀長的限制,無論多長的DNA片段,都只能測得它兩頭各約500bp的序列,所以染色體DNA必須切斷成大量短序列。如何將這些短序列還原成整條染色體DNA的序列,是一個巨大的難題。
更重要的是,這是對人類基因組無參考的「從頭」組裝。就好比你有一堆凌亂的拼圖,但不知道它們能拼成什麼。於是,你只能拿著其中一塊,在茫茫拼圖海中尋找和它契合的另幾塊,從局部開始逐漸擴張。而從第二次起,你就能對著第一次的成品圖比較出某一塊的大致位置,拼裝也就容易得多。
組裝基因組的關鍵也在尋找短片段之間的契合關係。把短片段DNA序列進行比對,如果一個序列的結尾和另一個序列的開頭重疊,它們就有可能是連續的,可以拼接在一起。這種方法被稱為鳥槍法或霰彈槍法,因為首先目標長片段DNA的不同拷貝要被隨機打斷在不同位置,才有足夠多重疊的短片段,像是霰彈槍形成的隨機彈痕。
這招學會了不虧,「盲人摸象」也OK。
當時科學家對於長度在Kb級別的噬菌體基因組和Mb級別的細菌基因組構建已有些實驗和算法經驗,可是3.1Gb的人類基因組還是過大了。所以,Collins為代表的研究者就設法把一個不好解決的大基因組構建問題,分割成很多個容易解決的小基因組構建問題:先把基因組隨機切成150Kb左右的大片段,克隆到細菌人工染色體(BAC)擴增,並對它們進行排序;再對一個一個BAC進行鳥槍法測序和組裝。這被稱為分級鳥槍法,相當於在150Kb水平上組裝了一次,在500bp水平上又組裝一次。
類似在拼圖背後標上字母,把每個區域拼好,再把各區域連起來。
現在尚未解決的問題變為了如何對150Kb的片段進行排序。推斷兩個大片段之間存在重疊的方法有不少,例如:1.它們可以用切割特異位點的限制酶切出若干相同大小的片段;2.它們都能夠用螢光原位雜交(FISH)等方法識別到某些已知的特異序列。各種方法結合在一起,相當於在基因組上做了打上很多的「標記」,再從BAC文庫中尋找有相同特定「標記」的序列,加上兩端測序結果,來還原它們的順序。
分級鳥槍法
這項工作涉及到大量的實驗,極為繁瑣。人類基因組計劃耗費了很多的時間來選擇能夠較好覆蓋全基因組的一系列BAC。之後這些片段就能分配到世界各機構單獨完成測序。其中中國承擔了3號染色體短臂上約30Mb的測序工作,在1999年用了半年多的時間完成。
可以說,學術界的這種選擇是麻煩但穩妥的,畢竟拿著國家的錢,若貿然將3.1Gb的全基因組打斷測序最後卻難以組裝,沒有辦法交差。
對於像這樣重複序列的位置,全基因組組裝也更難保證正確性。
偏有人不信這個邪。這人就是Craig Venter。他的團隊覺得人類基因組計劃採用的策略太慢,無法在原定的2005年實現目標。1998年,Venter成立公司Celera Genomics,投入3億美金,也開始了人類基因組的測序。他們用「全基因組鳥槍法」,不再構建BAC文庫,而是將全基因組打斷成2Kb,10Kb和50Kb的片段,根據長度和兩端序列直接組裝。
全基因組鳥槍法
事實也證明了Venter的魄力和能力。單從結果上而言,兩個團隊最終都成功構建了人類基因組參考序列的草圖。雖然說人類基因組計劃也包含了其他模式生物的基因組測序,但Venter畢竟只用了不到3年和1/10的成本,似乎打臉了「國家隊」的豪華陣容。
當然,和國家撥款的人類基因組計劃不同,私人投資的Celera不純粹是為了科學發展,而是想搶先申請專利,畢竟日後會有大量的數據使用者。然而2000年3月,美國總統Bill Clinton和英國首相Tony Blair聯合聲明,基因組信息須免費公開。Celera的股票直接從$189跌至$149。
同年6月,Clinton在白宮宣布,人類基因組研究中心和Celera公司都各自完成了人類基因組草圖,這場競爭就這樣被「官宣」打平了。
投資變公益,臉上笑嘻嘻。
2001年2月,人類基因組計劃合作組和Celera分別在Nature和Science雜誌上發表文章,描述了人類基因組草圖構建結果。但故事到這裡還沒有結束。2002年3月,參與人類基因組計劃的三位大佬在PNAS上發文,稱Celera的結果既不是可以拿來驗證人類基因組計劃的獨立組裝,也不能證明全基因組鳥槍法管用。因為,Celera使用了中途公開的人類基因組計劃測序和組裝結果。他們認為,Celera用這部分數據,其實間接利用了人類基因組計劃中組裝的BAC順序,然後在其中填上他們自己的測序結果。這豈不是抄了作業裡的關鍵步驟只改了些細節?
隨即,Venter團隊回應,強調他們只是拿這些數據用計算機生成偽序列,相當於重新打斷成小片段,和真測序序列一起輸入程序,來增加數據量。之前的組裝已經被破壞,對結果影響不大。
傳說中的神仙打架嗎?
2003年,之前三位再次發文,更詳細地證明這對組裝結果有較大的影響。但無論如何,正如這篇文章結尾說的那樣,Celera基因組的故事已完結,而人類基因組計劃的基因組圖譜仍在不斷完善。
2003年,人類基因組計劃提前完成。基因組完成圖填上了大多數草圖裡的間隙。但這場大型「拼圖」遊戲仍在繼續。時至今日,人類基因組參考序列經歷4次主要更新,現常用的是2009年(GRCh37)和2013年(GRCh38)發布的版本。基因組的注釋也日趨完善。現在的研究者可以打開基因組瀏覽器,輕易地查看基因的結構、位置、序列,幫助設計實驗。
UCSC基因組瀏覽器
人類基因組計劃開創了無數的研究方向。比如,人和其他的模式生物之間有很多序列極為相似的同源基因,物種進化關係得到進一步詮釋。2萬多個蛋白質編碼基因的鑑定使高通量篩選藥物靶點成為可能。人類基因組計劃還發現絕大多數的序列似乎不存在基因,使得人們好奇這些「垃圾」DNA究竟有什麼作用。有些認為它們幫助維持染色體的結構,於是促進了3D基因組的研究。在改進測序序列比對和基因組組裝、注釋算法過程中,生物信息學也不斷發展。而千人基因組計劃等後續項目,收集了大量個體基因組測序結果,來研究人與人之間的差異,包括某些遺傳性狀和突變位點之間的關聯。
在短短20年間,生命科學得到前所未有的迅速發展。從這個角度而言,21世紀無疑是生命科學的世紀。
可未必是生物專業者飛黃騰達的世紀。
也許有一天,我們可以根據胎兒基因組測序結果分析其自閉症風險,可以按照癌症細胞基因組的突變個性化設計藥物,可以改造體細胞基因組治癒嚴重遺傳病。其實這些方面的研究都已有些成果,但它們的應用和普及還有多遠,誰也無法預料。人類基因組計劃與這些的關係,相當於半導體與智慧型手機,牛頓定律與航天飛船。生命科學的大廈尚未建成,人類基因組計劃卻是整個領域的基石。
參考資料:
https://www.genome.gov/human-genome-project/Timeline-of-Events
https://en.wikipedia.org/wiki/Human_Genome_Project
https://genome.ucsc.edu/
https://www.cnn.com/ALLPOLITICS/time/2000/06/26/race.html
https://www.ncbi.nlm.nih.gov/books/NBK20363/
Pray, Leslie. &34; Nature Education 1.1 (2008).
Lander, Eric S., et al. &34; (2001).
Venter, J. Craig, et al. &34; science 291.5507 (2001): 1304-1351.
International Human Genome Sequencing Consortium. &34; Nature 431.7011 (2004): 931.
Waterston, Robert H., Eric S. Lander, and John E. Sulston. &34; Proceedings of the National Academy of Sciences 99.6 (2002): 3712-3716.
Myers, Eugene W., et al. &34; Proceedings of the National Academy of Sciences 99.7 (2002): 4145-4146.
Waterston, Robert H., Eric S. Lander, and John E. Sulston. &34; Proceedings of the National Academy of Sciences 100.6 (2003): 3022-3024.
其他圖源:
https://www.zhihu.com/question/55298047
https://www.thermofisher.com/
https://www.illumina.com/
https://www.23andme.com/
https://www.theguardian.com/science/gallery/2010/jun/23/human-genome-project
https://med.stanford.edu/news/all-news/2015/09/scientists-home-in-on-origin-of-human-chimpanzee-facial.html
https://www.amazon.com/gp/product/B07P9X1HQH/
https://www.zazzle.com/shibe_doge_fun_and_funny_meme_adorable_jigsaw_puzzle-116944506834522855