曾經有個30億的大型「拼圖」項目

2020-09-05 解毒生物月桂子

即使你不從事生命科學相關工作,也會聽說過「人類基因組計劃」。從1990年到2003年,這個項目聯合6個國家,20個機構,歷時13年,最終圓滿完成。

然而,相比於同樣在20世紀的原子彈計劃、登月計劃,人類基因組計劃的成果似乎看不見、摸不著,很難說對於我們的日常生活有什麼直接影響。


也治不了媽媽的胃潰瘍。

但另一方面,如今流行的生命科學相關話題,基因編輯、精準醫療、遺傳診斷等等,全都離不開這一具有劃時代意義的項目。人類基因組計劃究竟做了什麼事?時間和經費都花在了哪裡?

世界齊聯手,遺傳圖譜繪

隨著50年代DNA雙螺旋結構的解析,遺傳學的研究也逐漸進入分子層面。DNA由磷酸-脫氧核糖骨架和4種鹼基形成的配對組成。大多數的遺傳信息都蘊含在DNA內4種鹼基的排列順序當中。有些DNA序列對應著基因,能夠影響蛋白質產生,決定生物的性狀。

DNA的結構和四種鹼基。

於是,科學家們激動地開始各自展開課題,結果今天我克隆了一個基因,明天你又測序了一個基因,後天他又又發現了一個基因。長此以往,文章倒是可以一直水下去了,對於人類基因組究竟有怎樣的構成,一共有多少基因,卻還是缺乏整體的認識。因此,學者們提議集中力量辦大事,合作對整個人類基因組序列進行研究。

1990年,由美國主導的人類基因組計劃正式啟動,預計投入30億美元,用15年時間完成人類基因組測序。英、日、法、德、中也陸續加入。國家人類基因組研究中心的第一任主任正是DNA雙螺旋結構的提出者之一James Watson。1993年Francis Collins接任該職。

三十億鹼基,一美金一對

事實上,人類基因組計劃是為了構建人類的「參考基因組」,它不代表任何一個個體的基因組,所使用的樣本也是來自於多名捐獻者的混合樣本。在兩個沒有血緣關係的人之間,基因組的相似度也有將近99.9%。而「參考基因組」序列正代表了這99.9%的人類共性。

即使0.1%的差異也對應著6百萬處位點不同,足以產生大量性狀分辨你我他。畢竟人和黑猩猩基因組也有96%相似。

另外,人是兩倍體的生物。一個正常人的染色體數量是46條,女性為22對常染色體和1對X染色體,男性為22對常染色體和1條X一條Y染色體。之所以稱為「對」,是因為編號相同的兩條同源染色體之間是也是極為相似的。所以,人類基因組計劃測定22條常染色體加上X和Y染色體。這樣24條染色體DNA大約包含31億個鹼基對,就是人類基因組測序的工作量了。

可以說,人類基因組計劃做的都是奠基性質的工作。如今風靡的個體基因組測序則以某個人全部46條染色體60億鹼基對為目標,以尋找突變位點,推測遺傳病風險。這與當年的人類基因組計劃的目的已大為不同。

(廣告位招租)個人基因組測序報告

測序不容易,組裝更煩碎

90年代的DNA測序是基於Sanger測序法,即所謂的第一代測序技術。總體而言,這種方法準確度很高,讀長也還行。但它的硬傷在於,通量實在太低,一次只能測幾十個序列。對於人類基因組計劃這樣的測序量,當時的技術勢必導致花費大量的時間和金錢在測序上。

現常用的一代測序儀Thermo Fisher Scientific 3730,能同時測96個序列。

現常用的二代測序儀Illumina Hiseq 2500,能同時測300M~4B序列。在通量比較上跟前者完全不在一個段位。

但好消息是,參與計劃的一些機構已配置了自動化程度很高的樣品準備和測序流水線,省了不少搬磚工,大大提升了測序效率。

當時麻省理工的自動化流水線

不過,人類基因組計劃的挑戰並不在於測序,而在於組裝。

由於讀長的限制,無論多長的DNA片段,都只能測得它兩頭各約500bp的序列,所以染色體DNA必須切斷成大量短序列。如何將這些短序列還原成整條染色體DNA的序列,是一個巨大的難題。

更重要的是,這是對人類基因組無參考的「從頭」組裝。就好比你有一堆凌亂的拼圖,但不知道它們能拼成什麼。於是,你只能拿著其中一塊,在茫茫拼圖海中尋找和它契合的另幾塊,從局部開始逐漸擴張。而從第二次起,你就能對著第一次的成品圖比較出某一塊的大致位置,拼裝也就容易得多。

組裝基因組的關鍵也在尋找短片段之間的契合關係。把短片段DNA序列進行比對,如果一個序列的結尾和另一個序列的開頭重疊,它們就有可能是連續的,可以拼接在一起。這種方法被稱為鳥槍法或霰彈槍法,因為首先目標長片段DNA的不同拷貝要被隨機打斷在不同位置,才有足夠多重疊的短片段,像是霰彈槍形成的隨機彈痕。

這招學會了不虧,「盲人摸象」也OK。

分治想法美,成本翻幾倍

當時科學家對於長度在Kb級別的噬菌體基因組和Mb級別的細菌基因組構建已有些實驗和算法經驗,可是3.1Gb的人類基因組還是過大了。所以,Collins為代表的研究者就設法把一個不好解決的大基因組構建問題,分割成很多個容易解決的小基因組構建問題:先把基因組隨機切成150Kb左右的大片段,克隆到細菌人工染色體(BAC)擴增,並對它們進行排序;再對一個一個BAC進行鳥槍法測序和組裝。這被稱為分級鳥槍法,相當於在150Kb水平上組裝了一次,在500bp水平上又組裝一次。

類似在拼圖背後標上字母,把每個區域拼好,再把各區域連起來。

現在尚未解決的問題變為了如何對150Kb的片段進行排序。推斷兩個大片段之間存在重疊的方法有不少,例如:1.它們可以用切割特異位點的限制酶切出若干相同大小的片段;2.它們都能夠用螢光原位雜交(FISH)等方法識別到某些已知的特異序列。各種方法結合在一起,相當於在基因組上做了打上很多的「標記」,再從BAC文庫中尋找有相同特定「標記」的序列,加上兩端測序結果,來還原它們的順序。

分級鳥槍法

這項工作涉及到大量的實驗,極為繁瑣。人類基因組計劃耗費了很多的時間來選擇能夠較好覆蓋全基因組的一系列BAC。之後這些片段就能分配到世界各機構單獨完成測序。其中中國承擔了3號染色體短臂上約30Mb的測序工作,在1999年用了半年多的時間完成。

高效新策略,挑戰國家隊

可以說,學術界的這種選擇是麻煩但穩妥的,畢竟拿著國家的錢,若貿然將3.1Gb的全基因組打斷測序最後卻難以組裝,沒有辦法交差。

對於像這樣重複序列的位置,全基因組組裝也更難保證正確性。

偏有人不信這個邪。這人就是Craig Venter。他的團隊覺得人類基因組計劃採用的策略太慢,無法在原定的2005年實現目標。1998年,Venter成立公司Celera Genomics,投入3億美金,也開始了人類基因組的測序。他們用「全基因組鳥槍法」,不再構建BAC文庫,而是將全基因組打斷成2Kb,10Kb和50Kb的片段,根據長度和兩端序列直接組裝。

全基因組鳥槍法

事實也證明了Venter的魄力和能力。單從結果上而言,兩個團隊最終都成功構建了人類基因組參考序列的草圖。雖然說人類基因組計劃也包含了其他模式生物的基因組測序,但Venter畢竟只用了不到3年和1/10的成本,似乎打臉了「國家隊」的豪華陣容。

當然,和國家撥款的人類基因組計劃不同,私人投資的Celera不純粹是為了科學發展,而是想搶先申請專利,畢竟日後會有大量的數據使用者。然而2000年3月,美國總統Bill Clinton和英國首相Tony Blair聯合聲明,基因組信息須免費公開。Celera的股票直接從$189跌至$149。

同年6月,Clinton在白宮宣布,人類基因組研究中心和Celera公司都各自完成了人類基因組草圖,這場競爭就這樣被「官宣」打平了。

投資變公益,臉上笑嘻嘻。

競賽有終點,爭論無結尾

2001年2月,人類基因組計劃合作組和Celera分別在Nature和Science雜誌上發表文章,描述了人類基因組草圖構建結果。但故事到這裡還沒有結束。2002年3月,參與人類基因組計劃的三位大佬在PNAS上發文,稱Celera的結果既不是可以拿來驗證人類基因組計劃的獨立組裝,也不能證明全基因組鳥槍法管用。因為,Celera使用了中途公開的人類基因組計劃測序和組裝結果。他們認為,Celera用這部分數據,其實間接利用了人類基因組計劃中組裝的BAC順序,然後在其中填上他們自己的測序結果。這豈不是抄了作業裡的關鍵步驟只改了些細節?

隨即,Venter團隊回應,強調他們只是拿這些數據用計算機生成偽序列,相當於重新打斷成小片段,和真測序序列一起輸入程序,來增加數據量。之前的組裝已經被破壞,對結果影響不大。

傳說中的神仙打架嗎?

2003年,之前三位再次發文,更詳細地證明這對組裝結果有較大的影響。但無論如何,正如這篇文章結尾說的那樣,Celera基因組的故事已完結,而人類基因組計劃的基因組圖譜仍在不斷完善。

跨世紀創舉,科學裡程碑

2003年,人類基因組計劃提前完成。基因組完成圖填上了大多數草圖裡的間隙。但這場大型「拼圖」遊戲仍在繼續。時至今日,人類基因組參考序列經歷4次主要更新,現常用的是2009年(GRCh37)和2013年(GRCh38)發布的版本。基因組的注釋也日趨完善。現在的研究者可以打開基因組瀏覽器,輕易地查看基因的結構、位置、序列,幫助設計實驗。

UCSC基因組瀏覽器

人類基因組計劃開創了無數的研究方向。比如,人和其他的模式生物之間有很多序列極為相似的同源基因,物種進化關係得到進一步詮釋。2萬多個蛋白質編碼基因的鑑定使高通量篩選藥物靶點成為可能。人類基因組計劃還發現絕大多數的序列似乎不存在基因,使得人們好奇這些「垃圾」DNA究竟有什麼作用。有些認為它們幫助維持染色體的結構,於是促進了3D基因組的研究。在改進測序序列比對和基因組組裝、注釋算法過程中,生物信息學也不斷發展。而千人基因組計劃等後續項目,收集了大量個體基因組測序結果,來研究人與人之間的差異,包括某些遺傳性狀和突變位點之間的關聯。

在短短20年間,生命科學得到前所未有的迅速發展。從這個角度而言,21世紀無疑是生命科學的世紀。

可未必是生物專業者飛黃騰達的世紀。

也許有一天,我們可以根據胎兒基因組測序結果分析其自閉症風險,可以按照癌症細胞基因組的突變個性化設計藥物,可以改造體細胞基因組治癒嚴重遺傳病。其實這些方面的研究都已有些成果,但它們的應用和普及還有多遠,誰也無法預料。人類基因組計劃與這些的關係,相當於半導體與智慧型手機,牛頓定律與航天飛船。生命科學的大廈尚未建成,人類基因組計劃卻是整個領域的基石。

參考資料:

https://www.genome.gov/human-genome-project/Timeline-of-Events

https://en.wikipedia.org/wiki/Human_Genome_Project

https://genome.ucsc.edu/

https://www.cnn.com/ALLPOLITICS/time/2000/06/26/race.html

https://www.ncbi.nlm.nih.gov/books/NBK20363/

Pray, Leslie. &34; Nature Education 1.1 (2008).

Lander, Eric S., et al. &34; (2001).

Venter, J. Craig, et al. &34; science 291.5507 (2001): 1304-1351.

International Human Genome Sequencing Consortium. &34; Nature 431.7011 (2004): 931.

Waterston, Robert H., Eric S. Lander, and John E. Sulston. &34; Proceedings of the National Academy of Sciences 99.6 (2002): 3712-3716.

Myers, Eugene W., et al. &34; Proceedings of the National Academy of Sciences 99.7 (2002): 4145-4146.

Waterston, Robert H., Eric S. Lander, and John E. Sulston. &34; Proceedings of the National Academy of Sciences 100.6 (2003): 3022-3024.

其他圖源:

https://www.zhihu.com/question/55298047

https://www.thermofisher.com/

https://www.illumina.com/

https://www.23andme.com/

https://www.theguardian.com/science/gallery/2010/jun/23/human-genome-project

https://med.stanford.edu/news/all-news/2015/09/scientists-home-in-on-origin-of-human-chimpanzee-facial.html

https://www.amazon.com/gp/product/B07P9X1HQH/

https://www.zazzle.com/shibe_doge_fun_and_funny_meme_adorable_jigsaw_puzzle-116944506834522855

相關焦點

  • 108萬平米TOD大型城市綜合體項目落戶璧山
    11月25日,重慶市璧山區人民政府與紅星美凱龍控股集團有限公司籤訂合作協議,共建璧山區TOD大型城市綜合體項目,年服務消費者近2億人次,已開商業面積年均銷售增長率達40%,成為體驗式商業服務的典範。在城市發展與軌道交通建設的持續推進下,首條「雲巴」示範線、軌道交通璧銅線、27號線、成渝中線高鐵等重大交通設施密集布局璧山地鐵站片區,構建起了多式多向互聯互通的交通網絡,璧山區TOD大型城市綜合體項目正呼之欲出,主城都市區「迎客廳」新格局的又一塊重要拼圖正在補齊。
  • dnf拼圖怎麼玩 dnf十周年慶典拼圖活動玩法攻略
    大家好,今天小編分享給大家的是dnf十周年慶典拼圖活動玩法攻略,相信有了這一篇攻略,大家能更加了解這個活動和玩法,希望大家喜歡。 開啟碎片禮盒,可隨機獲取5塊拼圖碎片,最多擁有30種不同的拼圖碎片,所有拼圖碎片都屬於消耗欄內道具。
  • DNF十周年拼圖活動10副拼圖攻略 拼圖活動怎麼拼
    DNF十周年拼圖活動10副拼圖攻略 拼圖活動怎麼拼 北京時間6月19日,DNF在今天開啟了很多的十周年活動,其中最為頭疼的恐怕就是這個拼圖活動了,不僅要集齊碎片,還要完成拼圖,
  • 歐洲花費210億歐元新建大型對撞機,我國要跟進嗎?
    在中國同樣有一場關於要不要建造「環形正負電子對撞機—大型質子對撞機(CEPC-SPPC)」的激烈爭論。那麼,歐洲要建的這座大型對撞機,到底有何作用?既然歐洲已經領跑了,那麼我國的大型粒子對撞機,還有必要再建設麼?為什麼要建大型粒子對撞機?
  • 夢幻拼圖小程序:拼圖遊戲的船新版本!會動的拼圖!
    《夢幻拼圖 會動的拼圖》遊戲小程序好玩嗎?  《夢幻拼圖 會動的拼圖》小遊戲怎麼玩?  怎麼進入《夢幻拼圖 會動的拼圖》?  文章下拉到底部,  點最後一個圖片進入遊戲!  上次給大家推薦了一款難到爆炸的拼圖遊戲,  有小夥伴在後臺問沐沐:還有沒有好玩的拼圖遊戲啊?  今天沐沐給大家推薦這款遊戲叫  《夢幻拼圖 會動的拼圖》。
  • 你以為拼圖是小朋友玩具?人家明明是貴族遊戲好不好
    ■文丨葉克飛前些日子有個消息,稱因受疫情影響,大多數人都呆在家裡,所以有幾樣東西在全球範圍內都銷量飆升,比如書和玩具。NPD數據顯示,3月份美國玩具銷售增長26%,而且其中建築套裝遊戲增長了76%,拼圖遊戲更厲害,增長額228%!歐洲情況也很類似。之所以有這麼高的增長,是因為歐美一直是拼圖遊戲最龐大的市場,拼圖是歐美家庭最熱衷的遊戲之一。
  • 30億英鎊加碼倫敦,競購英國最大長租公寓項目
    11月20日,消息稱李嘉誠正在支持收購英國最大的長租公寓項目———倫敦溫布利公園地塊,該項目總價值高達30億英鎊,將新建8000套長租公寓。這一消息由英國房地產媒體React News率先曝出,英媒直接標題裡就點名李超人(Superman),稱超人有意染指價值30億英鎊的倫敦溫布利公園地塊。
  • 中國首個大型平價上網光伏項目併網發電
    12月29日10時18分,中國首個大型平價上網光伏項目——三峽集團格爾木光伏電站在青海格爾木併網發電。此舉標誌著替代煤電的平價清潔能源正式走進千家萬戶,將引領全國光伏發電項目進入平價上網新時代,成為我國開啟光伏發電產業新徵程的一個重要坐標和時間節點。
  • 承德發現1.3億年前大型恐龍化石 初步認定是「新屬種」
    1米多長的粗碩腿骨赫然顯露,肩胛骨、尾椎骨等在山巖間依稀可辨……   在豐寧滿族自治縣四岔口鄉李起龍村芥菜溝,距今1.3億年前大型恐龍化石被發現。據國家古生物化石專家委員會專家組初步認定,該化石屬冀北熱河生物群首次發現,將改寫世界古生物進化史。
  • 反對建大型對撞機?先了解高能物理好吧
    在粒子物理中,有個「基本粒子」概念,指的是組成物質的最基本單位。隨著物理學不斷發展,基本粒子的內涵也在變化。曾經,原子被認為是基本粒子。20 世紀初,科學家發現原子是由電子和原子核組成的。後來,又發現原子核由質子和中子構成,而質子和中子由更基本的夸克組成。
  • 反對建大型對撞機?先了解一下高能物理
    在粒子物理中,有個「基本粒子」概念,指的是組成物質的最基本單位。隨著物理學不斷發展,基本粒子的內涵也在變化。曾經,原子被認為是基本粒子。20 世紀初,科學家發現原子是由電子和原子核組成的。後來,又發現原子核由質子和中子構成,而質子和中子由更基本的夸克組成。
  • 上海英內通過技改完成年產30億枚RFID鋁蝕刻天線建設項目
    由上海英內物聯網科技股份有限公司承擔的上海市重點技術改造項目「年產30億枚RFID鋁蝕刻天線建設項目」通過驗收。由此上海英內具備了年產30億枚RFID鋁蝕刻天線的生產能力。項目產品處於國際先進水平,打破了國外企業在本領域的市場壟斷,項目還有利於培養企業內部RFID天線設計、生產、應用等技術人才,對促進國內物聯產業的發展有重要意義。
  • 反對建大型對撞機?還是先好好了解一下高能物理吧
    在粒子物理中,有個「基本粒子」概念,指的是組成物質的最基本單位。隨著物理學不斷發展,基本粒子的內涵也在變化。 曾經,原子被認為是基本粒子。20 世紀初,科學家發現原子是由電子和原子核組成的。後來,又發現原子核由質子和中子構成,而質子和中子由更基本的夸克組成。
  • 用廢棄塑料吸管挑戰製作世界上最大的海洋生物拼圖
    4月20日世界地球日前夕,由浙江電視臺少兒頻道和杭州遠洋樂堤港創意發起的大型環保公益活動「遠洋樂堤港千園幼兒拼圖世界紀錄挑戰賽」啟動儀式在杭州拱墅區蓓蕾學前教育集團京杭幼兒園舉行。浙江少兒頻道副總監程程女士、國家海洋局第二海洋研究所紀委書記 科普作家王小波先生和杭州拱墅區蓓蕾學前教育集團總園長金環女士及京杭幼兒園全園300多名小朋友一起參加了現場活動。
  • 香港迪士尼樂園遊玩拼圖
    香港永遠是長假出遊的熱線,迪斯尼樂園又是熱線中的熱點,這裡,為你提供一張迪斯尼樂園的遊玩拼圖。    女生版之浪漫遊拼圖   買個卡通玩具扮可愛    進了迪士尼樂園的大門,便可以給自己換上笑臉,加入到這一幻想大家庭中來。而精緻可愛的歐式街道,無疑給這種快樂提供了絕妙的舞臺。
  • 30.87億!中建八局中標呼和浩特新機場航站區項目!
    近日中建八局中標新開發銀行貸款呼和浩特新機場航站區第一標段施工總承包項目中標額30.87億元「機場建設專業戶」為西北區域打造新的交通樞紐改善城市發展面貌展示國家對外形象促進鄰國友好關係等極具發展意義中建八局有「
  • 一萬多塊的拼圖
    物流團隊負責監督三個不同的存儲系統:「我們有一個小型零件倉庫,一個中型裝配線,以及FMG大存儲空間的零件的高架倉庫」。倉庫裡有62個輸送帶,4個不同的裝載高度在60到250釐米之間。雖然每個輸送帶在高架倉庫中都有一個固定的間隔,但它也配備了一個緩衝區,可以臨時存放。這使得Pilatus能夠靈活地響應交付和訂單,並有效地裝卸貨物。傳感器確保員工的安全,確保正確裝載,並且沒有部件伸出側壁或超出最大裝載高度。這些功能非常有效——特別是考慮到高架倉庫不是一個標準解決方案,而是專門為新裝配大廳的生產過程而設計的。
  • 家長注意泡沫塑料拼圖地墊帶來的危害
    很多家長在孩子學習爬、走的時候會在家裡的地板上鋪上泡沫塑料拼圖地墊。  可是日前泡沫塑料拼圖地墊在國外遭遇禁售,幾乎所有的泡沫塑料拼圖地墊都會釋放包括甲醯胺在內的有毒物質,因此決定實行禁售。
  • 和簡·奧斯汀一起玩拼圖
    piece與peace同音,拼圖這項娛樂活動,玩耍起來也確實是心靈平靜,給大腦來了個放鬆的深呼吸。有趣的是,Piece & Love拼圖系列設定了兩種規格,方形1000片與圓形500片,但它們的成品尺寸卻是一樣的。所以同樣價格的情況下,1000片就顯得更耐玩更滿足了,畢竟「愛拼才會贏」嘛。
  • 造價30億歐元的大型強子對撞機成功運行Grover算法!
    光子盒研究院出品在上個月,歐洲核子研究組織(CERN)報導了一篇關於量子搜索算法在造價30億歐元的大型強子對撞機(LHC)高能物理數據中的應用。科學家們展示了Grover量子搜索算法的一種新應用,在CERN大型強子對撞機13 TeV開放數據下,搜索質子-質子碰撞中的罕見情況。