本文參加百家號 #科學了不起# 系列徵文賽。
作為一個科學作者,我常常會收到一些熱心朋友有關宇宙真理的猜想。對科學與宇宙充滿好奇與熱情是一件好事,沒有豐富的想像力,就無法叩開下一扇真理的大門,我最喜歡的科學作家兼理論物理學家卡洛·羅韋利曾在他的書中這樣說:
偉大的科學家與偉大的詩人有著某種相似,他們都充滿想像力甚至是擁有類似的、深刻的洞見。
同時我想強調,當我們歌頌想像力時,必須要認識到「大膽假設」的背後必然是數量巨大且繁瑣的「小心求證」。二者如果不相互幫助,相互制約就無法形成嚴謹的科學。今天本文就帶大家回顧一下生命科學之旅中,科學家是如何在一次又一次的挫敗中破解DNA密碼。
DNA與胺基酸間的秘密
讓我們回到1953年,兩名年輕科學家的偉大突破讓人類對生命的研究正式進入分子時代,脫氧核糖核酸——DNA揭示了生命遺傳的秘密。
但是與多數人想像中的不一樣,從來就沒有什麼儀器可以直接把細胞放進去分析然後直接給出結果,細胞中含有無數的化合物與蛋白質,比較你見過最稠的粥還要厚。所以多數情況下必須要一種一種分離再研究才行。
當生物學家已經認識到DNA是遺傳密碼後,接下來最重要的工作當然就是「破解密碼」,他們推測DNA可以通過一系列複雜的反應生成蛋白質,而蛋白質又是由胺基酸構成的,那麼DNA上鹼基的序列與胺基酸到底有什麼樣的對應關係呢?
胺基酸總共有20種,而DNA有四種不同的鹼基,所以這很快就變成了一個數學問題。如果一對一DNA就只能控制4種胺基酸,不行;兩個鹼基對應一個胺基酸最多也只有4*4=16種胺基酸;那麼只有可能是三對一了,但是三對一很明顯出現了多餘,4*4*4有多達64種組合,對應區區20種是不是顯得有點浪費呢?進化通常都是高效簡潔的,這樣的結構無疑給生物學家以巨大的壓力——三對一真的正確嗎?DNA翻譯到底存在什麼樣的秘密呢?
第一完美猜想
第一個給出「完美」方案的人不是生物學家,而是一名美國物理學家喬治·伽莫夫,你對這個名字可能會比較陌生,但是一提到他的成就你一定會恍然大悟——宇宙大爆炸。
他給出的答案是怎樣的呢?他認為DNA使用的是一種「重複密碼子」的方法,比如說有一段序列是ATCGTC,它可以翻譯的胺基酸不是2個,而是4個。第一個密碼子是ATG,第二個密碼子則是由第一個密碼子的第二位與新加入的最後一位組成,也就是TCG;第三個自然是CGT了,第四個是GTC。這種可以讓信息最大化的編碼方案是密碼學家的最愛
那為什麼說這個答案是「完美」的呢?因為從中正好算出了20。你看看,如果生命採用的是重複密碼子,那麼當第一個密碼子ATC確定後,第二個密碼子就不可以隨意安排了,只有四種可能性,也就是TCA、TCT、TCC、TCG。同樣,第二個密碼子確定後,第三個密碼子也就只有四種可能性了。
這意味著這種組合下,不可能支持64種不同的密碼組合。通過數學計算,伽莫夫發現這種方案最多只能容納20種不同的胺基酸進行組合,這難道是一種巧合嗎?這是不是一個優雅、簡潔、高效、完美的方案?它就像一塊嚴絲合縫的卯榫,精準地插入了預想的理論框架。
但科學史就總是這樣,一路上將無數看上去極美好,極完美的預測與理論擊個粉碎!一名兩次獲得諾貝爾獎的天才將它毀滅了——弗雷格·桑格爾。
使用「重複密碼子」的第一個問題就是組合有序列的限制性,每個胺基酸後只能存在四種特定的胺基酸,但是桑格爾的測序顯示任何胺基酸可以存在於任何胺基酸後面,它們的位置沒有任何限制。
第二個問題是如果一個鹼基發生突變,就會引發至少兩個胺基酸發生突變,但是後來的測試表明並沒有,每發生一個突變最多只會改變一個胺基酸。
於是這個看似非常美好的方案就被否決了。
第二個更完美的猜想
第二個「完美」的方案來自DNA雙螺旋結構的發現人克裡克,他獲得了一個看上去非常美麗的猜想,比上一個更精確,更合理,不僅規避了多餘的限制,而且已經非常接近真相了,然而不幸的是在離真相還有一步之遙的時候,他翻了個車。
克裡克首先意識到DNA並非直接翻譯成蛋白質,而是通過先翻譯成RNA,再來到細胞質中通過一些關係翻譯成蛋白質,這與今天我們所知的真相一模一樣。但克裡克的理解在最後一步上有個細節並不正確,他認為RNA翻譯成蛋白質的過程不是逐一按次序完成的,而是RNA分子鏈如一條曬太陽的蛇一樣舒展開來,所有攜帶胺基酸的轉運RNA自由地與長鏈結合,然後這些胺基酸自動組合在一起變成蛋白質。
既然是自由組合,那麼其中就存在一個問題——轉運RNA可不知道長鏈的開始與結束,如果它結合在了不正確的地方又當如何?比如ATCGTC,它本來是ATC與GTC,如果先來了個TCG直接往中間一插,不就全亂套了麼?
於是克裡克琢磨出來了一種可能性——或許所有可能造成歧義的密碼子都是不可用的,比如幾個相同的密碼AAAAAAA,你就不可能找到它們從哪開始,所以不可用,也就是AAA、CCC、GGG、TTT都不存在對應胺基酸。然後為了讓兩個相鄰密碼子之間不存在首尾組合出錯,單個組合的其它前後順序也不可用,比如ATC如果是作為一個密碼子的話,那麼TCA、CAT都不存在;沒有了CAT也就不會和下一個C開頭的密碼子組合出ATC來了。
那麼這麼處理後還剩下多少密碼子呢?恰好也是20個,完美!這個理論簡直是精彩絕倫!當它一問世後就徵服了大多數生物學家的心,大家都以為已經找到了終級答案!
然而沒過幾年,人們發現AAAAAAA可以為賴氨酸編碼……完美理論,卒。
被槍斃的猜想不計其數
現在想想是不是發現,一個想像出的理論很可能看上去非常美好,好像已經觸摸到了真相,但是無情的實驗數據會對這些信息做出修正。專業的科學家尚且如此,何況對知識一知半解,只憑一腔熱情想像的普通群眾呢?
最後我們說說真相到底如何吧,讓所有生物學家大跌眼鏡的是,其實20這個數字並沒有什麼秘密,64個密碼子每個都有用處,只是多數胺基酸都是一對多而已,比如亮氨酸、絲氨酸、脯氨酸、蘇氨酸、精氨酸都是四對一,只有色氨酸是一對一,其中還有三個是終止密碼子,表示一個蛋白質合成的結束。
我在以往的文章中說過:「沒有經過學習的想像是毫無價值的」,而就算是已經歷豐富學習的想像,依然處處充滿著陷阱,只有事實才能將它們篩選出來,成為真正的科學。
我是酋知魚,一個有點東西的科學創作者,歡迎關注!