在理解這篇由著名分子生物學家George M. Church教授發表於《科學》的重磅論文前,我們先了解一下什麼是腺相關病毒(AAV)。AAV是一種單鏈DNA病毒,由科學家1965年在製備腺病毒時發現,因此得名腺相關病毒。腺病毒會感染多種脊椎動物,這其中也包括人類,會誘發人類的上呼吸道感染,而AAV非常特別,目前的科學界共識是它不會導致任何人類疾病,也是目前人類發現的一類結構最簡單的單鏈DNA缺陷型病毒,正是因為其DNA結構上的缺陷,在沒有輔助病毒的參與下(典型的如腺病毒、單純皰疹病毒等),AAV無法引發病毒感染。這樣的特性讓AAV成為了科學家眼中最為理想的基因載體。
未經改造的天然存在野生型AAV由蛋白衣殼(capside)和長度為4.7kb的單鏈DNA基因組構成。蛋白衣殼由三個亞基組成,分別為VP1,VP2,和VP3。AAV基因組兩端為兩個「T」型的末端反向重複序列(inverted terminal repeat, ITR)。這兩個ITRs是病毒DNA複製的起點和觸發病毒包裝的信號。AAV基因組中的rep基因編碼4個與病毒複製相關的蛋白,分別為Rep78、Rep68、Rep52、和Rep40。
科學家通過改造AAV,獲得了用於基因療法的優良載體——重組腺相關病毒(rAAV)。rAAV攜帶的蛋白衣殼與野生型AAV幾乎完全相同,然而衣殼內的基因組中編碼病毒蛋白的部分完全被刪除,取而代之的是治療性轉基因(transgene)。現在,AAV基因組中被保留的部分主要是編碼衣殼蛋白的cap基因,以及ITRs,它起到指導基因組的複製和病毒載體組裝的作用。將編碼病毒蛋白的部分完全刪除的優點是:一方面可以最大化重組AAV攜帶轉基因的容量,另一方面減小體內遞送轉基因時產生的免疫原性和細胞毒性。但目前的rAAV依然不能滿足基因療法的需求,我們急切的需要一款功能更為強大的AAV,而這次哈佛大學(Harvard University)著名分子生物學家George M. Church教授領導研究團隊聯合Dyno Therapeutics公司(Dyno Therapeutics是一家將人工智慧應用於基因治療的生物技術公司)的科學家,通過結合計算機技術,成功得到了一批功能優異的AAV。
先前的研究策略集中在對cap基因的優化,使其增加遞送效率的同時也就有侵染活性,研究策略限於隨機突變,效果不理想。因此,研究小組對腺相關病毒2型(AAV2)衣殼中的735個胺基酸位點進行單突變,從而生成了一個包含約200,000個變體的單突變庫。為了研究其功能,研究人員將這些突變體轉染到小鼠中,看它們在小鼠不同器官的富集程度。比如,有些突變體特意地在肝臟富集,有些則在血液。這個現象也叫「歸巢」現象。同時,他們通過巧妙的實驗設計,鑑定了對應的衣殼變化,與突變位點的對應關係,建立起了一個計算機模型。
但實際設計中,單突變可能滿足不了基因療法的需求,要採用多突變位點設計,同時還要AAV2的活力。為此,他們用計算機模型預測了多位點突變的一些組合,並與隨機突變組合的進行了比較,最終發現計算機設計的突變體,很多既有高的AVV2活力,又保持了其「歸巢」的潛能。令人驚喜的是,研究團隊還發現了隱藏在衣殼編碼DNA序列中的新輔助蛋白,該蛋白可與靶細胞膜結合。
這篇論文構建迄今為止最全面的AAV蛋白衣殼庫。Crunch教授表示:「利用這個文庫產生的數據,我們還能夠設計出更多衣殼突變體,比先前自然或人工變異產生的還要多。不僅如此,AI設計產生有效衣殼的效率遠遠超過隨機誘變方法產生的AAV。」
「這些高通量的技術與計算機技術相結合,為未來的基因治療奠定了堅實的基礎。」Dyno Therapeutics公司現任執行長,論文共同第一作者Eric Kelsic博士對此表示,過去的方法,如人為設計或隨機突變,都存在各自的缺點,不是受突變庫規模限制,就是質量低下。機器輔助設計則是一種數據驅動的蛋白質工程方法,另外有足夠數據的簡單數學模型就可以成功生成可行的合成衣殼。由此藉助計算機的力量,便可充分結合利用上述蛋白質工程的迭代和經驗方法,從而生成大量高質量的衣殼變體。」
另外,文章作者還發現,cap基因還能編碼一個新的蛋白MAAP(membrane-associatedaccessory protein)。文章作者推測,MAAP蛋白可能與之前在工程型AVV2庫中發現的高基因組-衣殼耦合現象有關。MAAP存在於大部分AAV血清型中,研究人員相信它將在病毒的自然生命周期中發揮作用。研究人員表示:「研究MAAP的功能是一個令人興奮的領域,並有助於人們更好地理解AAV、並設計更好地AAV基因療法。該發現令人鼓舞,但卻只是邁出了第一步。利用這些數據和來自未來實驗的數據,我們可以構建機器學習模型來優化AAV載體衣殼,並解決各種基因治療的挑戰。」這項研究可以說是一個裡程碑式的進展,更是一個良好的開端。
因此從2015年開始,研究團隊便著力於通過開發新的機器引導技術來克服現有技術局限性,從而在今天宣布研發出了一種更快速有效的工具型AAV。本項研究具有裡程碑式的意義,使用新的高通量測量技術收集大量數據,教他們如何構建更好的多位點突變體庫,最終優化了AAV的傳遞性能。
研究人員表示:「這只是機器引導的AAV衣殼工程改變基因療法的開始,這項研究的成功使我們看到了追求更多數據和更大容量的機器學習模型應用於基因療法的無限潛力。」
研究人員的思路是,鑑於觀察到AAV2單突變庫不同突變體在不同器官中富集程度不同,與之相應的AAV2有相應的突變位點和衣殼結構,研究人員建立計算機模型,將兩者進行聯繫。為了簡化模型,他們選擇了富集在肝臟的那些AAV2突變體,對其一一測序。
為了研究這些突變體在體內的作用,研究人員便把AAV2逐一感染到小鼠中,這些感染到小鼠體內的突變體有不同生物分布特徵,比如分布在腎、心臟、肝、肺等。隨後,研究人員做了主成分分析,將不同AAV2突變體衣殼結構特徵與其在生物內的分布特徵聯繫起來;聚類分析的結果顯示,有一些突變體特異地被肝清除,而在血液、心臟和腎臟中富集,有些則相反。
考慮到之前許多隨機突變產生的AAV2無法進行有效基因傳遞,研究人員也就生出了「能否創造出一種計算機方法來更有效改良AAV2」的想法,為驗證該設想他們便嘗試用計算機進行突變位點設計。
鑑於AAV2單突變庫不同突變體在不同器官中富集程度不同,與之相應的AAV2有相應的突變位點和衣殼結構,研究人員建立計算機模型,將兩者進行聯繫。為了簡化模型,他們選擇了富集在肝臟的那些AAV2突變體,對其一一測序,通過測序發現富集在肝臟區域的AAV2突變體,其突變位點僅限於cap基因所編碼胺基酸的第561-588位點間,由此他們將此區域定為多位點突變選擇的靶區域。
逐個掃描cap基因候選靶區域的胺基酸位點,計算機模型便會給胺基酸位點按照模型計算出來的可能性進行打分,分數越高,可能性越大。接著研究人員將分值高的位點一起突變,建立起一個多位點突變體庫。
與此同時,他們又根據胺基酸位點的效果和隨機性的原則,人為挑選了一些胺基酸位點進行突變,作為對照。通過此方法,他們共設計了1271個AVV2突變體,以及10047個隨機突變體,隨後他們把這些突變體轉染到小鼠中,檢測它們的分布情況。最終的結果顯示計算機設計的突變體大約有25.6%都是有功能的(即在肝臟中有分布),而近乎一半(4477個)隨機產生的突變體都是無效的(在肝臟中無分布或弱分布)。
這一結果顯示,計算機設計具有相當高的效率。(生物谷Bioon.com)