基因編輯技術是一種通過使用靶序列特異性工程核酸酶來操縱真核基因組的新興治療手段,包括模型細胞系的開發、疾病機理的發現、疾病靶標的確定、轉基因動植物的開發和轉錄調節。
由於基因編輯技術在促進基因組中序列的正確校正方面所具有的特殊優勢,基於基因編輯的療法正被積極地開發為治療多種疾病的下一代治療方法。到目前為止基因編輯系統歷經 3 代,包括鋅指核酸酶(ZFN)、轉錄激活因子樣效應子核酸酶(TALEN)和 CRISPR/Cas9。
1、鋅指核酸酶(zinc-finger nuclease,ZFN)
通常基因插入/刪除步驟包括:(1)基因組的某確定區域雙鏈斷裂(DSB),(2)修正缺陷內源基因或引入外源基因,(3)DSB 修復。
真核生物中的 DSB 修復有兩種內源性修復機制:非同源末端連接(NHEJ)或同源直接修復(HDR)。NHEJ 在生物體內發生頻率高,但準確性低。為了降低非特異性突變,提高基因編輯保真度,研發人員開發了一種工程核酸酶——鋅指核酸酶(ZFN)。
ZFN 技術誕生於 1996 年,直到 2002 年,Bibikova 等第一次用 ZFN 的方法通過在果蠅中成功突變了 yellow 基因。ZFN 是 Cys2-His2 鋅指蛋白(ZFP)和衍生自 FokI 核酸內切酶的非特異性 DNA 限制酶的融合蛋白,可靶向的 DNA 裂解試劑,已被用作基因靶向工具,ZFPs 在真核細胞中很常見,並與轉錄調控和蛋白質-蛋白質相互作用相關。
ZFN 的 DNA 結合域通常含有 3 個獨立的 ZF 重複結構,每個 ZF 結構能夠識別 3 個鹼基,因而一個鋅指 DNA 結合域可以識別 9 bp 特異性序列,ZFN 二聚體(含 6 個鋅指)可以識別 18 bp 長度的特異性序列。ZFN 誘導的雙鏈斷裂易受細胞 DNA 修復過程的影響,從而導致靶向誘變和靶向基因的替換均以非常高的頻率進行。目前最常用的 ZF 結構為 Cys2 His2 鋅指。
ZFN 技術雖然實用,但易產生脫靶現象,因為 ZFN 作用需要兩個 FokI 切割區域的二聚化,且至少需要一個識別單元結合 DNA,一旦形成異源二聚體,就很可能造成脫靶效應,並最終導致 DNA 錯配和序列改變,當斷裂的數目超過了 DNA 的修復能力會產生較強的細胞毒性。
ZFN 另外一個缺點是親和力不高,雖然經過優化設計後,用較短接頭連接 ZF 模塊可以提高其特異性,但利用此技術來獲得高質量基因編輯產品還有較長路要走。
ZFN 誘導雙鏈斷裂修復示意圖
2、轉錄激活子樣效應子核酸酶(transcription activator-like effector nuclease, TALEN)
繼 ZFN 後,第二代人工核酸酶技術——轉錄激活子樣效應子核酸酶(TALEN)於 2009 年誕生。TALEN 作為 ZFN 的替代品與 ZFN 類似,包含與目的 DNA 結合域融合的非特異性 FokI 核酸酶域,該 DNA 結合結構域由高度保守的胺基酸重複序列組成,這些重複序列來自由黃單胞菌細菌分泌的蛋白——轉錄激活子樣效應物(TALE),包含 33~35 個胺基酸。
該技術利用 TALE 重複結構域中胺基酸序列與其靶位點核酸序列之間有著對應的「胺基酸—DNA」關係,從而能快速設計出特異性結合目的 DNA 的蛋白模塊。目前,幾乎所有工程 TALE 重複序列都使用四個具有高變殘基 NN、NI、HD、NG 的域,分別識別 G、A、C、T。
與 ZFN 相比,兩者的成本都較高,TALEN 的設計和使用相對簡單,用時更短,雖然也存在脫靶效應,但 TALENs 比 ZFNs 特異性更高且細胞毒性更小。但值得一提的是,TALEN 比 ZFN 大,大概 3 kb 的 cDNA 編碼一個 TALEN,而編碼單個 ZFN 僅需 1 kb,這使得 TALEN 的遞送更具挑戰性。
a. TALEN 示意圖;b. TALEN 結合併切割為目標 DNA 位點上的二聚體
3、規律間隔成簇短回文重複序列(Clustered Regularly Interspaced Short Palindromic Repeats,CRISPR)
CRISPR/Cas 系統是第三代基因編輯工具,是一種原核生物的適應性免疫系統,是細菌和病毒進行鬥爭產生的免疫武器,用來抵抗外源遺傳物質的入侵,如噬菌體病毒和外源質粒等。
簡單來說,病毒感染細菌後將自己的基因整合到細菌基因組內用以繁殖,並通常在複製完成後殺死宿主細胞,為了迴避這個致命的威脅,細菌進化出了強大的適應性免疫系統—CRISPR/Cas,它由一系列高度保守的短 DNA 重複序列組成,通常為 21~48 bp 的迴文序列或短的反向重複序列,這些序列之間被稱為間隔子的可變序列片段間隔開,通常介於 26~72 bp 之間,CRISPR 陣列的第三部分是前導序列,其位於第一個重複序列上遊,富含 AT,約為 200~500 bp,包括必需的啟動子序列。
Cas 的全稱是 CRISPR associated,是 CRISPR 基因座相鄰基因,編碼 Cas 蛋白,Cas 蛋白提供了從入侵元件中獲取新間隔子並靶向入侵元件所需的酶促機制。
基於系統發生機制和特定 Cas 蛋白,CRISPR / Cas 系統目前分為六種類型,I~III 型是研究最多的。每種類型可進一步細分為不同子類型,如類型 I 由 IA 到 IF 類型組成。每種類型都由所謂的特徵蛋白指定,該蛋白以特定類型保守,但 Cas1 和 Cas2 基因似乎是通用的,被發現存在於大多數 CRISPR/Cas 系統中。Cas3、Cas9 和 Cas10 分別充當 I,II 和 III 型的標誌蛋白。