CRISPR簇是一個廣泛存在於細菌和古生菌基因組中的特殊DNA重複序列家族,其序列由一個前導區(Leader)、多個短而高度保守的重複序列區(Repeat)和多個間隔區(Spacer)組成。前導區一般位於CRISPR簇上遊,是富含AT長度為300~500bp的區域,被認為可能是CRISPR簇的啟動子序列。重複序列區長度為21~48bp,含有迴文序列,可形成發卡結構。重複序列之間被長度為26~72bp的間隔區隔開。Spacer區域由俘獲的外源DNA組成,類似免疫記憶,當含有同樣序列的外源DNA入侵時,可被細菌機體識別,並進行剪切使之表達沉默,達到保護自身安全的目的。
通過對CRISPR簇的側翼序列分析發現,在其附近存在一個多態性家族基因。該家族編碼的蛋白質均含有可與核酸發生作用的功能域(具有核酸酶、解旋酶、整合酶和聚合酶等活性),並且與CRISPR區域共同發揮作用,因此被命名為CRISPR關聯基因(CRISPR associated),縮寫為Cas。目前發現的Cas包括Cas1~Cas10等多種類型。Cas基因與CRISPR共同進化,共同構成一個高度保守的系統。
此系統的工作原理是 crRNA( CRISPR-derived RNA )通過鹼基配對與 tracrRNA (trans-activating RNA )結合形成 tracrRNA/crRNA 複合物,此複合物引導核酸酶 Cas9 蛋白在與 crRNA 配對的序列靶位點剪切雙鏈 RNA。而通過人工設計這兩種 RNA,可以改造形成具有引導作用的sgRNA (short guide RNA ),足以引導 Cas9 對 DNA 的定點切割。
作為一種 RNA 導向的 dsDNA 結合蛋白,Cas9 效應物核酸酶是已知的第一個統一因子(unifying factor),能夠共定位 RNA、DNA 和蛋白,從而擁有巨大的改造潛力。將蛋白與無核酸酶的 Cas9( Cas9 nuclease-null)融合,並表達適當的 sgRNA ,可靶定任何 dsDNA 序列,而 sgRNA 的末端可連接到目標DNA,不影響 Cas9 的結合。因此,Cas9 能在任何 dsDNA 序列處帶來任何融合蛋白及 RNA,這為生物體的研究和改造帶來巨大潛力。
當細菌抵禦噬菌體等外源DNA入侵時,在前導區的調控下,CRISPR被轉錄為長的RNA前體(Pre RISPR RNA,pre-crRNA),然後加工成一系列短的含有保守重複序列和間隔區的成熟crRNA,最終識別並結合到與其互補的外源DNA序列上發揮剪切作用。
目前發現的CRISPR/Cas系統有三種不同類型即I型、II型和III型,它們存在於大約40%已測序的真細菌和90%已測序的古細菌中。其中II型的組成較為簡單,以Cas9蛋白以及嚮導RNA(gRNA)為核心組成,也是目前研究中最深入的類型。
在II型系統中pre-crRNA的加工由Cas家族中的Cas9單獨參與。Cas9含有在氨基末端的RuvC和蛋白質中部的HNH2個獨特的活性位點,在crRNA成熟和雙鏈DNA剪切中發揮作用。此外,pre-crRNA轉錄的同時,與其重複序列互補的反式激活crRNA(Trans-activating crRNA,tracrRNA)也轉錄出來,並且激發Cas9和雙鏈RNA特異性RNase III核酸酶對pre-crRNA進行加工。加工成熟後,crRNA、tracrRNA和Cas9組成複合體,識別並結合於crRNA互補的序列,然後解開DNA雙鏈,形成R-loop,使crRNA與互補鏈雜交,另一條鏈保持游離的單鏈狀態,然後由Cas9中的HNH活性位點剪切crRNA的互補DNA鏈,RuvC活性位點剪切非互補鏈,最終引入DNA雙鏈斷裂(DSB)。CRISPR/Cas9的剪切位點位於crRNA互補序列下遊鄰近的PAM區(Protospacer Adjacent Motif)的5'-GG-N18-NGG-3'特徵區域中的NGG位點,而這種特徵的序列在每128bp的隨機DNA序列中就重複出現一次。研究結果表明,Cas9還可以剪切線性和超螺旋的質粒,其剪切效率堪比限制性內切酶。