導語
在生命複雜系統中,有的變量表現出穩定性,而另外一些變量表現出可塑性,它們之間存在微妙的平衡。近日東京大學綜合文化研究科博士後、集智科學家傅渥成(唐乾元)等,在Physical Review Research發表文章,揭示蛋白質系統的功能敏感性和突變穩定性之前的定量關係,加深了對蛋白質功能運動和突變進化之間的關係。
1. 可塑性(plasticity)和穩定性(robustness):矛盾還是互補?
生命系統常常表現出高度的「可塑性」,這種可塑性反映出系統隨環境變化狀態「可變」的一種特性。當生物來到了一個新的環境,常常可以很快地適應新的環境,這就是一種可塑性;再比如說,我們的大腦可以不斷學習新的知識,這也是一種可塑性;通過選擇與進化,生物變得越來越適應某種環境,這也可以看成是一種可塑性。
與可塑性相反的一個概念是穩定性(robustness,平時也翻譯為魯棒性、穩健性等,本文為簡單起見,統一稱為「穩定性」)。例如,恆溫動物的體溫在不同的環境下可以保持在相對穩定的範圍內,這體現的就是一種穩定性。穩定性所反映的是系統隨環境變化狀態「不變」的一種特性。可塑性與穩定性,代表著複雜系統「可變」與「不變」這樣一個基本矛盾。
一個系統,通常要麼是具有可塑性,要麼是具有穩定性,很難同時實現這二者。當然,在複雜系統中,通過一些精巧的平衡,系統可以同時具有可塑性和穩定性——我們的大腦既可以學習嶄新的知識(可塑),又能保持那些古老的回憶(穩定)。更多的,我們常常會看到,在一個複雜系統中,有的變量表現出穩定性,而另外一些變量表現出可塑性。
這種現象其實在經典的熱力學中經常出現。熱力學中有許多共軛的變量,例如體積和壓強。當兩個變量互為共軛的時候,增大其中一個量的可變性,實際上就是在增大其共軛變量的穩定性。例如,在一個化學反應中,如果我們固定系統的壓強(等溫等壓系綜),系統的體積則有可能會發生劇烈的變化,反過來,如果固定體積,那麼壓強又會有劇烈的變化。總之,體積的可變性跟壓強的穩定性可以同時實現,而壓強的可變性跟體積的可變性也可以同時實現。從直觀上來看,看起來有點像量子力學的「不確定關係」。
在生物系統的適應性等問題中,這種類似的共軛關係也廣泛存在,舉個例子,在一個振動問題中,相位和頻率也有類似的共軛關係,因此,相位的可變性跟頻率的穩定性是可以同時實現的。這很好理解,當我們從一個時區移動到另一個時區,我們很快便適應了這個新時區的生活,這裡,我們所適應的,其實就是新環境下的「相位」,而在新的時區,仍然每天是24個小時,即頻率保持穩定,相位可以調節[1]。試想在未來,人類(或者其它生物)需要經常在晝夜時長不同的星球上生活,到那時,我們或許會更想要相位保持穩定、而頻率保持可變的生物鐘。
總之,儘管「可變」和「不變」無法同時實現,但是在一個複雜系統中,可塑性和穩定性未必總是矛盾的,我們常常可以看到,系統的某一部分具有強的可塑性,而另外一部分變量保持高的穩定性。特別的,當兩組變量互為共軛的時候,增強其中一部分變量的可塑性,實際上可以幫助提高與之共軛的一部分變量的穩定性,反正亦然。沿著這一思路,我們近期在 Physical Review Research 上發表了一篇理論研究的文章,這篇文章描述了蛋白質的功能敏感性和突變穩定性之間的關係,這一關係同樣體現了可塑性與穩定性之間的互補性。在這篇文章裡,我將簡要概述一下文章的主要思路,如果你對相關的細節感興趣,可以直接閱讀我們的論文[2]。
原文題目: Functional sensitivity and mutational robustness of proteins 原文地址: https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.2.033452
2. 蛋白質的功能敏感性(functional sensitivity)和突變穩定性(mutational robustness)
延續在上一節中提到的「互補關係」,我們想到了這樣一個問題:一個系統對外界(external)擾動的敏感性和對內部(internal)擾動的穩定性之間,是不是也具有類似的互補關係。請注意,這裡我們將上一節中的「可塑性」切換成了「敏感性」,這是因為系統的敏感性特徵往往與可塑性是緊密聯繫的,因為只有當敏感地感知到外界環境的變化,才能對這種變化做出改變,這種響應關系所反映的就是系統的敏感性特徵。我們將系統對外界擾動的敏感性稱為「功能敏感性」,將系統對內部擾動的穩定性稱為「突變穩定性」。之所以這樣定義這兩個概念,主要是考慮到它背後的生物學的實際意義。
我們將生物體內各種生理功能的主要執行者——蛋白質分子——作為我們關注的系統。蛋白質在發揮功能的時候,常常對於外界的擾動和噪聲有高度的敏感性,甚至表現出類似於「臨界態」的高敏感性(susceptibility)特徵[3],並能根據外界環境中的擾動做出相應的構象變化,我們將蛋白質分子在功能動力學(functional dynamics)中,針對外界擾動所體現出來的敏感性叫做「功能敏感性」。與此同時,蛋白質分子在面臨著內部的擾動時,常常表現出高度的穩定性。
與此同時,蛋白質在面對分子內部的擾動(突變)時,表現出了高度的穩定性。儘管的確有些關鍵突變會影響蛋白質的功能或摺疊,但蛋白質對於絕大多數的突變都具有很高的容忍度。這也很好理解,因為一旦失去了突變穩定性,蛋白質的性質和功能將無法被遺傳,試想,一個能有效執行生物學功能的蛋白質分子,一旦引入一個小小的突變,馬上就變得無法再發揮功能,造成適應度(fitness)大減,這樣的分子在自然選擇的過程中是不利的。為了描述這種在應對突變時的穩定性,我們定義了「突變穩定性」這一概念,它刻畫的是系統在經過突變之後,在多大程度上能夠保持其原有性質的一種能力。只有當一個系統的突變穩定性很高,那麼在進化的過程中,這個生物系統的所執行的功能才可以被保持下來。
圖1.(上)一個帶有輸入和輸出的系統;(中)功能敏感性和系統對外界的擾動的敏感性相關,當輸入產生擾動時,系統的輸出也會發生相應的改變;(下)突變穩定性與系統對內部擾動的穩定性相關,當系統本身發生改變時,系統的「輸入—輸出」關係如果能繼續保持不變,則系統有較強的突變穩定性
用一個簡單的例子來幫助大家理解這兩個概念。假設我們有一個機器翻譯系統。我們要測試這個翻譯系統的「功能敏感性」,首先,我們給這個系統一個輸入「我太餓了」,系統給出了一個翻譯「I am so hungry.」,接著,我們給剛才的輸入一個小小的擾動,讓它變成「我太太餓了」,如果這個翻譯系統足夠優秀,對於這個小小的擾動,系統決不能無動於衷,而是要做出相應的改變(輸出「My wife is hungry.」)。這樣的系統就是對於外界輸入具有功能敏感性的系統。
接著,我們希望來測試一下這個翻譯系統的「突變穩定性」。它對應的是,我們對這個機器翻譯系統的人工神經網絡的內部結構進行一些微小的突變,例如對神經網絡連接的權重進行一些微小的修改,如果神經網絡經過了突變,這個翻譯系統還是可以正確翻譯,那麼就說明,這個機器翻譯系統本身是高度穩定的,在機器學習問題中,這樣的系統往往會具有較高的泛化(generalization)能力,我們在這裡暫時不再對這一問題進行更多的延伸。總之,定量刻畫理解功能敏感性和突變穩定性之間的關係,不僅可以幫助我們更深刻地認識蛋白質的功能運動和突變進化之間的關係(這是生物「基因型—表現型」關係中極為重要的一環),也能加深我們對於複雜系統和人工智慧系統的理解。
下面,我將簡單介紹一下我們對蛋白質系統的功能敏感性和突變穩定性的定量描述。因為這個工作的主要目的是為了建構關於蛋白質「基因型—表現型」的理論,為簡單起見,我們這裡僅考慮蛋白質的天然態動力學。此時,我們可以將蛋白質的運動簡化為天然態(能量最低結構)附近的振動。在實踐中,可以用彈性網絡模型(elastic network model)來描述蛋白質的天然態動力學[4],在這種模型中,構成蛋白質的基本單元(胺基酸殘基)被描述為一系列的小球,這些小球之間由彈簧連接,連接關係由蛋白質的天然態結構決定。這樣,蛋白質的振動問題就變成了力學中的一個經典問題,即求解耦合振子的振動模式,這個問題也與結構化學中求解分子的振動模式、或者固體物理中求解晶體中的格波是類似的。注意到彈性網絡模型是一個線性模型,而彈性網絡的拓撲結構可以由該網絡的拉普拉斯矩陣(graph Laplacian)描述,該 Laplacian的特徵值(eigenvalue)正比相應振動模式的頻率的平方,而與這些特徵值相對應的特徵向量(eigenvector)則描述了相應振動模式的基本形態。
圖2. 蛋白質的天然態結構(左)與其所對應的彈性網絡模型(右)示意圖
有了這樣一個模型框架,我們就可以來定量刻畫「功能敏感性」和「突變穩定性」。在本文中,我希望不用公式,介紹相關定義的基本思路。
圖3. 蛋白質的功能敏感性(A)與突變穩定性(B)的定義示意圖
如前所述,功能敏感性描述的是系統在外界擾動下的響應情況。根據這個定義,很容易想到,在相同的噪聲情況下,結構漲落越大的分子功能敏感性越高,而這個漲落的大小可以用蛋白質的構象熵(conformation entropy)來描述,熵越大,可能的結構數也就越多。經過數學推導,可以發現,這個熵與振動譜中振動頻率(特徵值)的乘積的對數有關。當所有頻率的乘積越小時,系統的熵越大,這個結果有很直觀的意義。一方面,這個乘積可以看成是高維空間中的一個橢球,橢球的大小即為構象空間的體積;另一方面,這一結果也有很直觀的物理意義,如果一個系統有大量低頻的模式,那麼很小的能量就能激發出系統大振幅的運動。當我們希望最大化一個蛋白質分子的構象熵時,我們實際上是希望這個分子有儘可能多的低頻的振動模式。換句話說,我們希望這個分子的振動譜中有大量集中在接近0的特徵值。
接著,我們來考慮定量刻畫一個分子的「突變穩定性」。而我們在這裡所考慮的「突變」,是對系統內部的擾動,換句話說,是要對網絡的拓撲做些改變,看看經過這一改變,系統的動力學到底發生了些什麼變化。前面提到,特徵值相對應的特徵向量描述了與功能相關的振動模式的基本形態,如果在突變前後,相應的特徵向量沒有發生太大的改變,則說明這個系統具有較高的突變穩定性,而如果網絡結構的變化特徵向量發生了巨大的改變,則說明系統對突變是敏感的。怎樣定量刻畫這種穩定性或敏感性呢?根據微擾論(或根據Davis-Kahan定理),可以證明,第i個特徵向量的突變穩定性與它所對應的特徵值(λi)及其近鄰的特徵值(λi-1和λi+1)之間的距離(gap)有關,如果要最大化第i個特徵向量的穩定性,那麼我們需要最大化λi和它相鄰的特徵值之間的距離。如果我們希望讓所有的特徵向量都儘可能穩定,那麼我們需要讓振動譜中,各個特徵值與它的近鄰值之間的最小距離最大化。而要最大化這個最小距離,我們所期待的是一個均勻的特徵值分布。
從上面的討論中我們可以看到,如果希望最大化一個系統的「功能敏感性」, 我們希望這個分子的振動譜中有大量集中在接近0的特徵值;如果希望最大化一個系統的「突變穩定性」,我們希望得到一個均勻的特徵值分布。這兩個優化的目標之間存在一定的矛盾。為了在這兩個優化目標之間達成某種平衡,我們用熵最大化的方法,將功能敏感性作為一個約束條件(除此之外的約束條件還有歸一化和系統的總能量或者說總連邊數固定),最大化系統的突變穩定性(也可以反過來做),最終得到了一個冪律(power-law)的特徵值分布。眾所周知,冪律是臨界現象的一個重要特徵,這一結果從理論的角度證明了臨界性對於蛋白質系統的重要意義,它不僅保證了蛋白質系統對於外界擾動的敏感性,也讓蛋白質分子本身的進化變得更加穩定。
圖4. 同時考慮蛋白質的功能敏感性(要求儘可能多的低頻模式)和突變穩定性(要求特徵值均勻分布)兩個條件,將會得到冪律分布
在上面的討論中,我們以蛋白質這樣一個具有多自由度的系統為例,討論了其功能敏感性和突變穩定性之間的平衡關係。值得注意的是,當系統的自由度很低時,「功能敏感性」和「突變穩定性」這二者之間根本就不存在矛盾。
我們來看下面一個例子,這個例子也常常被用來描述機器學習系統的泛化問題[5]。如下圖所示,圖中的黑色實線代表著一個1維的能量面,在這個能量面上有兩個能量極小值點(兩個勢阱),其中左邊的一個比較陡峭(極小點附近曲率較大),另一個則比較平坦(極小點附近曲率較小)。當小球落在比較陡峭的勢阱中時,如果給它一些擾動,小球的運動(漲落)是比較小的(如圖中棕色虛線所示),而當小球落在比較平坦的勢阱中時,給小球同樣大小的擾動,那麼它可以有比較大的漲落幅度。這裡,我們所討論的擾動都與能量面(系統)本身無關,這種擾動來自於系統以外,因此系統對擾動的敏感性體現為「功能敏感性」。另一方面,我們也可以考慮對系統(能量面)本身作擾動,例如對能量面作一個小小的平移(移動到淺藍色的曲線),如果擾動前後,原勢阱附近的能量變化很小,就說明在這個勢阱附近,系統是突變穩定的,反之則是突變敏感的。如下圖所示,陡峭的勢阱經過平移,原先能量極小值點的能量增加了許多,是突變敏感的;而平緩的勢阱在經過平移之後,能量的改變很小,因此是突變穩定的。
圖5. 在低自由度的系統中,功能敏感性和突變穩定性二者是等價的
上面的這個例子如果用數學語言來說的話,系統對外界擾動的敏感性可以用勢函數對變量(variable)的二階導數(與我們前面提到的「曲率」相關)來描述;系統對內部擾動的穩定性性可以用勢函數對參數(parameter)的二階導數來描述,前者對應於勢函數對變量的Hessian矩陣;後者對應於勢函數對參數的Hessian矩陣,而它在統計學中對應於Fisher信息矩陣,這裡我們不再延伸討論。總之,綜合以上的結果,我們發現,在這樣一個低自由度的系統中,功能敏感性(系統對外界擾動的敏感性)與突變穩定性(系統對內部擾動的穩定性)是聯繫在一起的,甚至可以說是等價的(證明略)。
我們也可以從上一節中所介紹的特徵值的相關特性來說明這種等價性。我們考慮一個二能級系統,它本身的兩個特徵值為E1和E2,E1≤E2,我們考慮固定這兩個特徵值的和,這相當於固定了系統的總能量(在彈性網絡中對應於總邊數,證明略)。如果要最大化這個系統的突變穩定性,正如之前討論的,需要最大化這個系統兩個值之間的距離。而如果要最大化系統的功能敏感性,我們則希望最小化其中較小的特徵值,讓它儘可能接近於0,這樣該模式所對應的運動就可以被很小的擾動而激發。在這個僅有很小自由度的體系中,不管是最大化功能敏感性還是突變穩定性,我們都需要最大化特徵值之間的距離。
對於較多自由度的系統,情況當然會比這更複雜,在上一節中,我們用熵最大化的方法討論了相關的問題。有意思的是,如果我們從真實的蛋白質結構出發,搭建彈性網絡模型,並計算其振動譜分布,接著,我們可以分別計算出這個體系的功能敏感性(用特徵值的乘積表示)和突變穩定性(用特徵值的差表示)。有意思的是,我們發現,蛋白質分子的功能敏感性和突變穩定性二者是成正比的。這個現象看起來很簡單,但仔細想想,卻不那麼簡單,因為如果我們隨機選擇兩個數字,顯然不可能保證這兩個數的乘積跟差的絕對值(或者商)成正比。這個結果表明,看起來有很多自由度的蛋白質體系,其實跟前面提到的二能級系統類似,看起來有許多自由度的蛋白質動力學和進化現象,其實是非常低維的。
圖6. 真實的蛋白質結構數據也表明功能敏感性和突變穩定性二者成正比
在蛋白質分子以外,許多其它生物系統也常常表現出低維特性,這種現象並不難理解。首先,兩個原本獨立的自由度可能通過約束條件,直接變成非獨立的自由度,而生命作為一個複雜系統,內部有海量的約束,這些約束不是讓系統的自由度增加,而是讓系統的自由度降低。其次,生命系統的內部也還有許多其它物理的約束,例如對稱性、幾何空間或者幾何維度的約束、能量的約束等等,這些約束也讓生物系統的實際自由度數大大地降低了。
有意思的是,生命系統不僅常常表現出較低的自由度,而且常常隨著進化的進行,它還往往會變得越來越低維,關於這種現象,可以參考論文[6]。舉個例子,比方說,在某種特殊的環境(pH、鹽濃度)下培養細菌,然後不斷選擇適應這一環境的細菌,最終,細菌體內的生物網絡將表現得越來越「低維」。這種現象可以有一個直觀的解釋,大家在討論各種社會經濟問題時,常常用到一個詞,叫「內卷」,這種進化過程中的「降維」可以被非常粗略地理解成一種「內卷」。如果細菌體內的某些基因的表達或者某些通路的激活能極大地提高其在特定環境下的適應度,那麼在進化中,這些基因或者通路就有可能會不斷強化(當然,這也會伴隨著邊際效用遞減),與之相比,其它相互作用的效應就逐漸減弱了,整個系統可以被更簡單的模型所描述,換句話說,系統的維度也就下降了。而我們所提出的關於功能敏感性和突變穩定性的理論,為這種伴隨著進化而出現的「降維」提供了另一種解釋的圖像。在這一圖像下,隨著進化的進行,隨著系統維度的降低,「功能敏感性」和「突變穩定性」這兩個看起來不同的目標變得一致。
參考文獻:
[1] Hatakeyama, T. S., & Kaneko, K. (2015). Reciprocity between robustness of period and plasticity of phase in biological clocks. Physical Review Letters, 115(21), 218101.
[2] Tang, Q. Y., Hatakeyama, T. S., & Kaneko, K. (2020). Functional sensitivity and mutational robustness of proteins. Physical Review Research, 2(3), 033452.
[3] Tang, Q. Y., Zhang, Y. Y., Wang, J., Wang, W., & Chialvo, D. R. (2017). Critical fluctuations in the native state of proteins. Physical Review Letters, 118(8), 088102.
[4] Bahar, I., Lezon, T. R., Yang, L. W., & Eyal, E. (2010). Global dynamics of proteins: bridging between structure and function. Annual Review of Biophysics, 39: 23-42
[5] Keskar, N. S., Mudigere, D., Nocedal, J., Smelyanskiy, M., & Tang, P. T. P. (2016). On large-batch training for deep learning: Generalization gap and sharp minima. arXiv preprint arXiv:1609.04836.
[6] Sato, T. U., & Kaneko, K. (2020). Evolutionary dimension reduction in phenotypic space. Physical Review Research, 2(1), 013197.
作者: @傅渥成
編輯:鄧一雪