DNAm Age、甲基化、生物年齡、R語言、Horvath、表觀遺傳
今天我們就來詳細地講一下,這個Horvath的用甲基化數據,來測你的生物年齡的具體方法,那麼我們首先來看一下,這個他的論文,這個論文,他是這邊確實是2013年的,2013年的時候寫的這個論文我們可以在這個公開的網站上都可以看到,DNA methyltion age of human tissues and cell types,就是這個DNA甲基化的年齡,針對這個人類的,這個不同的組織,以及這種不同的細胞類型,這個是2013年的一個主要論文,然後它後面呢對這個論文還進行了很多的改進補充。我們這個呢,論文還是很長的,講起來比較枯燥,我們就快快速過吧,有興趣的朋友,你看我這個上面這個網址,你可以或者自己去搜這個論文,自己去找也可以啊,我們這邊要快速地過一下,他這些都是講了具體的實驗裡面的數據,這裡講一些實驗數據我們就簡單的看圖吧,看圖比較好理解,你看這個圖,這個圖一看一個個都是斜線,這是什麼玩意啊?在這個其實就是一個叫身份證的年齡,跟你這個甲基化的生物的,這個年齡他通過這個方法,他有一個叫做正相關,他的正相關的程度達到是0.93左右,就是說幾乎就是非常相關的,這個是正相關,他這個主要。 在統計學裡面,因為他這個整套這個假計劃測年齡的這個方法,它是基於一個統計學的原理,統計學不是我們講的,什麼幾個數字加在一起,求平均那幾個數字加在一起求個和,他不是這種,他是比較高級的這個統計學,用到一些什麼什麼什麼線性回歸啊什麼的,具體我們這個技術就不講了,有興趣的可以自己慢慢研究的,這些都是講得很多不同的細胞,不同的細胞,他的在這個相關性就是這個年齡的相關性啊,它都是一個斜線,就說明他是非常相關的話,我們再往下看,快點啊,目錄簡介,就是講的技術背景,然後,這是結果,結果他這裡看到了提到了一個Mumina27K啊。Mumina27K為什麼是Mumina27K呢?因為這個Horvath這個教授呢,他做的這個研究呢,它很多的,可以說是一種就是說他們不是用自己的實驗數據。做研究,它有兩種,一種就是自己去做實驗,自己去臨床啊,找人啊,找幾十個人,在那裡做著然後再分析數據,還有一種呢,就是用別人的研究的論文裡面的數據把它引用過來,比如說我引用了十幾個二十幾個三十幾個其他論文的數據,然後對他們的這個數據再進一步分析能夠得到我所要支持的這個結論,就通過這種方法這種方法就是你不要自己去做實驗,那這種方法也有他的好處很多,很多中國有很多那些做科研的,因為做實驗要花很多錢,你要省錢,又要做出科研成果,又要拿出論文怎麼辦呢?就引用別人的數據,因為引用別人的數據可以得到你的這個分析結果也是可以的,很多人用這種方法可以比較快的出論文,也比較省錢,Horvath的這個方法呢,它就是引用到了許多其他人的這個數據,別人有的時候比如說他是在研究大腦的,研究什麼其他疾病的,它裡面也有這個甲基化的這個數據,它就把它拿過來引用,所以呢,因為它這個是2013年時候的,寫的論文,然後時間比較早,然後他在引用別人的數據,又是別人更早之前的數據,所以那個時候主流可能就是Mumina27K,現在27k已經是接近於淘汰了很多,現在都是450k850k了,那麼所以他這邊的,他這個論文主要是基於這27k的這個數據,你如果用了450的k850k個數據越多越好,他這個方法也可以支持,只不過這個數據越詳細呢,你這個要測的這個價錢就越貴,然後基於他那個論文來講呢,27k,就完全足夠了,我們在想著他的結論,然後他最後有一個materials and methods,就是講它具體的方法,因為論文裡面呢,要具體的計算方法沒有怎麼講,然後這個算法沒有怎麼講,它主要是放在這個附加的這個,這個material message就是作為一個附件裡面,它裡面講到了詳細的這個計算的方法啊。然後他這個用的一個語言的叫R語言啊,R 就是一個字母英文R,一個字母,這個語言它是一個統計學的語言。做一些統計分析上面用到的。那這個有興趣的朋友可以自己學,自己在研究,那麼如果你有了,測到了甲基化的數據,想要去推算自己的年齡怎麼辦,你又不想去搞這個R語言,怎麼辦?有辦法,這邊這個Horvath這個教授他非常非常的好,他把他的這套東西做了一個小網站,你不需要去學這個R語言也不要去搞這個調試這個程序啊,這個統計啊什麼的,你直接把你這個甲基化的數據,上傳到這個Horvath做的這個小網站上面,它自動它後臺有一套統計分析的東西,要分析出這個結果,然後就直接拿到結果了,好我們來看一下。 OK,好,這邊我們看到一個,這個呢,就是這個Horvath做的一個網站,你看他那個網址就是這個UCLA,這個就是加州那個洛杉磯大學這個遺傳學的啊,它本身就是遺傳學這個教授。DNA methylation age and the epigenetic clock,就是表觀的時鐘和甲基化年齡與這個表觀時鐘,他這個裡面網站上面呢,對他的這個方法進行了一個介紹,然後呢,他這邊呢還做了一個calculator,calculator就是一個計算器,他這個計算機就是說你把你這個計劃數據上傳上去,上傳到這個計算器這個網站,它就可以自動幫你算出來,他這裡面講了一下,怎麼用這個網站怎麼去計算這個年齡,這裡都詳細的講了。這個R語言,R語言的這個介紹,如果你要自己去編輯這個啊,語言他這裡也有介紹,有興趣的可以自己玩啊,我這裡就不好,然後這個計算完了我們在,等一下我們再看一下這邊這邊有一個就是那個維基百科,Epigenetic clock,就是講這個表觀時鐘,表觀時鐘主要裡面就談到了這個Horvath的這個時鐘,這個時鐘也被稱為Horvath『s clock。因為是他發明的這個Horvath『s clock這個時鐘裡面介紹詳細的這個甲基化數據,來進行這個測生物年齡的詳細介紹,有興趣的可以到這個,到這個維基百科上面自己去研究。我們繼續過啊,OK,現在我們來到了這個核心的地方,這邊這個紅色的這個就是這個DNA Methylation Age Calculator就是DNA的甲基化年齡計算器,他把他的這個論文裡面用到的這個方法,做了一個網站,網站的後臺就是那一套計算方法,那麼,我們想要直接去算的,這個小夥伴們就不要再去搞編程的東西了,你到這個網站上面去註冊,註冊好了他會給你的帳號,你用他那個帳號進去,那比如說我我這裡註冊好了已經啊,我用這個帳號進去,把你上面首先在填你的Email, Email地址填好,然後第2個格子 Methy lation Data File就是你的甲基化的數據文件在這裡上傳,然後第2個格子是Annotation File。Annotation就是一些類似於對你這個甲基化數據進行一些注釋,你可以傳也可以不傳,如果傳了那最好不傳的話也能算出來,這無所謂,你剛開始你就不傳,等你玩熟了之後你知道怎麼用了你再去傳也可以。就是注釋你這個年齡啊,有什麼疾病啊,你這個細胞是什麼什麼組織的細胞,是採了什麼血什麼時間啊什麼的,就這些,下面有一個Normalize Data這個地方呢,一般建議你打勾把它勾上,默認的不要動,然後你這邊提交submit,提交就可以了,一般除非你這個數據非常大,如果小的話,如果一個人兩個人的話,很快就能得到結果,他這個結果會發Email會回報給你,匯報給你發Email會發給你,告訴你這個結果測到了這個人多大年齡啊這些數據分析的一些情況,大家看這樣就非常方便了吧,是不是啊?這樣就非常的方便,然後這個網站裡面還有一些important things啊,這裡面就是有一些這個教你這個數據要注意一些事項,傳這個數據別傳錯了,他的格式啊,怎麼個用法啊,然後,他還有你自己要進行數據處理怎麼處理?好這是講數據,然後我們再看這邊。這個home,這就是他的主頁了,分享出來。Steve Horvath我們感謝這個偉大的科學家,我們要感謝他,把他的研究了這麼好的一個東西給他分享出來,這邊都基本上就看過了,有興趣了再慢慢講吧,因為我一個字一個字的講,講半天都講不完。他這裡面有兩個也還有一種呢比較詳細的,詳細就是測血液,血液裡面用到了什麼什麼,比較詳細的也有,但是我們先不講我們如果只是抗衰老這個年齡的話,因為他一個簡單的版本基本上就夠了,基本上就夠了,然後,大家等一會兒我再給大家看一下,這邊有個FAQ啊,大家可以看一下,就是將這個表觀時鐘和DNAm age,DNAm age就是代表DNA甲基化年齡啊,這是一個縮寫,DNAm age,然後這個地方呢,它有很多的這個問題,你有各種各樣的問題去問他,他這裡會回答你,就是怎麼關於上傳數據的一些問題。我沒辦法一個一個講這些東西,你要實際自己去傳了之後,你就會去看去研究。我這邊一點點講很,多大傢伙可能就都要睡著了啊,我就不講了。我們看一下這個圖片吧,圖片看圖片最簡單了,看看圖片啊,這個圖片畫的是蠻好玩的啊,你看從小孩一直到老人,你看它每個上面都畫了很多小鍾,看到沒有上面畫了很多鍾。視頻都可以看清楚了,這裡面的小鍾,代表著整個人的這個過程是由身體內部的,這個時鐘驅動你變老的,這個時鐘就是它這個叫甲基化的表觀時鐘是驅動著變老的,這也就是為什麼,讓衰老暫停,抗衰老甚至逆轉年齡,他有可能他跟這部分的理論也是有關係的。因為它是甲基化的東西,既然你這個年齡,這個這個衰老程度,年輕衰老是有一個東西要控制的,是有一個時鐘的,那我把這個時鐘往回撥,你不就抗衰老了嗎?這是一個簡單粗暴的想法就是這樣,下面我們再給大家看一下這個,有個pdf文件呢,是對他這個時鐘的一個解釋, 可能也是屬於論文的一部分,講這個東西怎麼用,怎麼上傳數據, 這裡呢就是一個數據的樣本,數據的樣本啊,這個甲基化數據的樣本就是這樣的,這裡面都是零點幾這個數據,這邊第一行一行一行的,這是什麼東西?這一個一個,一行代表一個基因,一個基因一個基因一個基因一個基因,因他這邊是兩萬七千多個,每個基因有那個cp的毛利潤統計出來的甲基化的情況是一個數值,0.7,0.2,0.03,這是一個人,這一年就是一個人的數據,這是第2個人的數據,第3個人的數據,當然你這可以是一個人的數據,也可以是那個細胞。比如說一個人測了5種細胞,那麼這5種細胞,就說這是5個人也可以,5個人,5個人5個人也可以,就看你怎麼測,因為它一個細胞裡面就有一套DNA,一套DNA裡面,就有這個DNA甲基化的數據。身體裡面的細胞都不一樣的,而尿液裡面的細胞主要是經過你這個腎臟和內部這個循環的,所以出來的這些東西的尿液裡面的呢是比較代表了你這個身體的內部器官,尤其是這個腎臟裡面有一些細胞脫落,脫落了之後呢,就會進這個尿液到這個尿裡面,然後呢,這些細胞裡面它也是有DNA的,這個就比較代表的是身體內部器官的這個細胞,哪怕以後他血液的話,要抽血的話裡面有那個什麼什麼紅細胞白細胞的就是代表這些細胞啊,這就是這個數據啊,其實是就是就是一大串東西啊,其實啊,你搞懂的話其實也不難,也挺簡單的,這裡就講了怎麼去上傳上傳的一些注意事項,這個數據格式別搞錯,這主要是講這些東西啊,這裡是講的那個標記。那這裡裡有一些,這個類型什麼血細胞的什麼CD4t細胞,什麼還有骨頭細胞大腦細胞,反正什麼肝臟細胞腎臟細胞。反正好多細胞,,這個是詳細的,有興趣的可以在這裡再看,我這邊就不多講,我們再看一下這邊。我們看這個,這裡有一個叫,這裡的面相也就是這樣數據剛剛是在一個資料裡面,看出來這個數據是排練的,其實他是個csv文本,csv的就是純文本了,成本你用任何編輯器打開,裡面就是這樣的數據也是一樣。1100000292,這就是代表了一個基因,代表了一個基因這個基因啊,在這個一年的數據講計劃數據,那這就是一個人這個是第2個人,這就他兩個人那就兩個兩個數據再排下來,一共是有2萬七千多行,就是這樣,然後這裡有一個就是前面講到了一個注釋的數據,你可以傳這個數據也可以不傳,注釋數據裡面呢主要是有一些這個名字,基因id然後這個是哪個染色體?然後還有一些什麼,還有一些什麼什麼什麼亂七八糟的,有些東西我現在也也只能了解個大概有興趣的,因為我上次去試的時候我沒有傳這個數據,我就傳了一個甲基化數據,這些注釋啊什麼的就不傳,他照樣可以算出來啊,那麼所以剛開始也不用研究那麼細啦,一下子研究那麼細也吃不消,這邊呢也是一個,他的一個文檔是一個論文的一個相當於論文的一個附件,裡面也講了這個東西,講了具體的這個,這個怎麼傳法怎麼弄的啊?這個東西相當相當長,你沒個一天兩天也看不下來,我們就不不多講了。這裡是一個樣例,這個樣例他是代表了前面講的,前面的一列一列的列,就是GSM開頭的就在這裡面,然後這是那個什麼組織,然後這個是什麼腦細胞,這個人是什麼得了什麼病的什麼,這是因為他引用了別人的數據,所以對這個數據有一個概括,對數據概括啊,然後這裡呢也是,這個也就是那個甲基化的數據了,啊,都是cg開頭的,cg開頭因為它代表這個c PG島呢,cg開頭的,然後這裡就是樣例,我們再看一下這個,這個就是他的這個,這就是也是那個一個描述性的一個,這個無所謂的,這也是另外一個,這是一個對數據進行分析的時候,做了這個藍色代表什麼紅色代表什麼,這個就沒什麼多講了,我就不講了,等一下我再給大家看一下另一個東西。再補充一下再給大家看一下,就是說我把這個甲基化的數據提交上去了之後,然後過了一段時間,如果你數據量比較小的話,很快的就會有這個,這個郵件會發給你,這個這個測的結果好,然後我這個就是我做實驗的時候提交了兩個數據,然後他很快就發了結果回來了我們看一下,這個就是The process ing is finished,the results are attached的就是在這個時候,你的這個處理結束了,結果在附件裡面我看一下附件,那我就說你這個處理的,如果有什麼數據有錯的話,他會有一些錯誤提示,什麼數據錯了或者說它的程序,統計的這個程序執行出錯會有提示,那麼這裡面沒有出錯 ,有這個正確的,總共有兩個樣本,兩個樣本。27,000多個這個數據,OK,然後,在看這裡這個畫面看到的就是,你得到的你這個年齡的答案了,啊,這個很簡單,他這裡就兩行,因為我當時測試的時候就傳了兩兩條數據,兩兩組甲基化的數據,所以他回來之後我就兩組的第1個,這是編號第1組第2組,然後第1個年齡是60.277,第2個年齡是43.49,這就是抽樣的年齡了,那麼在後面是什麼東西呢?再後面是他這個,甲基化的這個什麼樣本的值啊?然後最小值,然後還有什麼差值,然後預測他是哪個性別的,這是什麼染色體什麼,然後他會根據可能根據這個x染色體來知道他這個性別什麼的吧,還有一個就是叫。還有一個就是它這個測得它的相關程度有相關性,這就是一些統計學上的一些參數,比如說你測到的這個結果,最大值最小值,然後相關程度準不準確啊什麼的,其實你這個無所謂的,你最重要的就是前面這個,你就得到一個數字,這個數字就是你測出來的這個年齡了,其實你看一下看這個其實很簡單,就是用這個Horvath自己做的這個web的這個網站,就可以了,你也不要去搞這個程序開發。當然如果你有興趣,把這個做成一個自己的業務,想要自己做一個這個服務,在中國提供這樣的服務,那也是相當好的,那你可能就需要研究一下,他這個網站,然後他這個後臺的這個具體程序,你就進一步研究把他這套程序,你自己把它弄下來,然後自己運行,那你就不需要依靠這個網站了,那你這樣也可以,那麼作為我們個人來講呢,你這樣能夠抽到一個結果就OK了,今天就大概介紹一下,有任何疑問再跟著搜索汪先生抗衰老啊,微博,西瓜,騰訊,都可以搜索汪先生抗衰老,跟我聯繫啊,然後今天就講到這裡吧。-