2015年深圳IT領袖峰會上,華大基因執行長王俊發表題了《IT與BT融合:產業的爆發點》主題演講。
王俊在演講中提出「生命是數位化的,是另一種以碳為基礎的語言體系」的觀點。
在演講中,王俊介紹了基因檢測在罕見病治療、腫瘤早期發現等方面可以起到的作用。他說,基因的不同組合,形成了不同的生命程序,代表了不同的生存策略。每一個物種都是基因信息的載體。除了物種之外,對個體來講也一樣,每個人的生命程序也不一樣。
王俊提到,利用自己的基因預知未來的生活和健康狀況。如腫瘤的早期發現和早期診斷,以及腫瘤的個性化治療。
而想要研究清楚絕大多數複雜疾病,需要100萬人基因的研究,如果這些研究完成,可以在所有數據的基礎上,預知未來健康走向,這種預知可以促進一些改變。
王俊稱,1999年中國華大基因參與了1%人類基因組計劃。當時測序需要10億美金,最近已經降成1萬美金,仍然很貴;要搜集100萬人的數據仍然很貴,現在可以做到1000美金,估計明年會推出500美金可以測定一個人的完整基因。
王俊
以下為王俊演講全文:
今天我演講的題目叫做「IT和BT融合產業的爆發點」,這個題目本來不是我選的題目,我選的題目本來叫「生命的語言」,但是最後被組委會否了。我是一個做基因科技的人跑到IT領袖峰會來講,所以我必須有一些題目能夠反映IT,所以我改了一個題目當BT遇上IT誰會愛上誰。後來我的助理告訴我不能用這個題目,一定會被打回來,然後我就想了一個一定不會被打回來的題目。雖然這個題目聽起來平淡無奇,但是一定會過審批。我這個人比較固執,所以我還是很願意講一講生命的語言,為什麼用生命的語言來闡述今天的題目?
當我們講數位化的時候,講計算機,講IT,習慣於以矽為體系。但是在講到生命的時候是以碳為體系。生命的基礎是碳,生命是數位化的,為什麼講生命是數位化的?它能夠儲存嗎?能夠編程嗎?能夠用不同的程序改變來實現不同的生命形式嗎?可以做克隆嗎?行還是不行?當然是行的,我們是很容易做克隆的。它能存儲嗎?能,為什麼能那麼簡單從一個羊身上提一個細胞變成另一個羊呢?因為那個羊的細胞儲存了所有羊的生命程序。
一個巴掌大的DNA可以儲存多少年呢?事實上可以達到上億年的儲存時間,最起碼可以上百萬年。現在沒有任何一種存儲介質可以把這樣的信息載體儲存上百萬年的時間,所以DNA是可以存儲的。他能夠計算嗎?當然能夠。因為計算和編程最核心基本單位是基因,基因是生命體最基本構成單位。
我們每個人身上蘊藏所有信息組合就是一套生命信息基本程序,這套基本程序就是生命的語言。它的語言怎麼形成的呢?在最開始的時候,就像每個程式設計師寫出一個功能模塊希望所有人都用他這個功能模塊一樣,在生命體裡形成一些基因、一些蛋白質、一些小分子,基因、蛋白質、小分子也希望不斷擴張自己,在不斷擴張自己同時,其實在美國有一本書非常出名,整個不斷過程就是不斷複製、不斷擴張、不斷延展,有時候發現一個基因並不夠用,可以和其他基因一起合作,兩個基因、三個基因一起合作更好的時候,當一堆基因合作更好的時候,就形成個體。
我們人身上有2-3萬個基因,水稻有5萬多基因,不同物種有不同基因,比如我們現在看到一個酵母菌用4000個基因,所有不同基因組合形式不同的生命程序,不同生命程序就形成你這個個體與周圍環境適應。你的每一套程序代表著不同的生存策略,這套不同的生存策略事實上針對於不同環境體系而來。在他檢查你的程序到底好用不好用唯一標準就是你這套程序能不能活下去,傳播更多後代。當你選擇傳播更多後代的這套程序就叫做可以適應於這套環境的生命語言。所以我們看見所謂的達爾文進化學說、適者生存都是這個基礎上建立,我們每個人更基因信息的載體,每個人跟微小蟲子相比都發現了相似性,很多基因從那兒傳到我們身上。
對於個體來說也是一樣的,每個人一套生命程序也是不一樣的。為什麼西藏人可以高山適應,為什麼我們上了高原有非常強的高原反應,是因為身體一套程序沒有寫進高山適應的基因,藏族人有一套基因,有這個基因的人群可以在高原體系上沒有反應,像我們在上面就不行。在漢族人體系裡就只有5%人有這個基因,而藏族人達到95%。
這樣的東西不僅僅單純存在在西藏特別複雜極端的環境裡,還有很多東西跟飲食相關,比如南方傣族人因為在祖先經常吃檳榔,所以體內基因很多跟檳榔適應。等等。我可出舉很多例子。這是個體水平的變化。個體水平為什麼會變化呢?為什麼西藏人跟漢族人不一樣呢?它的分支到底怎麼回事?其實他背後有很多有意思的東西。比如說它的變化來源是什麼?當我們考慮一個精子、卵子結合的時候,他發生了重組,每一代當中,你孩子和父母之間有100個基因突變,這些基礎就形成不同生存策略,環境在時時刻刻變化、基因在時時刻刻變化,基因組是預測程序。
你身上基因是因為你祖先上千年、上萬年不斷學習、進化,對你後來有可能遇到的環境的預測。你體內基因不會告訴你去不去高原,但是一定會告訴你去完高原會有什麼反應。這是非常有意思的假設。如果每個人生下來就有一個盒子,這個盒子清楚告訴你往哪去、會發生什麼樣的影響,他如何指導和我們生活呢?首先第一個問題,如果我有一個盒子,編程告訴我能活多少歲。有人說你的基因,如果你做真正很好的遵循基因告訴你的事情,你可以活到150歲,但是為什麼活不到150歲?因為你會得各種各樣的病,這些病從年輕的時候開始一直到年老都有關係,而這些病跟基因有什麼關係、或者跟環境、跟數位化、跟IT、BT有什麼關係呢?我通過幾個方面解釋。
基因裡面的毛病有點像寫程序的時候出了一個bug,出了bug,基因程序運營不了,在有時候就出現很嚴重的問題。比如各種各樣罕見疾病。有罕見疾病的一般生存周期都非常短,我們有各種各樣例子,這種罕見疾病聽起來非常罕見,但是加起來一點都不罕見,中國有大於5.6%的孩子出生有各種各樣的出生缺陷,非常大的。生命程序不斷試代碼、試代碼過程中不斷試錯,當然每一個錯誤並不是代表新的往前演化的可能。
對付他們我們該怎麼辦?華大經常收到這樣的東西,這是一個血書,從一個魚鱗病患者寫給我們的,他們有一個組織,這樣的組織有很多,比如瓷娃娃協會等等,這一個魚鱗病患者的妻子寫的,他希望能夠把這個病變成可防可控。現在這個夫人生了一個孩子,幸運的是沒有得這個病。就是因為通過基因檢測了這個程序。當孩子出身之前,我能不能做一些檢測,早點發現有什麼問題,早點控制,當然可以。這是第一個。我能不能先查一下你的父親、母親有沒有基因突變,如果有,你們生孩子概率有多少,如果這樣的話,以後就不要配八字了,談戀愛結婚之前先配一下基因,看生命基因程序是不是匹配。我們一般在教堂宣誓都這麼講,無論是疾病與否、健康與否都一輩待在一起。
兩廣福建地區地中海貧血攜帶率差不多19%,如果有兩個攜帶者的夫婦結合在一起,生了地中學貧血孩子的可能性非常大。我們可以人工受精,做一個移植前檢測,移植前檢測在中國很多醫院已經開展了。再往下一步,如果懷孕了怎麼辦?懷孕兩到三個月之內可以對孩子進行完整基因檢測,尤其是針對非常罕見的基因性疾病,通過這些篩差可以達到出生前防控。如果再往下走,新生兒出生了還需不需要檢測?中國耳聾發生率很多是因為錯用抗生素,如果體內基因不能受鏈黴素這個抗生素,一下就耳聾。
如果早一點知道他得各種各樣的心臟病、耳聾,包括自閉症風險,我們是不是可以早一點幹預?是可以的。我們能不能治呢?除了用一個非常可變的信息看這些東西之後,我們又有一個非常瘋狂的想法,能不能通過大數據挖掘發現一些罕見病真正解決方案呢?答案是可以的,非常有意思,我們有一個計劃,搜索了100萬人基因數據,尋找那些單純從基因校對來講他應該單基因疾病,但是非常健康,這些人我們叫超級英雄,這些人非常有意思,他們體內有非常明確的致病基因,但是非常健康,為什麼?因為體內有另外一套基因保護他。就像程序我一段出現bug,但是有另外一段修復,就非常健康。如果找出那一段是什麼,也許可以找出罕見性疾病的藥物。我們以後不要再去澆冰桶,這是道義上的支持,更重要的支持就是基因測序。
再往下走是腫瘤,很多人面對腫瘤威脅,腫瘤是你生存過程中由於環境因素影響,你的基因程序在變異,所有細胞都來源於第一個細胞,受精卵細胞,從那個細胞開始每次都會引發程序變化。不同環境影響會導致程序非常大不同,比如抽菸增加肺部細胞變異率。用簡單IT方式來講,是你生命程序那段代碼被黑客給黑了。黑客黑的概率會隨著環境因素不同而變化,如果經常抽菸,如果經常生活在不好的環境裡,深圳是非常好的。或者受到各種各樣病毒感染,可能程序被黑。
怎麼辦呢?其中有可能一個細胞發生被黑了,沒有關係,有人說我身體有上億個細胞。但是如果一個細胞被黑了,他很有可能獲得比其他細胞更強的適應性,他可以不斷擴張。從一個腫瘤細胞發生到你最後你可以用CT掃描能查出來,平均要15年。也就是15年內體內有腫瘤細胞你不知道,我們能不能早點發現他,答案是可以的,因為所有細胞最終都要游離到血液裡,我們通過非常深度的基因檢測可以看到你體內有沒有腫瘤細胞。
我得了腫瘤怎麼辦呢?每一個人的腫瘤,每一個個體,腫瘤每一個細胞的基因都不一樣,你做的事是對所有細胞真正基因監測,而不是簡單的手術一切、放療、化療,這樣的治療有可能在未來兩三年內看到飛速發展。如果所有努力都是為了增加腫瘤患者生存概率,那還有另外的我沒有提到的,但是大家非常關注的,比如慢性疾病、感染性疾病,其實萬物都是跟基因有關係。我的體內細胞如果以人為一個整體的話,作為人這個個體的細胞只佔人體的細胞的1/10,還有9/10是各種各樣的微生物、各種各樣病毒,你天天洗兩次澡都沒有用。你吸收一個半小時候所有細菌都回來了。這些微生物並不是都是壞的,比如微生物體內病源微生物會形成什麼影響?所帶來影響是非常大的,比如伊波拉病毒、SARS病毒,90%發燒腹瀉你根本不知道怎麼回事。小於1%微生物可以被培養,你根本沒有辦法搞明白到底什麼讓你發燒、什麼讓你腹瀉,你可以所有DNA提取出來,一個小時內就知道到底怎麼會感染。早一點這樣做,就可以早一點擺脫疾病風險。
還有另外一個事情,高血糖、高血壓三高,30年前中國糖尿病發生率0.67%,現在已經接近11%,1/4中國成年人要麼得糖尿病、要麼要得糖尿病,不可能是基因在過去30年有非常大的改變,是因為飲食變化、環境變化,引發腸道微生物菌群失調,很多疾病都跟這個有關係。你能怎麼辦呢?比如少吃碳水化合物,比如多運動,再來一點猛的,查完之後,缺什麼微生物就補什麼。如果補一兩個不管用,把你認為健康的體內的微生物轉給你就行了,怎麼管?糞便移植,這樣的東西已經逐漸在醫學界應用了。
我們應該做的是一個雞尾酒療法,確保你體內是符合真正健康的菌群體系,最終我們要完成這個生命公式,自己的基因、環境因素的基因,各種各樣的東西,右邊是你表現的狀況,身高、體重、各種各樣的病理特徵、健康與否,中間的公式怎麼寫呢?這個時候就體現了剛才吳恩達老師講的題目,我們只知道一個城市的輸入端、輸出端,中間是怎麼編程,毫無所知。該怎麼辦呢?大數據,健康大數據取決於把所有輸入端、輸出端全部計算清楚,如果研究清楚身高基因的關係,需要100萬人。要研究清楚絕大部分複雜疾病和基因以及環境的關係,需要100萬人。你需要把100萬人各種各樣信息全部搜集,才能得到剛才講的生命公式。
用什麼方法呢?這種方法到底貴不貴呢?這種方法非常昂貴。1999年中國華大基因參與了1%人類基因組計劃。當時測序需要10億美金,最近已經降成1萬美金,仍然很貴,要搜集100萬人的數據仍然很貴,現在可以做到1000美金,我估計明年會推出一個500美金可以測定一個人的完整基因。這就可以搜集基因數據。什麼時候可以免費呢?免費實施的到來事實上在於基因本身的數據價值遠遠大於產生他的數據所需要的成本。對於華大來講這樣一個趨勢延續我們認為在2019年左右,5年左右時間我們可以真正達到這樣的結果。
除了這種基因數據之外,我們知道現在比較時髦的詞,物聯網,收集各種各樣輸入輸出數據,比如未來廁所將是智能廁所,當在廁所方便,所有代謝物、蛋白質數據等等數據都收集起來,包括躺在床上各種各樣的體徵數據、坐車等等各種數據都收集完成後,你一定要記得要把他們連起來,為什麼講基因組網絡那麼重要,所有在座的人、所有的男人12萬年前來源一個男人,所有女人12萬年前來源一個女人。我們的科學研究發現所有都來自一個人,這是什麼概念呢?
有人說這是亞當和夏娃,中國70%漢族人追溯到6000年前就三個人,炎黃蚩尤。所有東亞人,40%東亞人追溯到之前就11個人。如果把每個人數據都連起來,形成基因組網絡,將是不可估量,我們講網際網路。IT網際網路企業,超級計算機,個人電腦,真正成了不可估量的機會。每個人在上面產生數據和支持,基因組是一樣的。人因基因組計劃,每個人的基因計劃,當所有基因組形成網絡,我們有一個網站叫同病相憐網站,當所有病人組合了一個網站,我們就可能有機會把這個基因和病之間的關係搞清楚,在上面會形成各種各樣的機會,這些機會、信息和知識是以前我們在沒有做甚至一個個人基因組是不可想像的。
最終要做的是需要人工智慧來學習,因為這麼大的量已經不可能用一個單一模型來解決。而華大已經在做很多事,這些事聽起來像天方夜譚,我們做了3000株小米,在同一個地方測定各種各樣生長條件,最後看出來他產量是多少、營養成分怎麼樣、各種各樣結果,我們給他進行深度學習、人工智慧方法,現在給定另外一駐小米,我有90%準確性可以預測他長的怎麼樣。對健康有這樣的能力嗎?當我們擁有100萬人基因測序的時候,離這樣的能力很近。歐巴馬提出一個精準醫療計劃,就是要做100萬人基因組庫,當所有人完成後,我們會有一個水晶球,預測對你未來健康走向預知,而這樣的預知很有可能再做一些改變,我們聽過3D列印、細胞存儲、基因編輯、我們聽過合成生物學,喝的啤酒的酵母將不是自然界酵母,而是計算機寫出來的,酵母產生的啤酒味道也許比你現在喝的任何啤酒味道都要好。
還有,生命信息的存儲,我們都叫幹細胞,幹細胞什麼意思?就是年輕時候的生命信息,你不是想年輕嗎?在你年老的時候能不能把年輕時候的信息再回到,也許就年輕了。所有像科學幻想的東西都在生命科學界在以飛速方式往前走。從健康角度,我們老說吃得好,活得長。對健康追求不是感性願望,對我們來說對在座IT大佬來說更重要是理性追求,如果真正基於一個所謂人工智慧方式、大數據處理方式,能管理健康、掌握預測的程序和健康關係,也許是真正最有意義的,基因科技最能夠帶給人類的福祉,自然以山清水秀為美、人以健康長壽為福,所有華大應該追求的目標就是基因科技,造福人類。如果簡單說一下華大,華大是全球最大的基因組中心、最大的生物信息中心。掌握了只有5500人,我們平均年齡27歲。華大機構遍布60多個國家,同時是國家基因庫承辦單位,國家基因庫存儲各樣生命信息體。
當我們定義一個生命的時候,其實我們講不清楚,如果在未來計算機體系裡面給他有很多很多生命邏輯,他會變成一個生命體嗎?如果我們計算大腦已經可以跟人腦匹配的時候,它有生命性嗎?當我們擁有改變人類基因的時候,我們是怎麼應該控制我們這種能力?所有這些東西都非常值得大家思考,作為另外一個緯度的IT人,在座各位是矽基因維度的,我是碳基因維度的,作為另外一個緯度的,我希望給大家帶來的不僅僅是對生命認知,而且是對健康認知最佳理性的選擇。謝謝!