發現基因數據背後的「知識」,全世界第一張獼猴桃基因組圖已繪出

2020-12-05 北京日報客戶端

基因研究,是前沿科學,代表著高新技術發展方向,吸引大批科研人員攻堅。鄭洪坤的團隊正在做的研究,就是發現基因數據背後的「知識」,繪出了全世界第一張獼猴桃的基因組圖,搭建中國第一個基因大數據云計算平臺,讓基因科技從偏重實驗研究逐步向產品化發展,使傳統行業能用上基因科技,讓老百姓享受基因科技應用成果。

獨創的東西才能在市場站穩腳

2001年大學一畢業,鄭洪坤就去了國內最早從事基因測序的華大公司,一幹就是8年。8年間,他從一名最基層的技術員做起,培養出了嚴謹的科學家思維和敏銳的市場化眼光,坐到了副總經理的位置。

2007年,行業內出了一項新技術——高通量基因測序。這項技術的出現,一下就把基因測序的檢測成本降低了很多。也就是在這一年,華大公司也面臨轉型,鄭洪坤被派了新任務,從技術崗位轉到了營銷崗位。

「我是一個想法很多的人,但當時在華大覺得自己的很多想法實現不了,施展不開拳腳,索性就辭職了。」2009年,剛剛29歲的鄭洪坤拉上了5名同事,組成自己的團隊,「想趁著自己還年輕,出去闖一闖。」

6個人,有技術、有營銷,是一個比較成熟的團隊。之前在華大,鄭洪坤已經在業內有了很好的口碑,所以公司剛起步的時候,就接到了不少項目,開頭並不難。

為了讓公司能穩步發展,第一年,他們每個人每個月只領2000元的工資,基本上只夠吃飽飯的。可鄭洪坤並不覺得苦,他已經對創業做好了充分的準備。

那些年,基因測序技術進入國內時間不長,市場正在蓬勃發展,許多人看到了其中的創新創業機會,鄭洪坤前後,就有數名華大公司骨幹離開公司去單獨創業。想法多、熱衷創新的鄭洪坤告訴同伴:「我們得有自主獨創的東西,才能在這個市場站穩腳跟。」

簡化基因組測序技術,就是鄭洪坤帶領團隊自主研發的新技術。這項技術的核心在於如何準確篩選出基因組中那1%最具有代表性的基因。

比如人類要找到控制身高的基因,如果只找一個高個子的,再找一個矮個子的,這樣對比他們的基因是看不出問題的,必須得找一堆高個子和一堆矮個子的基因來對比,也就是群體基因開發。

但一個人的基因本身就很多,如果每項都要檢測,成本太高了,根本測不起,所以就得從每個人身上選取1%最具有代表性的基因來檢測,從而確定到底是哪項基因決定了身高。鄭洪坤團隊新研發的這項技術,就能精準地挑選出這1%最具代表性的基因進行檢測,從而實現成本大幅度的降低。

第一年就有了自主創新的技術,直到現在,這項技術都是他們的核心競爭力。

繪出全世界第一張獼猴桃基因組圖

鄭洪坤給自己的公司取名為「百邁客」,是從單詞BIOMARKER音譯過來的。BIOMARKER是生物技術領域的專有名詞,是一種生物標誌物名稱,「我們公司的工作就是圍繞BIOMARKER。」

對鄭洪坤來說,BIOMARKER還有一個特殊的含義,bio有生物技術的意思,marker可以翻譯成標誌物,「我就想把公司做成行業裡的標杆!」

但在當時,國內的生物產業還遠遠落後於國際水平。中國科學家要想迎頭趕上,困難重重。

2011年,一個合作夥伴找來,想做獼猴桃的基因組項目,繪製獼猴桃全基因組圖譜。

獼猴桃本來就是中國產的,由紐西蘭引種改良成了奇異果,拿到全世界去賣。獼猴桃又被稱為「水果之王」,維生素C的含量非常高,繪製基因圖譜,可以找到決定維生素C含量的基因。

「對我們來說,獼猴桃變奇異果就是基因資源流失的例子,應該從基因組的範疇扳回一城。」鄭洪坤有個大膽的想法:讓全世界第一張獼猴桃的基因組圖,從中國的科學家團隊手裡做出來!

項目第一時間啟動。鄭洪坤配備了一個四人的實力團隊,另外把專門做基因組組裝的合伙人和技術骨幹,全都放進了獼猴桃項目組。

有一個已知的對手擺在那——紐西蘭一家基因測序機構,早在2008年就有上百人的科研團隊開始研究獼猴桃基因組,但一直沒有成功,主要是碰到了一些技術難題,卡殼了。

一定要搶在前面!鄭洪坤還是有信心的,他覺得自己的公司在技術上是有優勢的。獼猴桃項目的最大難點在於,它是木本植物,雜合度很高,父本和母本的基因差別很大,而怎麼準確把基因連接起來,匹配成功,則是最大的難點,這也是整個行業公認的難題。紐西蘭的科學家團隊也是卡在了這個難題上。

整個團隊沒日沒夜,分析每一個基因片段,和時間賽跑。鄭洪坤也把大量的時間和精力投入到獼猴桃基因組項目中。2013年,全球第一張獼猴桃全基因組圖譜面世!僅用了不到兩年的時間!

項目組寫好了論文,投到學術界享有盛譽的英國《NATURE》(《自然》)系列雜誌。但沒想到,論文發過去了半年,竟沒有一絲回音。

團隊成員都很著急,去問雜誌社,因為正常情況下,兩個月就能出結果。雜誌社編輯答覆:按照規定,每篇論文都要經過行業內的三名專家審核,而其中一名審稿人遲遲沒有給雜誌社反饋,雜誌社也很無奈,最終決定更換審稿人。

鄭洪坤告訴記者,他後來才知道,這位遲遲沒有給出反饋的審稿人,就是紐西蘭獼猴桃基因組研發團隊的科學家!

「當時真是被嚇得一激靈!我們的研究成果竟然在對手手裡,那種心情真是沒法說,心裡懸著一顆石頭。」幸好,好事多磨,就在雜誌社更換了審稿人後,反饋隨之而來:獼猴桃基因組的研究論文將在《Nature Communications》系列雜誌上發表!

獼猴桃基因組文章在《Nature Communications》雜誌上成功發表,大大鼓舞了團隊的信心。

2016年,鄭洪坤公司的白菜和芥菜這兩個基因組項目也取得了實質性進展,繪製出了基因組圖,對農業育種有很大的指導意義。同時,這兩項研究在2016年10月的《NATURE GENETICS》(《自然遺傳》)雜誌上發表論文,還成了當期的封面。

「滿滿的自豪,要知道《自然遺傳》可以說是這個領域最頂級的雜誌,搞生命科學的人,恨不得一輩子的追求就是在這本雜誌上發表論文。」鄭洪坤的團隊一下走到了「世界頂級」,但他們的研發道路並沒有停止。從這以後,公司每年都能在《自然遺傳》雜誌上發表好幾篇論文。

突破基因測序的「天花板」

科技,迭代的速度在不斷加快;作為科技工作者,要不斷地創新以適應。在基因測序行業,有一條規則是:競爭並不在於誰走得快,而在於誰走得遠。

基因測序服務公司已有不少。最初公司會更強調做一些和別人不一樣的產品,但是隨著行業發展成熟,可用的技術就擺在眼前,所有人都能接觸到,想從戰略上做創新比較難。

鄭洪坤不得不面對這一行業的「天花板」,需要「持續創新」。

「80後」的鄭洪坤,與同齡人有過一個相似的愛好:酷愛計算機。上大學時,生命科學其實並不是鄭洪坤的第一志願,他一心想學計算機,但無奈被調劑了志願。可鄭洪坤並沒有因此放棄他的愛好,他在大學裡就自學計算機,學編程、搞資料庫。畢業那年,他連讀研究生所需的200元體檢費都拿不出,當時手裡就剩七八十元了,索性花了60元,報名全國計算機等級考試。這下,鄭洪坤順利考了個四級證書,相當於在大學裡多修了一個專業。

正是這一愛好,為鄭洪坤打開了創新的另一扇窗。

鄭洪坤越做越發現,市場對基因大數據的管理分析需求很大,但各家提供的,基本上都只是數據,沒有人去做整合,更沒有對數據進行分析解讀。這樣一來,數據也就只是數據而已,沒法探究到數據背後的價值。

「其實基因行業與網際網路有很多相似的地方。網際網路是一個技術,可以應用到很多領域,基因也是如此,它可以應用到很多行業中,例如基因+科研、基因+大數據、基因+醫療等。我希望基因科技從偏實驗室、偏研究的領域逐步往與生活關係更密切的產品化方向發展,使傳統行業都能用上基因科技,讓老百姓真正感受到它發揮的作用。」鄭洪坤用「基因+」來形容基因組學造福人類的前景,他深知在龐大的基因資料庫裡其實潛藏著亟待深入挖掘的「富礦」。

愛琢磨的鄭洪坤有了「跨界」的想法:基於大數據,把基因數據管理和解讀整合起來,做成一種服務推向市場。「很想看看基因和大數據碰撞在一起,能撞出怎樣的火花。」

起初,公司的投資人並不同意這個項目,認為回錢太慢,看不見利潤。但鄭洪坤很堅持自己的想法,「基因是個很有用的東西,要把基因從研究領域轉到應用領域上去,這樣人類才能受益。我非常看好這個前景!」

投入了一百多人的研發團隊,歷時三年,鄭洪坤公司研發的中國第一個基因大數據云計算平臺2014年正式上線。這是一個共享平臺,涉及大數據存儲、雲計算、生物信息、軟體開發等多個交叉學科,研發難度可想而知。鄭洪坤還記得剛開始做的時候,自己把雲計算、大數據、生命科學等各個領域的精英集中在一起,「但他們互相都聽不懂對方在說什麼,很難把各自的想法融合在一起。」中途好些人退出,又不斷地有新人進來,在反覆的磨合和頭腦風暴後,才有了這個雲計算平臺的誕生。

這是一個大數據提煉為「知識」的平臺。所謂「知識」,就是指基因片斷的作用,如某種基因會導致某種基因疾病等。在雲平臺裡,不僅科研人員能夠進行基因數據分析存儲,從事生物信息技術的研發人員,也可以把自己開發的應用軟體上傳到雲端共享,而隨著用戶數據的不斷積累,雲計算平臺也具有了自我迭代的能力。

目前,雲計算平臺為醫學健康、農業育種等領域的兩萬餘用戶,提供了基因數據存儲、分析、共享等業務。平臺集成了8個基因大資料庫,100多款分析軟體以及大量文獻和雲課堂。

鄭洪坤說,雲計算平臺現在還只是給科學家和醫生用戶開放使用,等他們都用順暢了,再開放給普通用戶使用,那就意味著進入個人基因組時代,「到了那個時候,每個人測完自己的基因,就會有很多針對個人的精準選擇,像國家推的精準醫療,不同的人治療方案不一樣,就是根據基因的特點,來決定用藥,說到底最根本的不同就是基因的不同。」

如今,鄭洪坤的團隊已由當年的「六壯士」發展成為400餘人的大團隊,吸納了一批國內外知名大學的高精尖人才,每年還吸引50名應屆畢業生加入。公司年產值過億元。鄭洪坤大數據時代的基因夢已經揚帆起航,「未來,我們期待通過雲平臺,發現更多的基因數據背後的『知識』,讓基因技術更好地造福人類。」

新聞背景

基因測序的價值

基因是指控制生物性狀的遺傳信息,通常由DNA序列來承載。基因也可視作基本遺傳單位,亦即一段具有功能性的DNA或RNA序列。也就是說並不是所有序列都叫基因,基因片段只佔DNA序列總長的不到3%。

基因相當於神奇的密碼,控制著生物的特性。破解這些密碼,得先測定每種生物的DNA序列。

基因測序,將對我們的生活帶來重大改變。基因測序技術應用範圍較廣,主要分為科研服務、醫療應用服務以及非醫療基因檢測服務。其中,醫療應用服務是目前應用基因測序技術中活躍度較高且發展潛力較大的部分,涉及無創產前篩查、遺傳病診斷、植入前胚胎遺傳學診斷、腫瘤診斷等諸多領域。

我國的基因測序技術已發展至第三代,第三代測序技術是指單分子測序技術,對每一條DNA分子進行單獨測序,很好地規避了二代測序的軟肋。

來源:北京日報 記者:駱倩雯

流程編輯:洪園園

相關焦點

  • 視頻|走進廣元蒼溪,探訪全球最大紅心獼猴桃「基因庫」
    潰瘍病是獼猴桃的第一大病害,被稱為獼猴桃的「癌症」。近年來蒼溪紅心獼猴桃也深受潰瘍病危害,不少紅心獼猴桃果樹爛根,也毀壞了不少獼猴桃園。為了防止紅心獼猴桃潰瘍病,科創中心致力於解決此問題的科技攻關。蒼溪縣國家現代農業產業園科創中心是中國紅心獼猴桃產業的「中關村」,也是全國紅心獼猴桃產業的「種業中心」,掌握著全球紅心獼猴桃產業的核心「晶片」技術。
  • NAT COMMUN:中華獼猴桃基因組測序完成
    10月18日,中華獼猴桃(Actinidia chinensis)「紅陽」的基因組測序研究文章在國際權威雜誌《自然—通訊》(Nature Communications)在線發表。該項研究對廣泛栽培的中華獼猴桃品種「紅陽」的基因組進行分析,發現獼猴桃進化過程中3次基因組倍增歷史事件,揭示獼猴桃富含維生素C、類胡蘿蔔素、花青素等營養成分的基因組學機制,為獼猴桃品質改良和遺傳育種奠定了重要基礎。 中華獼猴桃基因組計劃由獼猴桃基因組國際合作組織(International Kiwifruit Genome Consortium, IKGC)歷時3年完成。
  • 專家繪出中國高致死性前列腺癌基因圖譜 填補空白
    中國專家繪出中國高致死性前列腺癌基因圖譜。研究示意圖中新網上海7月10日電 (孫國根 秦曉健 陳靜)記者10日獲悉,復旦大學附屬腫瘤醫院泌尿男生殖系統腫瘤多學科綜合診治團隊首席專家葉定偉教授和朱耀教授率領的臨床研究團隊,歷經4年艱苦研究,終於繪出中國高致死性前列腺癌基因圖譜,並發現,中國轉移性前列腺癌患者中胚系DNA修復基因突變率為12%。據悉,這樣的基因圖譜此前未有報導。
  • 用基因大數據打造「生命周期表」
    「計劃通過對地球上的生命進行基因、表型、生態等方面信息和知識的梳理、歸納和分析,發現隱藏在數據背後的生命規律,最終實現『數位化動植物,數位化地球』的宏偉目標。」 基因測序+數據挖掘 探尋生命之樹秘密 對於生命科學來說,在生命周期中起著類似化學元素在化學中基礎性作用的是基因。然而,生命個體的基因遠比化學元素複雜。 「像化學家從各種物質中鑑別出元素那樣,我們先要從豐富的物種中通過測序檢測出儘可能多的基因。這就是生命周期表計劃的基礎部分——針對地球上所有物種的基因組測序。」
  • 專家點評Cell|利用基因組圖揭示癌症複雜結構變異特徵
    Classes of Complex Structural Variation Uncovered across Thousands of CancerGenomeGraphs,基於一個關於DNA的簡單事實設計了連結平衡算法(Junction Balance Analysis,JaBbA),來把癌症基因組中的連結和拷貝數統一起來,重建出量化的基因組圖
  • 人類基因組計劃與基因測序 基於 DNA 數據的革命性時代已經到來
    隨著全世界數百萬甚至上千萬個體完成了個人基因組數據的解讀和分析,在過去的 2018 年,已經出現了一些基於 DNA 信息更加引人注目的新興技術,比如智商遺傳檢測、DNA 刑偵、新藥預測,並在這些領域取得了革命性的進展。
  • "基因圖譜之父"薩爾斯頓
    在用中文簡單問候了「大家好」後,這位67歲的「基因圖譜之父」隨即展開了自己的演講,演講的題目名為「科學與倫理的向左走與向右走」。「為什麼有些人比另一些人更容易感冒?為什麼有些人比另一些人更愛發脾氣?除了後天的個性外,主要是先天的基因在不知不覺地影響著我們。」作為排列出首份動物基因圖譜的科學家,2002年諾貝爾生理學或醫學獎得主,薩爾斯頓的開場白並沒有拉出一副「高深莫測」的架勢。
  • 崔永元手撕華大基因董事長背後: 疑將中國人遺傳基因數據傳至境外
    不過檢索發現,小崔讀書匯發布的關於華大基因的微博均已刪除。原因不明。  資料顯示,作為基因科技領域富有創新力的行業領袖,華大基因有過極為風格的發展歷史。2013年、2014年連續兩年入選美國權威商業雜誌Fast Company「中國十大最具創新力企業」,並被該雜誌評選入「2014年全球最具創新力企業」50強。
  • 消費級基因檢測生意經:免費背後的數據「護城河」
    「0元購」背後的數據生意繼6月推出祖源板塊「0元測」後,7月份,23魔方將「0元測」的內容進行了擴充,從最初的祖源板塊推廣到祖源、遺傳風險、遺傳特質、營養需求和藥物反應5個板塊的15項內容。這種方式不僅為23魔方聚集了大量的潛在付費用戶,也會使其迅速積累大量用戶數據。對於消費級基因檢測公司而言,數據相當於「護城河」,是最高的壁壘。只有積累了一定量的數據之後,公司才能逐步將其變現。據了解,美國兩家頭部公司23andMe、Ancestry都是在積累了百萬級的用戶數據後才順利盈利。
  • 結直腸腺瘤癌變基因圖譜繪出
    近日,北京大學第三醫院付衛研究團隊與北京大學湯富酬研究團隊聯合在國際知名學術期刊《腸道》上在線發表論文,深入探究了結直腸癌的發生發展過程,揭示了腺瘤發生和癌變過程中的重要基因突變和轉錄組變化特徵,為結直腸癌預防、早期篩查和治療提供了新的線索和思路。
  • 華大基因:「高光戰疫」背後的實力與效率
    來源:第一財經華大基因: 「高光戰疫」背後的實力與效率[ 截至2020年,華大基因累計參與發表1379篇文章,累計影響因子為11401.7。 ]如果說口罩是中國製造的代表,核酸檢測試劑則是中國科技戰疫的國際名片。
  • 「基因編輯」事件背後:相關技術60年前即已出現
    一起爭議事件,讓南方科技大學副教授賀建奎,以及其背後的基因編輯技術進入公眾視野。昨日,122位科學家發表聯合聲明,強烈譴責賀建奎的「成果」,未經嚴格安全倫理性審查即開展胚胎基因編輯;同時,國家衛生健康委員會已要求廣東省衛生健康委調查核實;最初的媒體報導也從網站上被撤下。
  • 深圳醫生首次發現耐藥基因 世界基因庫已為命名
    記者今天從深圳市第二人民醫院獲悉:該院檢驗科醫生在全球率先發現了兩個新的碳青黴烯類藥物耐藥基因,將有助減少耐藥菌產生,世界基因庫已將兩個新基因入庫並命名。  濫用抗生素是耐藥菌大量出現的主要原因。在1993年以前,美國每天開出7000萬份含抗生素的處方單,凡是懷疑有細菌感染的疾病,幾乎都要應用抗生素。
  • ...現在全世界 研究基因工程技術的目的是什麼?難道最終目的不是...
    我不知道 現在全世界 研究基因工程技術的目的是什麼?難道最終目的不是 基因編輯嗎?如果沒有人嘗試,什麼都不讓做,那全世界的科研人員在基因工程範圍內 都可以下崗了。
  • LIGO新發現最小黑洞?人類專屬聰明基因被證實
    近日,德國弗萊堡大學的科學家基於生物力學理論,通過計算機模擬,給出了「捕捉器」的驅動機制——植物的葉片中存在預應力 (prestress),昆蟲的觸碰會引起預應力的釋放,完成捕殺行動。該研究成果發表在《美國國家科學院院刊》。
  • 華大基因上市三周年:基因測序第一股「王者歸來」
    來源:藍鯨財經三年前的7月14日,華大基因(300676.SZ)以「基因測序第一股」的身份在深交所掛牌上市,錚然有聲地叩響了資本市場的大門。可以預見的是,2020年又將是華大基因的豐收之年,在這背後是華大基因持續的科研轉化所帶來的良好成績。上市三年來,華大基因的研發投入分別為1.74億元、2.65億元、3.34億元,佔營收比分別為8.32%、10.44%、11.94%。
  • 「聰明」基因在減少?基因大數據的研究可靠嗎?
    ,基因大數據了解一下所謂基因大數據,是指通過對數量龐大的人群樣本逐一進行基因測序,再利用計算機對測序結果進行分析,從而揭示出人類基因(遺傳信息)與某些表觀性狀之間的聯繫的新型基因研究方法。比如想以身高或者血壓高低作為表觀性狀,那麼就需要首先測量出受試者的相關數據,逐一錄入資料庫,再結合基因測序,就能得出具有某些基因的人,身高高於平均值或者血壓高於平均值的概率。這樣就能篩選出「高血壓」基因、「肥胖」基因、甚至「癌症」基因等等。近年來,科學家們逐漸把視野從研究基因對生理性功能的影響擴大到對社會行為的影響上。
  • 美專家首次繪出大腦關鍵區域發育基因「分布圖」
    新華網洛杉磯12月23日電(記者陳勇)美國達納·法爾布癌症研究所的科學家,第一次繪製出了控制大腦關鍵區域發育的基因「分布圖」。研究人員認為,這些關鍵基因如果發生變異,可能會導致腦癌或神經系統疾病,因此繪製這一基因「分布圖」將加快相關疾病機理和醫藥的研究。
  • 對話大咖,行業探討,30億對鹼基基因研究背後的數據「超存」挑戰
    基因庫建設對於社會發展具有重要意義,而基因庫的背後承載的是海量的數據存儲。2019年是國家基因庫建成的第3周年,現已具備88PB數據存儲能力、691萬億次/秒計算能力。截至目前,國家基因庫支持著國內外600多個項目,那麼在技術上如何同時滿足這些業務的需要?基因庫數據有哪些不同的特徵?基因數據在數據存儲、數據保護和數據遷移上面臨著哪些技術挑戰?
  • 世界最大人類基因數據集將免費對外開放
    網易探索3月31日報導 spectrum.ieee.org網站報導,美國國立衛生研究院29日宣布,他們的千人基因組計劃的全部數據將免費對外開放。這些數據總量達到200TB,是世界上最大的人類基因變異數據集。亞馬遜旗下的雲計算公司——「亞馬遜網絡服務」將存儲這個龐大的資料庫。千人基因組計劃旨在為基因變異如何影響健康以及與疾病間關係的研究奠定基礎。