14年從碩士時候的分子生物學專業轉到計算生物學專業讀博士,大一、大二學過的統計學和線性代數,早已經一點不剩地還給了各位老師們。一個公式也不認識,一行代碼也沒寫過的,說著磕磕絆絆的英語,靠著碩士時靠複製粘貼做出來的一篇BMC Genomics,來到了這個陌生的國家。現在回憶起來,覺得當時我和我博士老闆膽子都挺大的。誤打誤撞來到這一領域,現在想想是個細思極恐的事情。每天手機的App不斷的在使用我們的地理位置,記錄我們的移動速度,我們每一個在淘寶上的消費,外賣的訂單,銀行卡和移動客戶端的支付記錄,我們的智能手環也不斷的在監控我們的心率,運動,睡眠等數據,一旦這些數據被標準化,足矣剖析一個人,落入不當之手也可以摧毀一個人。
一、公共數據分析與科研
談到公共數據挖掘,很多人從事科研工作的人都會想起基因家族進化分析、GEO、SRA等資料庫。過去十年,有無數優秀的公眾號文章、資料和在線講座介紹基因家族分析的細節。基因家族分析從十年前被追捧的對象,到近些年的鋪天蓋地,可能有些人覺得公共數據挖掘很難再出高水平的文章了。個人覺得其實不一定,只是科研的一個特點就是追求創新,在飛速發展的過程中,前言熱點會迅速的變成業內共識然後變成教科書裡的知識。我們讀到的文章中實驗涉及開始於至少一年到兩年前,當時的技術和認知都落後或者說遠遠落後於當前認知。因此數據分析(科研)不是山寨和仿造,而是用別人過去的數據解決我們自己現在的問題。它不是打把勢賣藝,所以不拼動作優美,但是要一劍封喉。這裡面有兩件事情非常重要,第一個是我們解決了什麼問題,第二個是通過解決這個問題,我們問出了什麼樣的問題供我們今後深入探索。
二、什麼是大數據和公共數據分析
說到大數據,很多人想到大數據分析和人工智慧,計算生物學、統計遺傳學這個小領域雖然被多次貼上這些標籤。但個人覺得這個小領域還不是,至少目前都不是。大數據分析和人工智慧是個宏大的概念,涉及各行各業。據我從事科研以來接近十年的經歷來說,願景宏大的標籤,往往是個概括和方向,眼下還不能準確的落到細節和實處,不管是大數據還是小數據掰開了揉碎了一定要落到實處解決一個具體的問題。不能說數據容量大,就是大數據。個人覺得大數據,首先要數據格式高度不標準化。可能是很多種數據類型的集合,比如音頻,視頻,地理坐標、報刊、雜誌,博客,以及DNA序列,這些可能只有幾個幾百個GB,但是要想通過挖掘這些數據回答某一個現實意義的問題,足矣稱為大數據分析。反過來,有很多測序數據,像冰島芬蘭在測序全國的百萬以上的人群,這些DNA序列放一起,可能存儲容量上是天文數字,但是比起前者,我覺得前者例子更加能體現大數據分析的本質。
作為一個計算生物學從業人員,經常會被問到這個行業是做什麼的問題。有人說我是做生物信息的,有人說我是做統計學的,有人說是做數量遺傳學的,有人說是做多組學分析的,也有人說我是做大數據的。都沒錯,但是都沒有特別貼切。我個人的理解是這個行業從業人員用自己對數據的理解,用數據分析這個工具,去解決一個的確切問題。這個過程是個高度學科交叉的過程,有時候需要改良些生物信息學的流程,有時候需要改動一些統計模型,但最終大家都是回答一個具體的生物學問題。一個項目開始之前提出的假設設計的試驗思路分析方法,要被從數據中看到的結果無數次的推翻,在不斷的推翻自己的假設過程中,一步步建立新的假設來接近真像,因此公共數據分析就是利用公共數據接近一個事實的過程。落腳點可能不是自己最初問的那個問題,但是會是一個比較穩健的事實。其實很多學科很類似,我們假設一個基因導致了某個表型,我們基因,蛋白水平上的幹預,想看看這種幹預是怎麼一步步影響我們測得的各個指標。可能唯一不同的是公共數據分析乃至數據分析整個行業,結果非常不容易預測。所以當花了老闆幾十幾百萬的GWAS定位結果慘不忍睹時候,當QTL定位Peak垮了半條染色體時,當實驗結果無法證明預期想像的時候,多問幾個為什麼,因為在堅持一點點,放棄自己的原假設,可能就會柳暗花明。
三、公共數據能幹什麼
1. 能發大文章麼?
說來慚愧,博士和博士後接近七年了,有同事說自己是個地地道道的Data parasite,一作的文章,至今還沒有分析過一手數據。幾乎所有的文章都是二手、三手或者N手數據。不能自己生產數據確實會制約一些問題的回答,但是帶來的好處就是可以天馬行空的問各種問題,絲毫不影響發表多篇科研文章。如果條件允許,產生一些數據會對公共數據挖掘有非常大的促進作用。但是如果沒條件,公共數據完全可以支撐一個課題組持續發表高水平的文章。我的博士所在課題組就是個最好的例子,近幾年利用擬南芥、酵母公共數據發表了一篇Nature Genetics,兩篇Molecular Biology and Evolution,四篇PLoS Genetics,所以公共數據與否不應該是發表高水平文章的制約(不信你看這裡https://www.researchgate.net/profile/Oerjan_Carlborg),想解決什麼科學問題,需要什麼樣的數據去解決它,下面才是是否產生數據和利用公共數據的問題。
2. 公共數據會影響我們的生活麼
去年無意中在Youtobe上看到了一個視頻,作為平日裡對隱私不敏感的一個人,也出了一身冷汗。Google map在後臺一直在搜集我們的位置信息,知道我們過去每天去了哪裡,乘坐什麼交通工具(移動速度多少),停留了多久,中途遇到了誰。現代社會中,我們手機的App不斷的在使用我們的地理位置,記錄我們的移動速度,我們每一個在淘寶上的消費,外賣的訂單,銀行卡和移動客戶端的支付記錄,我們的智能手環也不斷的在監控我們的心率,運動,睡眠等數據,這些數據的力量一旦被挖掘出來,可以認識一個人,可以深度剖析一個人,落入不當之手也可以摧毀一個人。一旦這些數據標準化,不光可以了解一個人過去的行蹤,健康狀態,消費習慣,交際圈,喜怒哀樂,而且可以預測一個人未來。今天基於個人基因組數據去預測健康,在人身保險領域已經有了很多討論。可以肯定的是科幻電影裡出現的AI預測未來,將會漸漸的走進我們的生活。
3. 公共數據能影響產業和社會麼
我們個人也好,管理機構或者政府也罷,都是依據我們掌握信息,做出我們認為符合時宜的各種各樣的選擇。這個過程中,信息不對稱,導致了很多不是最優化的選擇,而大量數據可以打破這種不對稱的壁壘,最優化社會的人力和資源配置。比如農業領域,今年種什麼品種,什麼時候播種,做什麼樣的栽培管理,什麼時候做,全國的產量和需求實時信息怎麼樣,怎麼樣最大化農民利益、土地肥力和市場供求。這個領域儘管剛剛起步,當前對農業生產的幫助也還很小,但是可以肯定的是今後必然會有一個長足的發展,未來的農業必然會有一個因數據而來的變革。最近爆出來的一家名為Cambridge Analytica 的公司,已經通過自然語言處理挖掘Facebook, Twitter信息,獲取民意,並且在適當的時候在適當的人朋友圈裡,發布消息而對多個國家的選舉進行操縱。
四、怎麼學公共數據挖掘
1、先打破一個徹頭徹尾的偽命題------機器學習不是統計學,統計學不是數學。
事實是機器學習< 統計學 < 數學。整個數據分析領域,對高等數學知識的依賴,少得可憐,大多數只是統計學和線性代數。而統計學除了成堆的公式,更多的是一種思維,成堆的公式誰都會忘,但是思維方式會深深地烙印在我們解決問題的方式中。可以說統計對於數據分析從業人員非常重要,可以區別一個數據分析從業人員的好壞。但是不得不說,這不是一個必要的條件,因為任何事情,掰開了揉得足夠的碎,都是機械的重複,都是一個個pipeline的排列組合,這可能也是我這個統計學學渣,為什麼能從分子生物學,成功轉型到計算生物學的原因。其實常見的幾個機器學習算法中用到的統計學知識,和整個統計學相比少得可憐,所以一個下定決心的人註定是可以學會的。
2. 掌握一門程式語言
說起編程,R語言,Perl語言,Python語言,C語言等等,大多數人會感覺到陌生,感覺高大上,其實它只是一門語言,有規範的程式和語法,就和我們說話一樣。寫一部小說的能力不是每個人都有,但是拉拉家常,人人都會。所以會中文和外語的我們,沒有理由學不會編程,沒理由學不會一些簡單卻可以取代我們繁瑣的工作的技巧。
這裡給大家講個故事,2011年我和我的Y師兄做一篇基因家族分析的文章,我們都不會編程,四五個月裡,用複製粘貼從NCBI blast了一個基因家族,手動,粘貼保存blast hit 到記事本裡,手動在SMART做蛋白結構的預測,手動在Word裡search一個個基因,在把搜到的基因複製粘貼分類出來做enrichment analyisis,去GEO手動下載了一個的microarray數據。在兩個人四五個月每天十多個小時的複製粘貼後,我們居然發表了一篇BMC Genomics。而今天同樣的工作,可能也就幾百行代碼,一周的工作量。而這個代碼大多數還不需要自己寫,只需要知道去哪裡找什麼。掌握一門編程,並不是讓大家精通都去做程式設計師,不管是做實驗的還是在社會某一個工作崗位,掌握一門語言裡的小技巧會讓工作和生活中的一些細節變得非常便捷
3. 技能是學會的不是被教會的
經歷過大學教育,我們大多數都具有幾天通過一門考試的技能。但是這種神技在掌握技能面前,往往不堪一擊。因為技能是自己學會的,不是被教會的。只有在做項目的過程中不斷反覆的實踐才有可能學會數據分析這項技能。對我個人而言,在接觸了同事的代碼,並在Github和Kaggle上一行一行啃過前輩們的代碼,透過代碼了解他們的思維方式之後,才漸漸的入了這一行。
4.沒有背景,行麼?
14年從碩士時候的分子生物學專業轉型到計算生物學讀博士,大學時學過的統計學和線性代數,早已經一點不剩的還給了各位老師們。一個公式也不認識,一行代碼也沒寫過的,說著磕磕絆絆的英語,靠著碩士時複製粘貼出來的一篇BMC Genomics,來到了這個陌生的國家。現在回憶起來,覺得當時我和我博士老闆膽子都挺大的。以前聽說只需要五年就可以從0開始成為一個領域的專家,當時覺得有點恐怖。雖然自己只是顆小草,但是想和猶豫不決的你說只要努力了,沒有什麼不可能的。
未來故事,請掃碼關注。也拜託各位老師、同學和家長,把它傳播給需要的師弟師妹。也歡迎各位師弟師妹,如果想知道或者了解什麼方面,請留言互動。我會盡力和身邊大佬同仁學習後,努力給大家一個全面的總結。
聽一個科研工作者說故事