過去六七年科研中我與公共數據的故事

2020-11-09 數據科學那些事兒

14年從碩士時候的分子生物學專業轉到計算生物學專業讀博士,大一、大二學過的統計學和線性代數,早已經一點不剩地還給了各位老師們。一個公式也不認識,一行代碼也沒寫過的,說著磕磕絆絆的英語,靠著碩士時靠複製粘貼做出來的一篇BMC Genomics,來到了這個陌生的國家。現在回憶起來,覺得當時我和我博士老闆膽子都挺大的。誤打誤撞來到這一領域,現在想想是個細思極恐的事情。每天手機的App不斷的在使用我們的地理位置,記錄我們的移動速度,我們每一個在淘寶上的消費,外賣的訂單,銀行卡和移動客戶端的支付記錄,我們的智能手環也不斷的在監控我們的心率,運動,睡眠等數據,一旦這些數據被標準化,足矣剖析一個人,落入不當之手也可以摧毀一個人。


一、公共數據分析與科研


談到公共數據挖掘,很多人從事科研工作的人都會想起基因家族進化分析、GEO、SRA等資料庫。過去十年,有無數優秀的公眾號文章、資料和在線講座介紹基因家族分析的細節。基因家族分析從十年前被追捧的對象,到近些年的鋪天蓋地,可能有些人覺得公共數據挖掘很難再出高水平的文章了。個人覺得其實不一定,只是科研的一個特點就是追求創新,在飛速發展的過程中,前言熱點會迅速的變成業內共識然後變成教科書裡的知識。我們讀到的文章中實驗涉及開始於至少一年到兩年前,當時的技術和認知都落後或者說遠遠落後於當前認知。因此數據分析(科研)不是山寨和仿造,而是用別人過去的數據解決我們自己現在的問題。它不是打把勢賣藝,所以不拼動作優美,但是要一劍封喉。這裡面有兩件事情非常重要,第一個是我們解決了什麼問題,第二個是通過解決這個問題,我們問出了什麼樣的問題供我們今後深入探索。


二、什麼是大數據和公共數據分析


說到大數據,很多人想到大數據分析和人工智慧,計算生物學、統計遺傳學這個小領域雖然被多次貼上這些標籤。但個人覺得這個小領域還不是,至少目前都不是。大數據分析和人工智慧是個宏大的概念,涉及各行各業。據我從事科研以來接近十年的經歷來說,願景宏大的標籤,往往是個概括和方向,眼下還不能準確的落到細節和實處,不管是大數據還是小數據掰開了揉碎了一定要落到實處解決一個具體的問題。不能說數據容量大,就是大數據。個人覺得大數據,首先要數據格式高度不標準化。可能是很多種數據類型的集合,比如音頻,視頻,地理坐標、報刊、雜誌,博客,以及DNA序列,這些可能只有幾個幾百個GB,但是要想通過挖掘這些數據回答某一個現實意義的問題,足矣稱為大數據分析。反過來,有很多測序數據,像冰島芬蘭在測序全國的百萬以上的人群,這些DNA序列放一起,可能存儲容量上是天文數字,但是比起前者,我覺得前者例子更加能體現大數據分析的本質。


作為一個計算生物學從業人員,經常會被問到這個行業是做什麼的問題。有人說我是做生物信息的,有人說我是做統計學的,有人說是做數量遺傳學的,有人說是做多組學分析的,也有人說我是做大數據的。都沒錯,但是都沒有特別貼切。我個人的理解是這個行業從業人員用自己對數據的理解,用數據分析這個工具,去解決一個的確切問題。這個過程是個高度學科交叉的過程,有時候需要改良些生物信息學的流程,有時候需要改動一些統計模型,但最終大家都是回答一個具體的生物學問題。一個項目開始之前提出的假設設計的試驗思路分析方法,要被從數據中看到的結果無數次的推翻,在不斷的推翻自己的假設過程中,一步步建立新的假設來接近真像因此公共數據分析就是利用公共數據接近一個事實的過程。落腳點可能不是自己最初問的那個問題,但是會是一個比較穩健的事實。其實很多學科很類似,我們假設一個基因導致了某個表型,我們基因,蛋白水平上的幹預,想看看這種幹預是怎麼一步步影響我們測得的各個指標。可能唯一不同的是公共數據分析乃至數據分析整個行業,結果非常不容易預測。所以當花了老闆幾十幾百萬的GWAS定位結果慘不忍睹時候,當QTL定位Peak垮了半條染色體時,當實驗結果無法證明預期想像的時候,多問幾個為什麼,因為在堅持一點點,放棄自己的原假設,可能就會柳暗花明。


三、公共數據能幹什麼


1. 能發大文章麼?


說來慚愧,博士和博士後接近七年了,有同事說自己是個地地道道的Data parasite,一作的文章,至今還沒有分析過一手數據。幾乎所有的文章都是二手、三手或者N手數據。不能自己生產數據確實會制約一些問題的回答,但是帶來的好處就是可以天馬行空的問各種問題,絲毫不影響發表多篇科研文章。如果條件允許,產生一些數據會對公共數據挖掘有非常大的促進作用。但是如果沒條件,公共數據完全可以支撐一個課題組持續發表高水平的文章。我的博士所在課題組就是個最好的例子,近幾年利用擬南芥、酵母公共數據發表了一篇Nature Genetics,兩篇Molecular Biology and Evolution,四篇PLoS Genetics,所以公共數據與否不應該是發表高水平文章的制約(不信你看這裡https://www.researchgate.net/profile/Oerjan_Carlborg),想解決什麼科學問題,需要什麼樣的數據去解決它,下面才是是否產生數據和利用公共數據的問題。


2. 公共數據會影響我們的生活麼


去年無意中在Youtobe上看到了一個視頻,作為平日裡對隱私不敏感的一個人,也出了一身冷汗。Google map在後臺一直在搜集我們的位置信息,知道我們過去每天去了哪裡,乘坐什麼交通工具(移動速度多少),停留了多久,中途遇到了誰。現代社會中,我們手機的App不斷的在使用我們的地理位置,記錄我們的移動速度,我們每一個在淘寶上的消費,外賣的訂單,銀行卡和移動客戶端的支付記錄,我們的智能手環也不斷的在監控我們的心率,運動,睡眠等數據,這些數據的力量一旦被挖掘出來,可以認識一個人,可以深度剖析一個人,落入不當之手也可以摧毀一個人。一旦這些數據標準化,不光可以了解一個人過去的行蹤,健康狀態,消費習慣,交際圈,喜怒哀樂,而且可以預測一個人未來。今天基於個人基因組數據去預測健康,在人身保險領域已經有了很多討論。可以肯定的是科幻電影裡出現的AI預測未來,將會漸漸的走進我們的生活。


3. 公共數據能影響產業和社會麼


我們個人也好,管理機構或者政府也罷,都是依據我們掌握信息,做出我們認為符合時宜的各種各樣的選擇。這個過程中,信息不對稱,導致了很多不是最優化的選擇,而大量數據可以打破這種不對稱的壁壘,最優化社會的人力和資源配置。比如農業領域,今年種什麼品種,什麼時候播種,做什麼樣的栽培管理,什麼時候做,全國的產量和需求實時信息怎麼樣,怎麼樣最大化農民利益、土地肥力和市場供求。這個領域儘管剛剛起步,當前對農業生產的幫助也還很小,但是可以肯定的是今後必然會有一個長足的發展,未來的農業必然會有一個因數據而來的變革。最近爆出來的一家名為Cambridge Analytica 的公司,已經通過自然語言處理挖掘Facebook, Twitter信息,獲取民意,並且在適當的時候在適當的人朋友圈裡,發布消息而對多個國家的選舉進行操縱。


四、怎麼學公共數據挖掘


1、先打破一個徹頭徹尾的偽命題------機器學習不是統計學,統計學不是數學。


事實是機器學習< 統計學 < 數學。整個數據分析領域,對高等數學知識的依賴,少得可憐,大多數只是統計學和線性代數。而統計學除了成堆的公式,更多的是一種思維,成堆的公式誰都會忘,但是思維方式會深深地烙印在我們解決問題的方式中。可以說統計對於數據分析從業人員非常重要,可以區別一個數據分析從業人員的好壞。但是不得不說,這不是一個必要的條件,因為任何事情,掰開了揉得足夠的碎,都是機械的重複,都是一個個pipeline的排列組合,這可能也是我這個統計學學渣,為什麼能從分子生物學,成功轉型到計算生物學的原因。其實常見的幾個機器學習算法中用到的統計學知識,和整個統計學相比少得可憐,所以一個下定決心的人註定是可以學會的。


2. 掌握一門程式語言


說起編程,R語言,Perl語言,Python語言,C語言等等,大多數人會感覺到陌生,感覺高大上,其實它只是一門語言,有規範的程式和語法,就和我們說話一樣。寫一部小說的能力不是每個人都有,但是拉拉家常,人人都會。所以會中文和外語的我們,沒有理由學不會編程,沒理由學不會一些簡單卻可以取代我們繁瑣的工作的技巧。


這裡給大家講個故事,2011年我和我的Y師兄做一篇基因家族分析的文章,我們都不會編程,四五個月裡,用複製粘貼從NCBI blast了一個基因家族,手動,粘貼保存blast hit 到記事本裡,手動在SMART做蛋白結構的預測,手動在Word裡search一個個基因,在把搜到的基因複製粘貼分類出來做enrichment analyisis,去GEO手動下載了一個的microarray數據。在兩個人四五個月每天十多個小時的複製粘貼後,我們居然發表了一篇BMC Genomics。而今天同樣的工作,可能也就幾百行代碼,一周的工作量。而這個代碼大多數還不需要自己寫,只需要知道去哪裡找什麼。掌握一門編程,並不是讓大家精通都去做程式設計師,不管是做實驗的還是在社會某一個工作崗位,掌握一門語言裡的小技巧會讓工作和生活中的一些細節變得非常便捷


3. 技能是學會的不是被教會的


經歷過大學教育,我們大多數都具有幾天通過一門考試的技能。但是這種神技在掌握技能面前,往往不堪一擊。因為技能是自己學會的,不是被教會的。只有在做項目的過程中不斷反覆的實踐才有可能學會數據分析這項技能。對我個人而言,在接觸了同事的代碼,並在Github和Kaggle上一行一行啃過前輩們的代碼,透過代碼了解他們的思維方式之後,才漸漸的入了這一行。


4.沒有背景,行麼?


14年從碩士時候的分子生物學專業轉型到計算生物學讀博士,大學時學過的統計學和線性代數,早已經一點不剩的還給了各位老師們。一個公式也不認識,一行代碼也沒寫過的,說著磕磕絆絆的英語,靠著碩士時複製粘貼出來的一篇BMC Genomics,來到了這個陌生的國家。現在回憶起來,覺得當時我和我博士老闆膽子都挺大的。以前聽說只需要五年就可以從0開始成為一個領域的專家,當時覺得有點恐怖。雖然自己只是顆小草,但是想和猶豫不決的你說只要努力了,沒有什麼不可能的。


未來故事,請掃碼關注。也拜託各位老師、同學和家長,把它傳播給需要的師弟師妹。也歡迎各位師弟師妹,如果想知道或者了解什麼方面,請留言互動。我會盡力和身邊大佬同仁學習後,努力給大家一個全面的總結。

聽一個科研工作者說故事

相關焦點

  • 過去十年,中美十大高校高引論文對比,真實的數據顯示科研差距!
    哈佛大學名副其實的名校過去十年中美十大高校對比判斷一所高校的好壞有很多標準,但是在目前科技社會下,哪些高校對世界科研貢獻大,哪些高校就可以稱為世界名校,在過去的十年間,中國高校不斷進步,縮小了和世界名校間的差距,清華大學和北京大學的學術規模影響力已經屬於世界級名校,如果單純考慮數量規模甚至強勢接近美國十大高校行列,小編就拿最公平的高引論文數量來對比中美十大高校間的差距,畢竟全球各類排名考慮因素交大,高引論文數據來全球科研工作者的引用
  • 如何全面解析數據並創造數據故事 | 網際網路數據資訊網-199IT |...
    我們沒有意識到的是,再好的故事,如果沒有很好地呈現出來,也終究毫無用處!在一些公司中,分析任何事件的第一步是將故事載入其中。提問如,為什麼我們要分析它?我們能從中作出什麼決定?有時,單憑數據就可以講述一些直觀或複雜的故事,我們就不需要再運行複雜的相關性來證實了。需要故事和圖像來解釋數據的一個最好的例子是 「Anscombe四重奏解析」。
  • 「科學報導」並不科學:那些媒體故事比科研論文跑得更快
    但是,這不停加速的一切不得不令人擔憂,因為很多科研報導都並沒有足夠的時間進行驗證。事實上,許多發表出的文章根本不是科學研究,而是基於數據和調研方法推測得出的主觀結論,而文章中的相關數據和調研方法描述也都十分隱晦。
  • 打開臨床診療與醫學科研「數據通路」——大數據於臨床醫學價值的...
    一、臨床診療與科研脫節:數據處理是瓶頸現階段,國內醫療資源還是集中在大的三甲醫院中,這導致醫生在臨床上的工作強度非常大。要在臨床工作中穿插完成科研工作,時間和精力的分配面臨著巨大壓力。哈爾濱醫科大學胸外科馬建群教授告訴記者:「我個人科研時間大概佔30%左右,大部分時間還是投入到臨床工作中。明年我們醫院準備引進一位專門從事科研的人員,以提高我們科室的科研效率。
  • 疫情防控的偵察員、技術員、勤務員……他們是公共衛生醫師
    下午,國務院聯防聯控機制召開新聞發布會,介紹秋冬季疫情防控,以及醫療衛生工作者在抗擊新冠肺炎疫情中發揮的作用情況。會上,國家衛健委疾控局監察專員王斌介紹了公共衛生醫師在疫情防控工作中的作用:首先,公共衛生醫師是疫情防控決勝千裡的參謀員,在海量數據和信息中,他們動態分析研判疫情趨勢和防控策略、措施,為政府部門提供既有前瞻性又精準的專業防控建議。
  • 只有常人1/10的視力卻選擇做科研,她的故事登上Nature
    而今天我們要分享的故事主角,她的讀博之路,比普通人要來得更為艱苦。Naheda Sahtout 是加拿大薩斯喀徹溫大學化學系的博士生,她的視力只有常人的 1/10。對於一位要經常做實驗的理工學科博士而言,這樣的視力無疑會嚴重拖累科研進度。
  • 專業人士詳解上海「公共衛生建設20條」
    同濟大學附屬東方醫院院長劉中民教授在接受人民網記者採訪時認為,《若干意見》中關於「體系建設」亮點頻出,首先就是「建設集中統一、智慧高效的公共衛生應急指揮體系」,這裡重點在於提到了「體系」,而不是過去僅限於衛生系統針對某一種傳染病的一種衛生管理指揮體系,而是上升到整個要建設上海市民公共衛生中心,指揮權在市級層面。
  • 62億條公共數據的變革力量 餘杭求解政府數位化轉型
    數字經濟先行區餘杭,在經濟總量領跑全省的耀眼光環之下,正靜水流深地匯集著公共數據資源。目前,該區已經形成了一個62億條量的公共數據資源池。這些高居雲端的資源,正通過一個個場景化的應用落地,在政府決策、公共管理、社會服務等各個領域發揮著作用。
  • 新數據時代,科研需要什麼樣的創新基礎設施
    另一方面,數位化正在改變科研模式,過去相對薄弱的數字基礎設施開始面臨升級,亟需符合未來研發需求的新型基礎設施。正如發改委今年首次明確了新基建的範圍,將支撐科學研究等具有公益性質的重大科技、科教基礎設施劃分為創新基礎設施,屬於新基建未來重點投入方向。
  • 下棋、踢球…西安大爺辦奇石運動展 搜集石頭花了他六七年時間
    「這些石頭我奔波各地、花了六七年時間才找到的,一直在尋找靈感創作。」王國平告訴記者,自己年輕的時候是桌球運動員,後來愛上了收藏奇石,一直在琢磨怎麼用天然石頭表達喜愛的體育運動,經過這麼多年的努力,終於找到了這些形似的石頭,加以組合搭配,形成了十多種體育運動,目前還在繼續完善中,希望給每種運動都能找到相配的石頭。
  • 標點符號連接的科研故事
    在西安石油大學的校園裡有這樣一支科研團隊他們人數雖然不多近年來卻屢創佳績如參與的科研成果在《Nature》雜誌發表實驗中心獲得CNAS認可資格等等這個團隊就是「石油與天然氣工程實驗中心」科研團隊本文試用五個標點符號為大家講述他們的科研故事
  • 挖掘老一輩故事 傳承科研拼搏精神
    啟動儀式上,北京大學副校長、中國科學院院士黃如表示,採集老科學家故事,宣傳他們的科研精神、拼搏精神,對建設風清氣正的科研生態別具意義。調動各界力量,推進科學文化建設為什麼要聽科學家講那過去的故事?「這是一項搶救工程,如果不做,就永遠失去了寶貴的財富。」中國科協名譽主席、中科院院士韓啟德強調。
  • 計量經濟學助力公共政策優化
    圍繞計量經濟學與公共政策的相關話題,記者採訪了多位該領域學者。計量經濟學在科學決策中的應用主要體現在政策實施前的政策設計和政策實施後的政策評估中。在政策實施前,為了避免盲目決策,應儘可能對政策目標、政策範圍、政策內容以及政策可能面臨的幹擾和風險進行量化分析,在以事實(數據)為依據的基礎上進行綜合考慮和科學分析。在政策實施過程中,政策的實際效果往往受制於具體現實情況。
  • 從Nature子刊到Chem,一項令我三次落淚的研究背後故事
    每項好的研究都會有一個靈魂,其背後總會有些刻骨銘心的故事。然而,從事科研至今,從沒哪項研究令我動情如此之深。研究背景先簡單介紹下這項研究的背景。鐵基單原子催化劑作為目前最優的電催化氧氣還原(ORR)非貴金屬催化材料之一,其催化位點的真實結構和催化機理仍存爭議。
  • 2019全球未來出行大會|上海市新能源汽車公共數據採集與監測研究...
    以下為上海市新能源汽車公共數據採集與監測研究中心副主任丁曉華演講內容實錄:大家下午好,上海新能源汽車公共數據採集與監測研究中心,負責上海從私人車和公共領域車車輛採集,我講一下通過數據端看到電動汽車充電行為特徵以及一些建議,數據都是我們中心的,建議是我個人的,如果有不合適的地方可以跟我進一步探討。
  • 《Nature》如何講好科研故事?好萊塢給研究人員的啟示
    「講故事」,是給科學家的可靠建議,但有時我覺得它還不夠深入人心;我認為,科學家們應當向善於編寫敘述的編劇學習。在商業上,講故事是個嚴謹的創作過程,尤其是關係到數百萬美金之時。動畫工作室Pixar的聯合創始人Ed Catmull在其著作《Creativity,Inc.》中解釋道,故事的發展就像同行評議,每一個情節,人物和對白都由資深的專業人員剖析。
  • 「我必須加快科研的腳步!」
    寄語 加入中國共產黨,我感到無比榮幸和自豪。初心如磐,使命在肩。他說,在病毒疫苗的研究上我還是個「新手」,但是做科研要有永不言棄的精神,要始終對真理有執著的追求。 研究進展不斷推進,全球疫情發展形勢也日趨緊張。張靖和夥伴們爭分奪秒,不停地給自己加碼,每天7時開始閱讀學習文獻資料,隨時關注跟進國內外關於新冠病毒的最新研究……不過有時,他們卻對時間「毫不在乎」。張靖笑著解釋:「隨時誰有疑問,就會發起視頻會議,討論起來,沒人會關注時間。」
  • 天津大學公共管理學院院長傅利平教授一行赴華盛頓參加美國公共...
    天津大學公共管理學院師生匯報了「公共運輸服務創新對政府監管的挑戰:如何平衡公眾需求和城市治理成本」等研究成果,分論壇上還針對英文期刊編輯在「數據收集的科學性」與「研究選題的創新性」兩方面的偏好與側重點展開討論。會議期間還就公共管理學科的發展和人才隊伍建設等話題同國內外公共管理學院教授交流。
  • 法國科研創新三大特點與未來挑戰
    過去的2014年是中法建交50周年,兩國為此舉辦了一系列慶祝活動,兩國的科教界也在此期間舉辦了一系列專題學術交流活動。2015年1月30日,中國總理李克強與法國總理瓦爾斯共同出席了在國家博物館舉行的中法建交50周年紀念活動閉幕式。結合科研信息化工作,這一年來,筆者對法國的科研體系做了跟蹤研究。
  • 科研與智庫成果選題與思考切入點
    筆者結合自己近十年來特別是近三年來的科研與智庫成果的選題實踐,試圖歸納在進行科研與智庫成果選題中思考的若干切入點,以求教於業界同行。筆者撰寫了《基於數據信息的公共圖書館發展分析與展望》(《圖書情報工作》2013年第5期),總結歸納了公共圖書館數據信息的十個轉變與趨勢,這就是從規模數據到效益數據、從硬體數據到軟體數據、從常規數據到新穎數據、從主體數據到客體數據、從內在數據到外在數據、從靜態數據到動態數據、從單一數據到綜合數據、從樣本數據到全本數據、從發展數據到綠色數據、從現實數據到目標數據。