提高數據分析的科學性與透明度,用統計學「反轉」中心法則

2021-01-07 電子發燒友
打開APP
提高數據分析的科學性與透明度,用統計學「反轉」中心法則

DeepTech深科技 發表於 2021-01-06 14:23:55

「對我而言,回答了自己心中的問題或者做出一個新的發現,這種成就感要遠高於生活中的其他快樂。」李婧翌對《麻省理工科技評論》中國這樣說道。

而她的研究內容在很多人眼裡或許稍顯枯燥:針對前沿的生物學問題開發新的統計學方法,尤其著重於對大規模基因組和轉錄組數據進行分析方法的開發。

由於高通量實驗技術的發展,生命科學從一個靠觀察實驗為主的學科逐漸變得更加需要定量化,而這些大規模數據的產生也需要算法才能夠進行分析,從而總結出數學規律並用規律來刻畫事物的本質。

加州大學洛杉磯分校(UCLA)統計系(已獲得終身教職)副教授和博士生導師,生物統計系、人類遺傳學系和計算醫學系博士生導師李婧翌認為,生命科學作為一個「宏科學」,儘管問題的本質與生命強相關,但研究手段需要各個學科一起合作,計算則是其中非常重要的一部分,大數據也需要有非常適合的挖掘工具,這對於從小對數學與科學有強烈興趣、並在本科與博士階段分別接受了生命科學與生物統計學系統教育的李婧翌有強大的吸引。

李婧翌的研究專注於統計學與生命科學的交叉問題,她首創性地使用嚴格的統計學來分析已發表的轉錄組學和蛋白組學數據,發現在過往研究中,由於研究人員對測量誤差的忽略,轉錄的重要性被嚴重低估,該分析挑戰了「翻譯比轉錄重要」的觀點卻支持了之前大量在 mRNA 轉錄水平的科學發現。因其重要性,李婧翌的研究結果被發表在 Science 雜誌並收錄於本科教材 Molecular Cell Biology 中。

圖 | 左圖是論文 B.Schwanhäusseretal.,Nature473,337(2011) 中在不考慮實驗數據誤差的情況下對轉錄、翻譯、mRNA 降解和蛋白質降解這四個步驟對於蛋白質含量的貢獻的估計;右圖是在校正了實驗數據誤差之後的估計。(來源:李婧翌的論文 Li et al. (2015). Statistics requantitates the central dogma. Science 347(6226):1066-1067.)

此外,李婧翌團隊還開發了大量生物信息學工具在組織和單細胞水平上對 mRNA 分子進行全系統測量,並正在開發一項能夠尋找到人群亞型中和疾病相關的基因變異的新的統計度量。

憑藉上述優異的研究成果,李婧翌成功入選 《麻省理工科技評論》「35 歲以下科技創新 35 人」(Innovators Under 35)2020 年中國區榜單。

圖 | 《麻省理工科技評論》「35 歲以下科技創新 35 人」2020 年中國區榜單入選者李婧翌

無心插柳,卻顛覆固有認知   

       早在 1958 年,中心轉錄法則便被提出,它指的是遺傳信息被編碼在 DNA 中,通過轉錄會變成 mRNA,再通過翻譯的過程變成蛋白質,這是所有有細胞結構的生物所遵循的法則。   在這個過程中,除了轉錄和翻譯生成了 mRNA 和蛋白質這兩個步驟,還存在 mRNA 和蛋白質的降解,這四個步驟共同決定了每一個基因所對應的蛋白質到底在我們細胞中存在多少量。不過,此前中心轉錄法則是一個定性表述,「沒有人知道每一步的速率是多少,也沒有人知道對最後蛋白質含量的影響有多少。」   在李婧翌博士即將畢業之時,她與合作者 Mark Biggin 博士共同研究中心轉錄法則的定量工作。偶然的一次機會,李婧翌和合作者發現,2011 年發表在 Nature 上的一篇文章首次在小鼠的全基因組的基因中進行了 4 項步驟的測量,其得出的結論是每個基因的 mRNA 的含量對於蛋白質含量的預測效果比較差,也就是說一個基因內 mRNA 的高或低並不太能代表它的蛋白質含量的高或低。   「這在當時是個非常讓人震驚的結論。因為我們有很多實驗手段可以用來研究 mRNA,但是研究蛋白質相對困難很多,所以大量生物學的發現成果都圍繞 mRNA 的含量水平。如果這篇文章的結果為真,那麼之前很多 mRNA 的結果可能都沒有什麼意義了。」李婧翌解釋道。   當李婧翌與合作夥伴看到這篇文章時,他們觀察到這項工作是將高通量質譜轉化為蛋白質含量,但在轉化過程中,它的標準實際上只基於高表達蛋白,並假設同樣的轉換方式也適用於低表達蛋白,由此導致了研究裡面很多低表達蛋白的表達指徵是很不準的,也就意味著高通量蛋白質測量很有可能存在誤差。   為了解決這一疑惑,李婧翌將實驗誤差考慮進建模後發現,實際上 mRNA 和蛋白質含量的相關性比 Nature 的文章報導的要高很多,轉錄的重要性被嚴重低估。這項「無心插柳」的研究結果被發表在 Science 雜誌並收錄於本科教材 Molecular Cell Biology 中。   李婧翌對《麻省理工科技評論》中國回憶道:「我覺得很有趣的一點是,我們將很基本的統計方法用到了正確的問題上,從而發現了非常意想不到的結果。這也說明了考慮數據測量的隨機性和數據噪音對科學結論十分重要。」這一年,李婧翌還不到 30 歲。 科研與教育同樣重要    作為一個青年科學家,李婧翌認為,保持對未知問題的好奇心,用研究拓寬人類的知識邊界,是支撐她科研工作的重要推動力。   作為一個科研人員,李婧翌認為目前的統計分析還遠遠談不上科學,「如果一個分析人員在寫研究報告時沒有記錄分析的每一步,而只是簡略地記錄一個結果,那最終結果就不太透明,並且可能也不能被重複,可信度就要大打折扣。」   此外,李婧翌提到,如果要將最新研究的統計學方法發表在比較好的學術雜誌上,通常情況下做的越複雜越容易發表,這就導致統計學領域出現一個通病:很多統計方法都比較像「黑箱」,它們過於複雜,也沒有給實際應用的人員講授清楚優缺點到底在哪裡。  

圖 | 對於同樣的一套多個病人樣本中的基因表達數據,病人是觀測值,而基因是特徵。大部分的病人已知得病或未得病。如果研究問題是:基因A是否為一個有效的疾病標誌物,那麼假設檢驗是合適的統計方法。而如果研究問題是:1號病人是否得病,那麼二元分類是合適的統計方法。(來源:李婧翌的論文Li et al. (2020). Statistical hypothesis testing versus machine-learning binary classification: distinctions and guidelines. Patterns 1(7):110115.)  

      作為一個有交叉學科背景的研究人員,李婧翌充分利用了這一點:能夠更好地讓生命科學領域的數據分析人員去理解現有的一些經典方法的優缺點和適用範圍,同時,李婧翌自己發展新方法也將以此為目標,創造出更透明、更穩定的統計學方法。舉例而言,李婧翌在最近發表的一篇文章中就嘗試對兩種常用但經常被混淆的統計方法:假設檢驗和二元分類,進行解釋並闡述這兩種方法各自適用的數據分析問題。譬如對致癌基因和抑癌基因的預測問題,李婧翌解釋了為什麼基於現有的大數據,二元分類是一個更加適用的統計方法。   作為教師,李婧翌致力於將統計方法開發和實際應用的重要性更緊密的結合。   李婧翌認為,無論中美,目前統計學的基礎教育中都有很多過時的教學內容,因為很多計算都已經可以依靠計算機的程序包來進行自動化運算。統計學教育更重要的應該是去教授學生為什麼需要統計學,數據背後的隨機性應該怎麼去理解,以及數據分析到底想解決什麼問題,「我覺得這些其實是統計教育需要改變的的東西,我希望我能夠發揮一些作用。」    

      責任編輯:lq

 

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 提高數據分析的科學性與透明度,UCLA統計學教授反轉中心法則
    而她的研究內容在很多人眼裡或許稍顯枯燥:針對前沿的生物學問題開發新的統計學方法,尤其著重於對大規模基因組和轉錄組數據進行分析方法的開發。由於高通量實驗技術的發展,生命科學從一個靠觀察實驗為主的學科逐漸變得更加需要定量化,而這些大規模數據的產生也需要算法才能夠進行分析,從而總結出數學規律並用規律來刻畫事物的本質。
  • 數據分析:關於社會統計學與數理統計的區別,看完長見識了
    數理統計學僅僅是在100年前伴隨著概率論的發展而發展起來的。19世紀中葉以前已出現了若干重要的工作,如C.F.高斯和A.M.勒讓德關於觀測數據誤差分析和最小二乘法的研究。到19世紀末期,經過包括K.皮爾森在內的一些學者的努力,這門學科已開始形成。但數理統計學發展成一門成熟的學科,則是20世紀上半葉的事,它在很大程度上要歸功於K.Pearson、R.A. Fisher等學者的工作。
  • 大數據時代,統計學還有用嗎?清華大學統計學研究中心主任劉軍做客...
    大數據時代,統計學還有用嗎?清華大學統計學研究中心主任劉軍做客《文化講壇》大數據是「原油」,不是「汽油」來源:《人民日報》2015-7-20 易林 葛亮亮在數據「爆炸」的時代,大數據常常被寄予厚望。到底,什麼樣的數據才算大數據,怎樣才能用好大數據,傳統統計學還有用武之地嗎?
  • 數據分析基礎:從統計學入手數據分析!
    統計學是在數據分析的基礎上,研究如何測定、收集、整理、歸納和分析反映數據數據,以便給出正確消息的科學。如果要學習數據分析,那麼紮實的統計知識是必備的。本文參考《深入淺出統計學》二 、三、 四、 五 章知識,對重點內容進行歸納總結。
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 【入門】數據分析必備——統計學入門基礎知識
    、數據分析One old watch, like brief python成功的關鍵在於相信自己有成功的能力。數據之路,與你同行!——數據說·夢想季導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 專家:大數據時代 統計學依然是數據分析靈魂
    看人民映像 品百味人生 在數據「爆炸」的時代,大數據常常被寄予厚望。到底,什麼樣的數據才算大數據,怎樣才能用好大數據,傳統統計學還有用武之地嗎?清華大學統計學研究中心前不久成立,著名統計學家、哈佛大學終身教授劉軍擔任主任。日前,劉軍做客人民日報、人民網《文化講壇》,分享他的思考。 ——編者 讓大數據區別於數據的,是其海量積累、高增長率和多樣性 什麼是數據?數據(data)在拉丁文裡是「已知」的意思,在英文中的一個解釋是「一組事實的集合,從中可以分析出結論」。
  • 清華大學劉軍:大數據時代 傳統統計學依然是數據分析的靈魂
    199IT數據中心微信帳戶:i199IT在數據「爆炸」的時代,大數據常常被寄予厚望。到底,什麼樣的數據才算大數據,怎樣才能用好大數據,傳統統計學還有用武之地嗎?清華大學統計學研究中心前不久成立,著名統計學家、哈佛大學終身教授劉軍擔任主任。日前,劉軍做客人民日報、人民網《文化講壇》,分享他的思考。讓大數據區別於數據的,是其海量積累、高增長率和多樣性什麼是數據?數據(data)在拉丁文裡是「已知」的意思,在英文中的一個解釋是「一組事實的集合,從中可以分析出結論」。
  • 雲南省疾病預防控制中心舉行「流行病與衛生統計學分析方法在愛滋...
    流行病學和衛生統計學是公共衛生和預防醫學的基礎學科和主要工具,為提高愛滋病監測數據的有效利用,更好地應用流行病學與衛生統計學的理論和方法於工作實踐,雲南省疾病預防控制中心於2020年12月15-18日在大理市舉辦「流行病與衛生統計學分析方法在愛滋病防治工作實踐運用培訓班
  • 數據分析:淺談統計學在生活中的應用,看完長見識了!
    二、統計學在生活中的應用分析   (一)統計學在經濟學中的重要應用   運用統計學對生活中的數據信息進行整理分析,首先要學習統計學的基礎知識以及數據統計個分析等學科,這些基礎知識和方法都是在開展統計學應用活動之前調研人員所必須掌握的
  • 數據分析必備的統計學基礎知識
    數據分析師利用數據思維做數據分析時,一般需要具備統計學的基礎知識,此外,在工作後,筆者才發現Excel是做數據分析的一項強大工具,之前有一種錯誤的認識覺得
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 數據分析的坑,都在統計學裡埋過
    對於網際網路工作者來說,統計知識投射在網際網路上,就是數據相關的方法論。舉例來講,現在盛行的 A/B Test 本質上就是控制變量法實驗中的一種。不同的是,網際網路獲取數據更簡單,進行對比實驗更方便。這將是一個統計學/數據分析的大事件。想像一下 Facebook 內部幾千個 A/B Gate,簡直稱得上一場史無前例的大規模人口社會實驗。
  • 外匯交易必須認清的四大本質:概率、統計學、隨機事件、優勢法則
    從今以後,你要像高手一樣,用概率思維去做交易。統計學現在商業界不是流行大數據嘛,各個商業巨頭都在為大數據建設布局,外匯交易亦如此,任何經驗豐富的外匯高手,他們的大腦裡都有一個豐富的資料庫,這些數據就是經過大量的觀察和實踐慢慢總結出來大數據,在加以驗證,形成一套概率統計學,通俗的講就是經驗,專業的講就是通過測驗資料庫統計獲得的概率。
  • 統計學知識詳解,數據分析也可以很簡單
    這本書將為你提供足夠的統計學領域知識,這樣你就不會迷失,與此同時,這本書也會教你使用統計學分析所需要的工具。如果你正在攻讀研究生學位,或者是一個正在分析最近實驗數據的醫學研究者,那麼你將會在本書中找到你所需要的工具和它們的使用說明及原始碼。基於上述原因,本書將重點講解統計學的基礎知識和假設檢驗,並簡單地介紹其他的統計學方法。我明白本書中介紹的大多數統計學檢驗也可以使用統計學建模的方法來完成。
  • 《專業投機原理》123法則2B法則 (以及飛雲衰竭反轉2B模型)
    《專業投機原理》相對還是比較系統的,不但有基本面經濟學,政治學,經濟循環周期等分析,還對技術面道氏理論,波浪理論,指標進行了梳理與分析,我們下面就來講講書中最重要的幾個原則。1.    鱷魚法則:      交易都是概率性的,有交易正確讓你賺錢的時候,就一定有讓你虧損的時候。
  • 大數據分析「帕累託法則」的作用
    諸如20%的商店產生80%的收入,20%的軟體錯誤導致80%的系統崩潰,20%的產品功能驅動80%的銷售等,受到廣泛歡迎,善於分析的企業嘗試在他們自己的商業世界中找到這樣的帕累託法則。通過這種方式,他們可以計劃並確定其行動的優先順序。事實上,今天,數據科學在篩選大量複雜數據,以助識別未來帕累託場景方面發揮著重要作用。
  • 數據分析、數據挖掘基礎:描述統計學基礎知識分享!
    四分位數(英語:Quartile)是統計學中分位數的一種,即把所有數值由小到大排列,然後按照總數量分成四等份,即每份中的數值的數量相同,處於三個分割點位置的數值就是四分位數。 >>> ps.quantile(0.5)0 6.5>>> np.percentile(ps, 50)6.5分析方法中的
  • 多元智能測評的科學性
    我們曾經被很多人問到多元智能測評的科學性,原理等等。多元智能測評以發展心理學為脈絡,按照個體在人生不同發展階段的特點,通過計算機採集系統錄入的先天皮紋樣本,運用統計學原理得出的數據與多元智能理論相結合,幫助教育者快速了解被教育者的先天智能個性特點,核心類智能在敏感期內揚長補短,非核心類智能錯過了敏感期後揚長避短,優勢智能類重點培育,實現「因材施教」;正確引導青少年選擇與自己優勢潛能相對應的學科和專業發展方向;幫助青年人在社會化進程中
  • 大數據和新經濟時代背景下,新經濟統計學的機遇與挑戰
    在大數據框架上多中心數據融合、並行計算及新理論存在許多關鍵的科學問題。在應用上與經濟、金融、生物醫學、工業工程等更多的融合。因此,新經濟統計與傳統經濟統計相比,是一個全新的領域。大數據時代的數據結構發生了深刻變化,它大多數是多源異構(來源多樣、結構複雜)、半結構化或非結構化的。例如動態(高頻)實時數據,即數據流、影像數據、文本數據等。3. 數據透明度提高。以前有些數據,可能出於隱私或者其它目的,是不予公開的。