提高數據分析的科學性與透明度,用統計學「反轉」中心法則

2021-01-08 電子發燒友
打開APP
提高數據分析的科學性與透明度,用統計學「反轉」中心法則

DeepTech深科技 發表於 2021-01-06 14:23:55

「對我而言,回答了自己心中的問題或者做出一個新的發現,這種成就感要遠高於生活中的其他快樂。」李婧翌對《麻省理工科技評論》中國這樣說道。

而她的研究內容在很多人眼裡或許稍顯枯燥:針對前沿的生物學問題開發新的統計學方法,尤其著重於對大規模基因組和轉錄組數據進行分析方法的開發。

由於高通量實驗技術的發展,生命科學從一個靠觀察實驗為主的學科逐漸變得更加需要定量化,而這些大規模數據的產生也需要算法才能夠進行分析,從而總結出數學規律並用規律來刻畫事物的本質。

加州大學洛杉磯分校(UCLA)統計系(已獲得終身教職)副教授和博士生導師,生物統計系、人類遺傳學系和計算醫學系博士生導師李婧翌認為,生命科學作為一個「宏科學」,儘管問題的本質與生命強相關,但研究手段需要各個學科一起合作,計算則是其中非常重要的一部分,大數據也需要有非常適合的挖掘工具,這對於從小對數學與科學有強烈興趣、並在本科與博士階段分別接受了生命科學與生物統計學系統教育的李婧翌有強大的吸引。

李婧翌的研究專注於統計學與生命科學的交叉問題,她首創性地使用嚴格的統計學來分析已發表的轉錄組學和蛋白組學數據,發現在過往研究中,由於研究人員對測量誤差的忽略,轉錄的重要性被嚴重低估,該分析挑戰了「翻譯比轉錄重要」的觀點卻支持了之前大量在 mRNA 轉錄水平的科學發現。因其重要性,李婧翌的研究結果被發表在 Science 雜誌並收錄於本科教材 Molecular Cell Biology 中。

圖 | 左圖是論文 B.Schwanhäusseretal.,Nature473,337(2011) 中在不考慮實驗數據誤差的情況下對轉錄、翻譯、mRNA 降解和蛋白質降解這四個步驟對於蛋白質含量的貢獻的估計;右圖是在校正了實驗數據誤差之後的估計。(來源:李婧翌的論文 Li et al. (2015). Statistics requantitates the central dogma. Science 347(6226):1066-1067.)

此外,李婧翌團隊還開發了大量生物信息學工具在組織和單細胞水平上對 mRNA 分子進行全系統測量,並正在開發一項能夠尋找到人群亞型中和疾病相關的基因變異的新的統計度量。

憑藉上述優異的研究成果,李婧翌成功入選 《麻省理工科技評論》「35 歲以下科技創新 35 人」(Innovators Under 35)2020 年中國區榜單。

圖 | 《麻省理工科技評論》「35 歲以下科技創新 35 人」2020 年中國區榜單入選者李婧翌

無心插柳,卻顛覆固有認知   

       早在 1958 年,中心轉錄法則便被提出,它指的是遺傳信息被編碼在 DNA 中,通過轉錄會變成 mRNA,再通過翻譯的過程變成蛋白質,這是所有有細胞結構的生物所遵循的法則。   在這個過程中,除了轉錄和翻譯生成了 mRNA 和蛋白質這兩個步驟,還存在 mRNA 和蛋白質的降解,這四個步驟共同決定了每一個基因所對應的蛋白質到底在我們細胞中存在多少量。不過,此前中心轉錄法則是一個定性表述,「沒有人知道每一步的速率是多少,也沒有人知道對最後蛋白質含量的影響有多少。」   在李婧翌博士即將畢業之時,她與合作者 Mark Biggin 博士共同研究中心轉錄法則的定量工作。偶然的一次機會,李婧翌和合作者發現,2011 年發表在 Nature 上的一篇文章首次在小鼠的全基因組的基因中進行了 4 項步驟的測量,其得出的結論是每個基因的 mRNA 的含量對於蛋白質含量的預測效果比較差,也就是說一個基因內 mRNA 的高或低並不太能代表它的蛋白質含量的高或低。   「這在當時是個非常讓人震驚的結論。因為我們有很多實驗手段可以用來研究 mRNA,但是研究蛋白質相對困難很多,所以大量生物學的發現成果都圍繞 mRNA 的含量水平。如果這篇文章的結果為真,那麼之前很多 mRNA 的結果可能都沒有什麼意義了。」李婧翌解釋道。   當李婧翌與合作夥伴看到這篇文章時,他們觀察到這項工作是將高通量質譜轉化為蛋白質含量,但在轉化過程中,它的標準實際上只基於高表達蛋白,並假設同樣的轉換方式也適用於低表達蛋白,由此導致了研究裡面很多低表達蛋白的表達指徵是很不準的,也就意味著高通量蛋白質測量很有可能存在誤差。   為了解決這一疑惑,李婧翌將實驗誤差考慮進建模後發現,實際上 mRNA 和蛋白質含量的相關性比 Nature 的文章報導的要高很多,轉錄的重要性被嚴重低估。這項「無心插柳」的研究結果被發表在 Science 雜誌並收錄於本科教材 Molecular Cell Biology 中。   李婧翌對《麻省理工科技評論》中國回憶道:「我覺得很有趣的一點是,我們將很基本的統計方法用到了正確的問題上,從而發現了非常意想不到的結果。這也說明了考慮數據測量的隨機性和數據噪音對科學結論十分重要。」這一年,李婧翌還不到 30 歲。 科研與教育同樣重要    作為一個青年科學家,李婧翌認為,保持對未知問題的好奇心,用研究拓寬人類的知識邊界,是支撐她科研工作的重要推動力。   作為一個科研人員,李婧翌認為目前的統計分析還遠遠談不上科學,「如果一個分析人員在寫研究報告時沒有記錄分析的每一步,而只是簡略地記錄一個結果,那最終結果就不太透明,並且可能也不能被重複,可信度就要大打折扣。」   此外,李婧翌提到,如果要將最新研究的統計學方法發表在比較好的學術雜誌上,通常情況下做的越複雜越容易發表,這就導致統計學領域出現一個通病:很多統計方法都比較像「黑箱」,它們過於複雜,也沒有給實際應用的人員講授清楚優缺點到底在哪裡。  

圖 | 對於同樣的一套多個病人樣本中的基因表達數據,病人是觀測值,而基因是特徵。大部分的病人已知得病或未得病。如果研究問題是:基因A是否為一個有效的疾病標誌物,那麼假設檢驗是合適的統計方法。而如果研究問題是:1號病人是否得病,那麼二元分類是合適的統計方法。(來源:李婧翌的論文Li et al. (2020). Statistical hypothesis testing versus machine-learning binary classification: distinctions and guidelines. Patterns 1(7):110115.)  

      作為一個有交叉學科背景的研究人員,李婧翌充分利用了這一點:能夠更好地讓生命科學領域的數據分析人員去理解現有的一些經典方法的優缺點和適用範圍,同時,李婧翌自己發展新方法也將以此為目標,創造出更透明、更穩定的統計學方法。舉例而言,李婧翌在最近發表的一篇文章中就嘗試對兩種常用但經常被混淆的統計方法:假設檢驗和二元分類,進行解釋並闡述這兩種方法各自適用的數據分析問題。譬如對致癌基因和抑癌基因的預測問題,李婧翌解釋了為什麼基於現有的大數據,二元分類是一個更加適用的統計方法。   作為教師,李婧翌致力於將統計方法開發和實際應用的重要性更緊密的結合。   李婧翌認為,無論中美,目前統計學的基礎教育中都有很多過時的教學內容,因為很多計算都已經可以依靠計算機的程序包來進行自動化運算。統計學教育更重要的應該是去教授學生為什麼需要統計學,數據背後的隨機性應該怎麼去理解,以及數據分析到底想解決什麼問題,「我覺得這些其實是統計教育需要改變的的東西,我希望我能夠發揮一些作用。」    

      責任編輯:lq

 

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 提高數據分析的科學性與透明度,UCLA統計學教授反轉中心法則
    而她的研究內容在很多人眼裡或許稍顯枯燥:針對前沿的生物學問題開發新的統計學方法,尤其著重於對大規模基因組和轉錄組數據進行分析方法的開發。由於高通量實驗技術的發展,生命科學從一個靠觀察實驗為主的學科逐漸變得更加需要定量化,而這些大規模數據的產生也需要算法才能夠進行分析,從而總結出數學規律並用規律來刻畫事物的本質。
  • 統計學的十個法則
    這本書是講統計學的,但一個數學公式都沒有,它給我們提供了10個統計學的法則和教訓,值得我們好好理解,並且在面對統計數據的時候可以拿出來提醒自己。所以今天咱們就來把這10個法則複習一下。祝你每天都有收穫。
  • 數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 你知道海水透明度嗎?
    在海洋光學中,海水透明度是描述海水光學性質的基本參數之一,它在水團分析、流系鑑別等方面具有一定的參考價值。目前,海水透明度的測量方法主要有鉛字法、十字法和塞氏盤法。受透明度計或玻璃筒長度的限制,無法測量超過筒長水樣的透明度值,因此前兩種測量方法不常用。塞氏盤法則是常用的現場海水透明度測量方法,測量時是將透明度盤在船的背光處平放入水中,待下沉至剛好不能看到時停止,這一深度被稱為透明度,取兩到三次測量結果的平均值作為最終結果。因為透明度是通過透明盤的反射光及盤以上水柱的散射光與其周圍海水散射光的對比度相平衡的結果,所以測得的透明度是相對透明度。
  • 醫學論文寫作中常見統計學問題分析
    統計學主要是一門以統計學原理及方法為基礎,對科研數據進行採集,整理及分析的應用科學,其在醫學研究工作中具有不可替代的重要地位。在臨床實際工作以及相關醫學研究中,統計學方法是醫務工作者在遭遇問題時獲取該問題的相關原因以及理論依據的重要途徑。
  • 強化疫情監測分析研判 提高防控科學性精準度
    會上,省防控專家組疫情組組長、省疾病預防控制中心主任孫印旗匯報我省新型冠狀病毒感染肺炎疫情的現狀、特點、趨勢,省衛健委有關負責同志匯報我省最新診療方案。胡振傑、閻錫新、李晶、揣俠、梅建強等專家分別結合自身工作談了意見建議。專家們認為,在省委、省政府堅強領導下,我省疫情防控工作正有力有序開展,但當前疫情防控任務依然艱巨,不能有絲毫懈怠。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 外匯交易必須認清的四大本質:概率、統計學、隨機事件、優勢法則
    從今以後,你要像高手一樣,用概率思維去做交易。統計學現在商業界不是流行大數據嘛,各個商業巨頭都在為大數據建設布局,外匯交易亦如此,任何經驗豐富的外匯高手,他們的大腦裡都有一個豐富的資料庫,這些數據就是經過大量的觀察和實踐慢慢總結出來大數據,在加以驗證,形成一套概率統計學,通俗的講就是經驗,專業的講就是通過測驗資料庫統計獲得的概率。
  • 大數據分析「帕累託法則」的作用
    諸如20%的商店產生80%的收入,20%的軟體錯誤導致80%的系統崩潰,20%的產品功能驅動80%的銷售等,受到廣泛歡迎,善於分析的企業嘗試在他們自己的商業世界中找到這樣的帕累託法則。通過這種方式,他們可以計劃並確定其行動的優先順序。事實上,今天,數據科學在篩選大量複雜數據,以助識別未來帕累託場景方面發揮著重要作用。
  • 大數據和新經濟時代背景下,新經濟統計學的機遇與挑戰
    在大數據框架上多中心數據融合、並行計算及新理論存在許多關鍵的科學問題。在應用上與經濟、金融、生物醫學、工業工程等更多的融合。因此,新經濟統計與傳統經濟統計相比,是一個全新的領域。大數據時代的數據結構發生了深刻變化,它大多數是多源異構(來源多樣、結構複雜)、半結構化或非結構化的。例如動態(高頻)實時數據,即數據流、影像數據、文本數據等。3. 數據透明度提高。以前有些數據,可能出於隱私或者其它目的,是不予公開的。大數據時代,大部分數據可以自然產生並被記錄下來,例如股票等一些金融數據或網際網路數據,大眾可從網上輕易地獲取。
  • 清華大學成立統計學研究中心
    清華大學成立統計學研究中心清華新聞網6月30日電(記者 曲 田)6月27日,清華大學統計學研究中心成立儀式在電子工程館報告廳舉行。石加東 攝薛其坤在致辭中代表清華大學對統計學中心的成立表示祝賀,對與會嘉賓表示熱烈歡迎。他指出,統計學研究中心的成立是清華大學學科建設的一件大事。近年來,作為系統研究數據科學的學科,統計學在學科體系中的重要性愈發凸顯,在科學研究、經濟與社會管理決策方面的重要性也與日俱增,對經濟發展、社會進步和人類生活質量的提高有著顯著意義。
  • 大數據下的「應用統計學」與「經濟統計學」,如何抉擇?
    本文,將對與統計學有關的「應用統計學」與「經濟統計學」兩個專業進行對比分析。應用統計學是研究現象總體數量關係的方法論科學,是對搜集得到的數據進行分析整理、從而得出所需要的有效信息的數學類學科,是理學門類統計學學科下的一個專業。應用統計學專業研究如何有針對性地收集、整理和分析大量的數據,研究數據變化所涵蓋的真正含義,把大量雜亂無章的數字轉化成圖表等更為直接和一目了然的記錄方式,由此發揮數據真正的價值。
  • 統計學:從數據入手 探尋事物內在規律
    大部分人對統計學的認識只停留在表面階段,認為統計學就是簡單的收集、整理和記錄數據。其實不然,統計學不僅僅是簡單的收集整理數據,它是一門通過分析挖掘數據內在數量規律性的科學,是一門研究如何解釋、分析和應用數據的方法論科學,是一門融合自然科學和社會科學的學問。 浙江大學數學系蘇中根教授說:「統計學專業是學習和研究隨機現象(不確定現象)規律的一門學科。
  • 提高數據分析能力,你不得不看的33本書|推薦收藏
    數據分析是一門專業且跨越多個領域的學科,需要我們同時具備數據能力、業務能力,還有基本的數據思維方法。除了平時在網上搜集相關資料學習以外,如果希望短時間內高效的掌握數據分析的知識並運用到工作中,這個時候參考經典的好書,對提高數據分析能力會更有幫助。今天DataHunter數獵哥就為大家推薦一份相對完整的入門學習體系的數據分析書單。
  • 如何看待家禽生物統計學和大數據
    收集和分析家禽生產數據,使其成為不同群體成功的助力。在2018年歐洲國際集約化畜牧展覽會(VIV Europe)上,大數據軟體商Porphyrio公司主辦了一場名為「服務於現代家禽生產的生物統計學和大數據」的研討會。
  • 數據分析必備統計學(二):假設檢驗
    用這把豆子作為樣本,去推斷這袋豆子。既然是用樣本推斷總體,就有抽樣誤差的可能性。不管袋子裡紅豆多還是黑豆多,這一把不一定能真實反映這袋豆子,那怎麼辦呢?這就要用到假設檢驗了。說假設檢驗之前,先要知道小概率事件。
  • 我用Excel發現了數據分析的本質:回歸分析
    最近很多人都問我,為什麼感覺數據分析越學越亂,經常是學了一大堆名詞,真正遇到問題的時候卻更多是直接套用模型,很難將這些理論聯繫起來。這其實就回歸到了一個至關重要的問題:數據分析的本質是什麼?事物都是萬變不離其宗的,一切外在的方法都是為了事物本質而服務的,數據分析自然也不例外,今天我們就來探討一下數據分析的本質。
  • 統計學與大數據具有哪些聯繫
    首先,統計學是大數據的三大基礎學科之一,所以統計學與大數據之間的關係還是非常密切的,但是這也導致一部分人產生了一定的誤解,認為大數據就是統計學,統計學就是大數據。實際上,雖然在大數據時代背景下,統計學的知識體系產生了一定程度的調整,但是統計學本身的理念與大數據還是具有一定區別的,統計學注重的是方式方法,而大數據則更關注於整個數據價值化的過程,大數據不僅需要統計學知識,還需要具備數學知識和計算機知識。從另一個角度來說,統計學為大數據進行數據價值化奠定了一定的基礎。
  • 統計學是什麼?| 統計學七支柱
    自誕生至今,統計學的工作內容經歷了翻天覆地的變化:從極端強調「統計學家僅收集數據而不分析」,轉變為從計劃到分析的所有研究階段皆積極尋求與科學家的合作。並且,統計學工作者面對不同的科學領域時,需要相應調整自身角色:在某些應用中,我們接受基於數學理論推導的科學模型;而某些應用中,我們構建如牛頓力學體系一樣穩定的模型。
  • 醫學科研論文中常見的統計學問題
    為能有效促進統計學方法的正確使用,保證科研的科學性、可靠性,提高醫學科研論文質量,賽恩斯編譯對醫學科研論文中常見的統計學問題進行梳理和總結如下:一、實驗組與對照組沒有可比性。實驗組與對照組必須遵循均衡化的原則,即實驗組與對照組除處理因素不同外,其他可控制的非處理因素要儘可能保持一致,從而儘量排除非處理因素對結果的影響。各組間均衡程度越高,可比性越強。