四分之三的DNA序列如何被開啟的?Nature新論文報導人工智慧獲得的重要突破

2021-02-08 生物通


人工智慧在基因組學研究中的重要突破!實現了期待已久的突破,未來也許可以應用於生物醫學中。

科學家們早就知道,人類基因會依照我們DNA的精確順序傳遞的指令付諸行動,這些指令由四種不同類型的單個的鹼基分別編碼:A,C,G和T。


眾所周知,將近25%的基因被類似於TATAAA的序列(稱為「 TATA框」)轉錄,那其它75%的基因是如何開啟的呢?這依然是一個謎。


最新一項研究中,加州大學聖地牙哥分校的研究人員確定了一種DNA激活碼,他們稱其為下遊核心啟動子區域(downstream core promoter region,DPR),這一發現最終可用於控制生物技術和生物醫學應用中的基因激活。


相關成果公布在9月9日的Nature雜誌上。


文章深作者James T. Kadonaga說:「DPR的鑑定揭示了激活我們大約四分之一至三分之一基因的關鍵步驟。DPR一直是一個謎,它是否甚至存在於人類中一直存在爭議。幸運的是,我們已經能夠通過使用機器學習解決這個難題。」


1996年,Kadonaga及其同事在果蠅中發現了一種新的基因激活序列,稱為DPE(DPR的一部分),該序列可使基因在沒有TATA框的情況下被打開。之後在1997年,他們在人類中發現了一個類似DPE的序列。但是,從那時起,對人類DPE的細節和流行程度的解讀就變得撲朔迷離。最驚人的是,在成千上萬的人類基因中僅發現了兩個或三個活躍的DPE樣序列。


20多年後,為了解答這個謎題,Kadonaga與博士後學者Long Vo ngoc,Cassidy Yunyun Huang,Jack Cassidy(已退休的計算機科學家)合作利用強大的人工智慧工具得到了答案。


研究人員匯集了500,000個隨機版本的DNA序列,並對每個序列的DPR活性進行了評估。從那裡開始,使用200,000個版本創建可以準確預測人類DNA中DPR活性的機器學習模型。


結果正如Kadonaga所描述的那樣,「非常好」。他們創建了類似的機器學習模型,作為識別TATA框序列的新方法。他們用成千上萬的測試評估了新模型,其中的TATA盒和DPR結果是已知的,而且研究人員發現其預測能力是「令人難以置信的」。


這些結果清楚地揭示了人類基因中DPR基序的存在。此外,DPR的出現頻率似乎與TATA盒的發生頻率相當。研究人員觀察到了DPR和TATA之間的有趣雙重性——用TATA框序列激活的基因缺少DPR序列,反之亦然。


Kadonaga指出,在TATA框序列中找到6個鹼基很簡單。在19個基準點上,破解DPR的代碼更具挑戰性。


「找不到DPR,因為它沒有明顯的序列模式。在DNA序列中存在被加密的隱藏信息,使其成為活躍的DPR元素。機器學習模型可以解密該代碼,但是我們人類卻不能。」


展望未來,將人工智慧進一步用於分析DNA序列模式應會提高研究人員對人細胞中基因激活的理解和控制能力。Kadonaga說,這種知識可能對生物技術和生物醫學領域有用。


「機器學習使我們能夠識別DPR,相關的人工智慧方法可能對研究其他重要的DNA序列基序很有用。許多無法解釋的事情現在可以解釋了。」


參考文獻

Identification of the human DPR core promoter element using machine learning




相關焦點

  • 通過轉錄組技術而測序的dna序列被稱為「dna受體」
    後面的dna受體可通過做dna晶片credit-sweep來獲得,後面的dna受體包括mirna,smallmrna,circrna和ae等。根據技術的不同,dna晶片可以分為三類:測mirna:測定mirna。測dna受體的全雙工轉錄信號的兩轉錄本等等。測vxrna:測vxrna。
  • 21世紀以來,登上Nature雜誌封面的13篇中國論文
    150年的漫漫長路,Nature見證了人類歷史上一次又一次重大科學突破。也見證了人類歷史上一次又一次重大科學突破。 當我們把目光聚焦在中國科研時,我們會發現一條昂揚的增長曲線 —— 中國的對外開放和研發支出的快速增加帶來了科研的爆發式成長,Nature發表的來自中國作者的論文也有可觀增長。
  • 腦科學日報:大腦是如何產生記憶的?撓癢行為背後的神經學原理
    1,未來幾年你可能都會記住這次疫情,大腦是如何做到的?來源:科技工作者英國布里斯托大學的研究人員近日在《自然通訊》雜誌中描述了一種新發現的大腦學習機制,它可以「固化」記憶並減少記憶之間的幹擾。它的發現也為人類如何形成期望,以及準確預測提供了新見解。當大腦和神經細胞之間產生強聯繫時,就會形成記憶。
  • 2018年,機器學習和人工智慧領域最重要的突破是什麼?
    2018年,人工智慧發展到什麼階段了?Quora鼎鼎有名的大V認為,AI炒作和AI威脅論在今年都降溫,並且不會有AI寒冬,升溫的是各種開源框架,2019年的AI,你認為會是怎樣? 2018年,機器學習和人工智慧領域最重要的突破是什麼? (這裡給你留出充分思考的時間。)
  • 突破!這項諾貝爾化學獎技術,再次登上《Nature》
    例如,存在於我們體內的細菌群落在人類健康和生物學中起著重要作用,而且這些微生物種類繁多。但是這些微生物是如何起作用?它們之間又是如何在功能上相互作用?這些問題都不得而知。圖1. 人舌頭表面的微生物群落。
  • 突破!這項諾貝爾化學獎技術,再次登上《Nature》!
    這項工作的創新在於,以前沒有人能夠以區分所有不同細菌的方式來觀察舌頭上的生物膜,可視化它們如何排列自己。以前大多數關於細菌群落的研究僅基於DNA測序,但是要獲得DNA序列,首先得研磨樣本提取DNA,這會破壞細菌群落神奇的空間結構。而利用CLASI-FISH技術成像,可以在保留空間結構的同時識別細菌。
  • 施一公研究組在《科學》發表論文報導剪接體組裝過程重要複合物U4/...
    (Saccharomyces cerevisiae)剪接體組裝過程中的一個關鍵複合物U4/U6.U5 tri-snRNP高達3.8埃解析度的冷凍電鏡結構,並在此基礎上分析了剪接體的組裝機制,為進一步理解剪接體的激活及前體信使RNA(pre-mRNA)剪接反應的催化機制提供了重要分子基礎。
  • 14篇Nature論文合集!「DNA元件百科全書」公布第三階段成果
    《自然》、《自然—方法》和《自然—通訊》聯合發表14篇論文描述了這一結果,為基因組組織和功能帶來了新的認知。在《自然》發表的一篇概述性文章中,美國麻省大學醫學院教授翁志萍和同事描述了在ENCODE前兩個階段上擴展增加的近6000項新實驗(4834項涉及人類樣本,1158項涉及小鼠樣本)。
  • 多篇Nature論文解析出結合到DNA上的起點複製複合物的高清晰結構
    第一篇論文於2015年發表在Nature期刊上,它解析出這種被稱作微小染色體維持蛋白複合物(minichromosome maintenance complex, MCM蛋白複合物)的DNA複製機器的核心引擎的結構。第二篇論文報導了Cdt1-Mcm2-7複合物(作為MCM雙六聚體複合物的前體)的開環結構。
  • 自然刊發中國論文:全球最早公布的新冠序列如何在上海破譯
    2月3日,頂尖學術期刊《自然》(Nature)以「加快評審文章」(Accelerated Article Preview)形式在線發表了來自中國團隊、有關新型冠狀病毒的論文:《一種與中國呼吸道疾病相關的新冠狀病毒》。該研究團隊獲得的新型冠狀病毒全基因組序列系全球最早公布,對之後全球的防疫和研究工作意義重大。
  • Nature重大突破:生成完整的人類X染色體序列!
    "這一成就開啟了基因組學研究的新時代,"美國國家基因組研究所主任、醫學博士Eric Green說道。"產生真正完整的染色體和基因組序列的能力是一項技術壯舉,它將幫助我們獲得對基因組功能的全面理解,並為在醫療保健中使用基因組信息提供信息。"
  • 人體確認存在新的DNA結構,或與人類衰老、癌症有重大關聯
    1953 年 4 月 25 日,《Nature》發表了一篇裡程碑式的論文,首次向人類介紹了 DNA 的雙螺旋結構。這篇文章的問世就像是朝著生命科學的神秘大門念出了「芝麻開門」的咒語,人們得以一窺生命繁衍的秘密。從那以後,此前被認為不可解釋的生命現象都明朗起來,各種生物學上的突破也接踵而至。
  • 清華謝震研究組在《自然·通訊》發文報導控制Cas9活性的新策略
    清華謝震研究組在《自然·通訊》發文報導控制Cas9活性的新策略清華新聞網10月8日電 10月3日,清華信息科學與技術國家實驗室(籌)謝震課題組在《自然·通訊》(Nature Communications)發表了題為「利用拆分dCas9結構域的整合與置換實現哺乳動物細胞的轉錄控制」(Integration and exchange of split
  • 阿里雲高效基因序列檢索助力新冠肺炎病毒序列快速分析
    通過基因檢索工具,可以看到SARS和MARS與新冠肺炎病毒的匹配度為0.8以上,說明可以將一些SARS或者MARS的研究成果應用到新冠肺炎病毒上。系統提取了每種病毒的論文,通過文本分類算法,將論文劃分為檢測類、疫苗類和藥物類,例如下圖為SARS的七種檢測方法、四種疫苗接種方法和10中治療藥物。
  • Nature:清華團隊提出類腦計算系統新框架,通用人工智慧或將不再科幻
    >(同時為第一作者)和清華大學教授、清華大學類腦計算中心主任施路平和為該論文的共同通訊作者。如今,儘管類腦計算系統已與人工智慧技術結合,並被業內專家認為可能提供一條通向通用人工智慧的途徑,在更通用算法的應用層面也有著一定的突破和發展,但要保證類腦計算系統的性能、可編程性和生產效率,仍然面臨著不小的挑戰和極高的要求。
  • Angew Chem:利用光線開啟和關閉DNA的功能
    這種涉及不同酶的連續反應步驟序列,使得將所謂的光敏籠形基團(photocaging group)---可以通過光照射移除的化學基團---轉移到DNA上成為可能。此前的研究表明,只有小的殘基(較小的修飾,如甲基基團)可以選擇性地轉移到DNA、RNA或蛋白上。
  • 廈大姜濤教授《Nature》:人工高分子材料設計重要進展!
    廈門大學化學化工學院新引進人才姜濤教授在博士後期間的模擬蛋白質功能高分子設計工作在線發表於《自然》雜誌(Nature, 2020, 577, 216-220)。論文標題為「Single-Chain Heteropolymers Transport Protons Selectively and Rapidly」。姜濤教授為論文的第一作者,加州大學伯克利分校的Ting Xu教授為通訊作者。
  • 腦科學日報:大腦是如何產生記憶的?撓癢行為背後的神經學原理
    1,未來幾年你可能都會記住這次疫情,大腦是如何做到的? 來源:科技工作者 英國布里斯托大學的研究人員近日在《自然通訊》雜誌中描述了一種新發現的大腦學習機制,它可以「固化」記憶並減少記憶之間的幹擾。它的發現也為人類如何形成期望,以及準確預測提供了新見解。 當大腦和神經細胞之間產生強聯繫時,就會形成記憶。
  • 《環球科學》網站上線「nature專區」,可免費閱讀nature完整論文
    在「nature專區」可查看每期《自然》學術論文的中文摘要,點擊每篇摘要後附帶的連結,網頁會自動跳轉至《自然》論文的全文頁面,供用戶閱讀論文。2014年底,自然出版集團宣布,該集團旗下《自然》等49種學術期刊將通過全球特約媒體免費分享論文,以促進科學家與公眾的交流。作為全球最重要的科學與公眾交流平臺,《科學美國人》全球14個國際版本,同時成為nature首批特約媒體,獲得授權在官網免費向公眾分享自然出版集團下屬49種期刊的完整論文。
  • Nature新研究:酒精導致的DNA損傷能被安全修復
    魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAI對酒當歌,人生幾何。只是美酒雖好,含酒精的飲料卻是一級致癌物。新的DNA修復機制那麼,這種損傷就不能修復了嗎?其實,我們的身體針對乙醛帶來的傷害,有兩重保護。第一重保護,與乙醛脫氫酶2(ALDH2)有關,這種酶能將乙醛轉化為無害的乙酸。