休斯頓-由德克薩斯大學MD安德森癌症中心的研究人員開發的一種新的數據分析工具,結合了用戶友好的自然語言界面,使沒有專門從事生物信息學或程式語言專業知識的生物醫學研究人員可以對大型數據集進行直觀分析。
創建開放式,人工智慧(AI)驅動的程序DrBioRight的目的是降低所有研究人員充分利用現代研究方法中產生的越來越大量數據的障礙。該平臺的報告今天在《癌細胞》中發表。
「我們認為,我們可以通過創建一種任何研究人員都可以使用的工具,來改進當前進行常規生物信息學分析的模型,並大大縮短周轉時間,」生物信息學和計算生物學教授韓亮博士說。「我們對DrBioRight的長期目標是成為每個研究人員的明智合作者。」
現代生物醫學研究中使用的高通量技術會生成大型,複雜的數據集,這些數據集可提供有關正在研究的患者,動物模型或細胞系的全面信息。這些可能包括,例如,研究整個遺傳信息(基因組學),基因表達(轉錄組學)或蛋白質表達(蛋白質組學)。
梁解釋說,由於這些「組學」數據集是如此複雜,因此在沒有專門的分析方法的情況下回答特定的生物學問題可能具有挑戰性。這些分析通常通過使用以多種程式語言編寫的計算機腳本來完成,這需要對編程和生物信息學都有一定的了解。
生物信息學家可以幫助導航和處理這些複雜的數據集,但是工作可能很耗時。因此,研究團隊開發了DrBioRight,使研究人員可以通過具有自然語言交互作用的用戶友好的聊天界面,更輕鬆地對自己的數據進行常規分析。
Liang解釋說,面向自然語言的程序允許用戶像自然說話一樣提問程序問題,而不是使用複雜的程式語言。
DrBioRight免費提供給學術研究人員。最初,該程序具有許多模塊,可以處理最常見的生物信息學問題類型,並且包括一些最常用的公共癌症數據集,例如The Cancer Genome Atlas和Cancer Cell Line Encyclopedia。
作為對該方法的證實,研究人員使用DrBioRight複製了經典癌症基因組學論文的分析,發現該論文能夠準確地再現以前發表的結果。
由於該程序是由AI驅動的,因此它還具有從每次查詢中學習並改進分析的能力,隨著時間的推移,它變得更加有用。展望未來,研究人員希望改進DrBioRight,以使用戶能夠分析自己的數據集並允許對新模塊進行開放式開發。
「在努力改善程序的同時,我們還希望其他生物信息學家能夠貢獻他們的算法並教授DrBioRight,」 Liang說。「整個研究界的參與將有助於創建一種工具,有助於更有效地回答覆雜的研究問題。」