隨著基因測序技術發展,人們開始頻繁探尋疾病的深層的分子基礎,並將基因型和疾病表型數據聯合分析,作為認識和診治疾病的重要手段。然而基因數據的科學解讀,仍是當前面臨的巨大挑戰。最主要的原因之一,就是缺乏基因數據、臨床表型和疾病三者間的溝通橋梁。大量斷層和不完整的數據,讓信息之間無法「平等對話」,也讓海量的基因數據的價值大打折扣。
為此,2008年國際生物醫藥組織OBO聯盟成員——德國柏林夏洛特(Charité)醫學院聯合Monarch Initiative啟動HPO項目。其中Monarch Initiative提供一個在線資料庫,可便捷瀏覽、查詢生物醫療領域的專業術語,聚集疾病、表型、模型生物、基因等大量結構化的語義數據。
HPO(Human Phenotype Ontology)譯為人類表型術語集。其中Phenotype指表型,是生物體外在表現出來的形態與功能特徵,是基因和環境共同作用的結果,而Ontology是描述專業領域的標準化詞彙表及詞彙間的語義關係。
所以HPO就是描述人類疾病表型特徵的標準詞彙表,每個術語描述了一種異常表型。HPO利用從醫學文獻,Orphanet,DECIPHER,和OMIM資料庫獲得的信息進行開發,目前包含約11,000多項名詞(仍在擴充)和115,000餘項關於遺傳性疾病的注釋。HPO資料庫還提供了一套針對4000多種疾病的注釋(annotations)。HPO開發組還在持續地進行詞條的維護和完善工作。
迄今為止,HPO已被國際20餘家頂級科研機構廣泛應用於人類遺傳學的臨床診斷,人類表型異常與細胞和生物化學網絡之間關係的生物信息學研究,人類和模型生物體表型之間的映射,以及為臨床資料庫提供標準化的詞彙表。HPO項目鼓勵醫學和遺傳學界投入對「本體」本身和臨床注釋的開發和研究。
官網顯示,HPO常用臨床術語主要是描述表型異常(Phenotypic abnormality),包含結締組織異常、聲音異常、神經系統異常等23大類。HPO上線至今,已歷經多次更新迭代,最新版是2017年6月30日推出。
反觀國內,大部分醫療、科研工作者所使用的表型描述詞語並沒有統一標準,醫院信息系統中記錄的臨床表型數據大多是非結構化的自然語句,這對人類疾病,尤其是遺傳性疾病的臨床研究和交流帶來極大不便,對後期數據的分析和挖掘也造成很大困擾,所以中國也亟需建立一套標準的臨床表型用語體系。慶幸地是,在近百名中外專家的辛勤努力下,HPO已成功引進中國並生根發芽。
2015年底,由國內臨床、遺傳諮詢、分子生物學領域知名人士自願組織、共同發起成立中文人類表型標準用語聯盟(CHPO,The Chinese Human Phenotype Ontology Consortium),對國外已有的HPO詞條進行翻譯優化。
組成聯盟的成員都是業內赫赫有名的權威專家,比如,華大基因團隊、美國醫學遺傳學學院會員張巍教授和南加州大學生物信息學專家王凱(現任職於哥倫比亞大學)教授分別翻譯部分HPO詞條,王凱教授搭建了CHPO wiki技術網站,中日醫院顧衛紅教授負責相關方協調溝通與組織,北京協和醫學院黃尚志教授也給予大力支持。最終,在華大基因楊煥明院士與HPO創始人Peter Robinson教授的推動下,萬眾所歸的CHPO終於正式成立了。
CHPO成立宗旨是在中國建立一個開放平臺,聯合相關領域專業人士,逐步建立中文臨床表型術語標準,並讓其指導、服務於中文使用者的臨床和科研工作。目前已實現的兩個目標是,提供人類表型的中文標準術語;提供一個高效的中文人類表型搜尋引擎。
CHPO wiki
CHPO 搜尋引擎
這是中國第一個,也是迄今為止唯一一個醫學術語搜尋引擎,目前已與OMIM遺傳病知識庫建立連接。
其實成立CHPO不僅滿足醫療當下所需,還緣起於一段真實歷史。顧衛紅介紹,2015年發生一件轟動醫療圈的林林案例事件。患兒林林不幸得了疑難罕見症,林林的家長是清華校友,於是請求清華生命科學與醫學校友會援助,藍燦輝先生為此發表一篇《孩子罕見病,五年未確診,清華校友求病因線索》的文章,一時引發社會各界廣泛關注。後來知名學者、研究機構和社會企業自發組織林林病例的研討會,會上業內人士普遍認為臨床表型數據缺乏統一標準,限制了基因數據的分析效率,提議啟動臨床術語標準化工作,於是有專家建議引入HPO,由此誕生了CHPO聯盟。
「HPO是一種連接方式,也是一種共同語言,能將臨床、遺傳、生物信息、醫學數據等進行專業有效的匹配。在這個過程中,醫生藉助HPO轉化採集到的患者表型信息,是後續的深入分析的基礎。」
顧衛紅還解釋了HPO術語集與其他醫學標準術語的區別,第一是來源於已有的醫學文獻和資料庫,涵蓋常見、常用的詞條,源自對疾病的表型描述;第二是相對簡化便於推廣應用,已被眾多基因資料庫及分析工具所採用;第三是專注遺傳病與罕見病。
耗費一年半,CHPO志願者成員犧牲業餘時間完成翻譯編輯優化。資料顯示,2016年10月,CHPO對HPO詞條進行了翻譯編輯,共計11896個詞條;今年1月,入中科晶雲公司捐贈的5600種OMIM中文名錄與檢索方式;今年6月剛剛結束各分類詞彙定義的最終編輯。除了CHPO核心成員,在整個項目引進過程中,先後有近百位國內外專家參與編輯與審核工作。
近期,CHPO也取得不少進展,已經能提供詞庫免費下載,迄今有80餘個機構/項目申請下載,包括基因檢測機構、醫療機構、研究所、大學、數據分析機構、科研項目組等,而且與國家罕見病註冊登記系統建立了密切合作,共同推動中國臨床術語標準化進程。
雖然基因測序技術的飛速發展,讓疾病的基因層面診斷變為可能,然而作為臨床醫生,顧衛紅感觸最大的是,新興的技術一經推出,來不及消化與優化,就直接面向臨床進行推廣。基因檢測公司的各類基因檢測技術和項目,目前缺乏統一標準,難以做到全流程質控。
為此,她建議疑難病診斷除了臨床表型數據會診,還應建立基因表型數據會診,通過搭建基因表型共享數據平臺,實現臨床表型信息和基因數據在一個平臺上完成會診。「不僅有臨床會診,未來還需要基因會診,這樣才能建立基因檢測行業真正意義上的的質控體系,突破制約行業發展的瓶頸。」
她分享了一個想法,也是目前正在實踐的工作,即讓醫生端和基因檢測機構互通連接,讓局部的連接逐漸拓展、完善並且模式複製,最終形成以患者數據為中心的網絡平臺。
實際上,僅有臨床數據、基因數據、表型性狀還不完整,患者的健康狀態數據也必不可少,數據全面、信息完整才能讓醫生對患者未來生活方式進行科學幹預。她表示,目前健康狀態數據和臨床數據一樣,稀缺且薄弱,龐大的基因數據無法匹配碎片化的臨床表型和健康性狀數據。因此,彌補臨床表型數據,建立標準化方式,構建健康狀態數據也是業界共同努力的方向。
展望未來在AI領域的應用,顧衛紅認為,漢化版HPO不僅能應用在連接臨床、基因檢測、遺傳分析、科研等領域,也有助於機器學習,提高計算機輔助分析能力,推動AI技術與醫療的深入結合與落地應用。