知識圖譜是智能大數據的前沿研究問題,它以獨有的技術優勢順應了信息化時代的發展。同時隨著智能時代的到來,把臨床數據、臨床指南、組學數據通過大數據和知識圖譜結合,核心醫學概念的全面覆蓋、醫療生態圈內全方位知識數據的聚合,構建綜合智能醫療系統,給臨床醫生、患者和科研工作者等提供幫助,成為未來醫療的發展方向。因此如何將AI+醫療在工業界快速落地,構建一個簡單實用、可擴展的醫療知識圖譜是目前關注的話題。
本文針對中文醫療知識圖譜,從產品和技術等方面進行簡單的分析和概括,為後續的工程化實踐做準備。
百度-靈醫智惠靈醫智惠是由百度大腦技術驅動的AI醫療品牌。靈醫智惠技術中臺以醫學數據結構化及醫學知識圖譜為基礎,構建多項醫療專項能力,覆蓋臨床、科研、管理、患者服務等多環節
靈醫智惠技術中臺靈醫智惠「愛助醫」解決方案整體架構以靈醫智惠「愛助醫」為例,該產品能提供醫學知識服務、臨床輔助決策、智能隨訪服務和區域健康駕駛艙等四項核心應用,且服務範圍輻射院內、院外和區域三大場景。在臨床輔助決策方面,通過學習海量教材、臨床指南、藥典及三甲醫院優質病歷,基於百度自然語言處理、知識圖譜等多種AI技術,打造遵循循證醫學的臨床輔助決策系統,用以提升醫療質量,降低醫療風險。包含輔助問診、輔助診斷、治療方案推薦、醫學知識查詢等多種功能
輔助診斷:基於主訴、現病史中提到的症狀、疾病,以及體格檢查、檢驗結果推薦相關的疾病、相關症狀及體徵,按照診斷結果由高到低推斷潛在疾病可能性,實時抓取信息並提示,涵蓋4000餘種常見病,且全病種Top 3推薦準確率89%靈醫智惠包括臨床輔助決策、醫療大數據解決方案、眼底影響分析和智能診前助手四大模塊。醫療大數據解決方案專注於使用NLP和知識圖譜技術對電子病歷進行多層級深層次的結構化。智能診前助手是基於專業醫療知識圖譜,採用多種算法模型與多輪智能交互理解病人病情,根據病人病情精準匹配就診科室和專業醫生。
醫療大數據解決方案從上述簡介可知,不論是構建還是應用,百度靈醫智惠都側重於建設電子病歷。結構化良好的病歷是構建整個智能系統的基石。
中國平安-平安好醫生2019年平安智慧醫療正式推出中文醫療知識圖譜。該圖譜集成了60萬醫學概念、530萬醫學關係、千萬醫學證據,覆蓋核心醫學概念。
平安醫療知識圖譜實例平安知識圖譜整體架構從上圖可以看出,整個知識圖譜體系分為四層:
數據層:數據源主要來自於醫學領域核心概念及豐富的臨床證據,並通過RWE(真實世界證據)和經典病例分析形成醫學知識目前基於此醫療知識圖譜和更多的數據源,平安醫療開發出多個智能服務的應用場景,組件了醫療科技平臺。以旗下的平安好醫生'AI輔助診療系統'為例,通過智能語音語義解析及大數據等技術賦能,集合了超過3億條在線診療及健康諮詢數據,用於在線醫療諮詢的預診分診、問診等環節。
平安醫療科技平臺架構阿里巴巴-阿里健康2018年阿里健康推出基於知識圖譜打造的知識庫——醫知鹿。「醫知鹿」屬於一項公益類項目,知識庫的內容由頂級醫學專家、多家醫療機構和數百名醫生所編寫,首版收錄了近百個常見病種和12個高發實體腫瘤或罕見病的預防治療知識。醫知鹿的目標人群主要為患者,將教科書式的醫學知識和治療方案解讀成患者易懂、實用的內容。
醫知鹿APP示例此外,阿里健康還擁有一款智能醫療系統——Doctor You。目前Doctor You系統包括臨床醫學科研輔助平臺、醫療人工智慧開放平臺以及臨床醫師技能訓練平臺等。
臨床醫學科研輔助平臺
該系統是以智能搜索為主的大數據科研輔助分析引擎,通過數據倉庫、數據挖掘等方法,用海量臨床科研數據來評價治療效果,發現診療規律,提煉最佳治療路徑,提高醫療科研的能力和水平。其科研數據平臺包括:
知識圖譜:通過建立病歷研究專題相關的百科知識圖譜,如疾病介紹、症狀介紹等。構建診療之間的關係,例如:
疾病與症狀、體徵、異常指標、檢查項目、檢驗項目、藥物、手術之間的關係
症狀與疾病、伴隨症狀、異常指標、檢查項目、檢驗項目、藥物、手術之間的關係
藥物與疾病、症狀、異常指標、檢查項目、檢驗項目、手術之間的關係
自然語言處理:信息系統中存在很多次的同義詞情況,比如冠心病、冠狀動脈粥樣硬化之類的詞。利用自然語言處理算法,在結構化數據的同時,根據詞向量形成同義詞簇,由人工參與後,確認同義詞之間的關係,形成確定的、準確的同義詞詞庫
機器學習:提供一站式數據挖掘流程,數據上雲之後,無需做任何線下處理即可實現業務邏輯。提供了數據預處理、自然語言處理、特徵工程、機器學習算法、預測和評估、在線預測這一套流程的全部組件
2. 醫療人工智慧開放平臺
該系統提供醫療AI建模、訓練及開放應用服務,針對醫療機構真實臨床場景,提供智能肺、乳腺X射線、腫瘤靶區勾勒等多部位、多病種醫學AI系統應用及糖尿病用藥、宮頸癌篩查等AI輔助診斷決策系統應用平臺。
將文本科研平臺和影像科研平臺相融合,使用AutoML、特徵工程等算法建立科研模型,實現多部位、多病種的篩查應用
醫療人工智慧開放平臺騰訊-覓影騰訊覓影發布AI輔診開放平臺,旨在依託覓影在醫療領域積累的醫學知識圖譜、診斷模型、病情理解、名醫專家庫等AI輔診基礎能力,提供疾病預測、輔助決策、數據分析等功能。
輔診開放平臺疾病預測功能旨在多方位幫助醫生減輕工作量、輔助醫生臨床診斷。疾病預測由三個模塊構成:
智能導診:通過對醫學文獻、病歷、問答等醫療大數據的深度學習,進行症狀推理,預測範圍覆蓋全部科室、全部常見疾病,基本滿足90%的導診需求。用戶與機器人以問答的形式進行交互。
病案管理:通過深度學習技術自動提取病案特徵信息,減少人力與資金的投入,提高醫院病案整理的效率,同時助力醫院完成工作量巨大而且推行困難的數據治理工作。
風險監控:通過AI來輔助醫生鑑別是否誤診,降低高危疾病漏診帶來的巨大風險
病案管理示例康夫子-左手醫生通過建立「醫療大腦」知識圖譜,康夫子推出了左手醫生開放平臺和面向C端用戶的左手醫生APP。左手醫生系統的技術架構核心主要由三部分組成:
底層知識體系:通過閱讀海量醫學文本(包括病例和文獻等)後,自動給出描述某種知識的書寫規律,並進行大規模的知識自動抽取,構建醫學知識圖譜
輔助決策能力:根據知識圖譜進行推理學習,使機器獲得邏輯思考和推理能力,主要用於兩個方面:(1)判斷多種症狀綜合下和疾病之間的權重,配合診斷模型,提升診斷的命中率(2)將患者描述的通俗語句轉換成專業術語
交互能力:通過機器不斷學習,使其具備更好的語義理解能力,達到真人專家問診的效果
左手醫生開放平臺主要面向醫院提供多種服務,包括"用藥管家」、「智能導診」、「智能問答」、「智能自診」等多種功能。
智能導診:解決患者盲目就醫,減輕導診臺工作壓力,有效提升患者就醫體驗。疾病預判覆蓋32個學科,2000+種疾病丁香園為醫生、醫學生及其他醫療從業者提供一個信息交流的平臺,同時也推出了一系列移動產品以提供優質的醫學信息服務,包括丁香園論壇、用藥助手、丁香醫生、丁香家商場等
丁香醫生疾病查詢丁香園的AI系統主要以NLP中語義理解和搜索為主導,其技術架構包括三個方面:
丁香園知識圖譜丁香園內容畫像目前醫療知識圖譜構建的數據源可以分為三個部分:
1. 權威的醫學文獻:包括醫學數據、醫療指南、論文等
2. 臨床數據:包括電子病歷、影像、檢驗等一大堆專業臨床業務系統產生的數據集
3. 網際網路信息:包括醫療資訊、問答數據等
3.2 醫療知識圖譜構建知識圖譜的構建可以歸納為五個步驟,即知識的表示、抽取、融合、推理以及質量評估,而對於醫療領域來說,前三步為核心步驟:
1. 醫學知識表示
知識圖譜本體的表示可以提升數據的整合能力,便於下遊的知識推理任務,而在工業界中通常並沒有採用嚴格意義上的Ontology來進行表示,而是根據不同的醫學信息標準並結合底層數據的內容來設計適用於產品化的Schema,例如目前普遍適用的概念性層級網絡,其中包含著許多"上下位詞"的關係,這樣的組織結構不如傳統意義上的本體語言那麼嚴格,也很難進行本體推理,但是能夠簡單而有效的表達領域知識。在構建過程中大多採用半監督和無監督的方法來獲取概念之間的關係。
在醫療領域,實體維度通常包括疾病、症狀、檢查、檢驗、體徵、藥品等等醫學名詞,甚至醫生、科室、醫院也可以納入範疇。關係是指實體間的關係,比如,針對疾病和症狀,關係可有「包含關係」,「不包含關係」,甚至「金標準關係」(比如,所有炎症都會帶來發熱)。
醫學知識的表示首先應當符合醫學領域的嚴肅性,要求知識的準確率高,在構建過程中醫學從業者的指導與必不可少,同時醫學知識的表示也要兼顧下遊任務的實用性和通用性,使其能夠與診斷模型、問答系統等緊密結合。
2. 知識抽取
知識抽取包括實體、關係和屬性抽取。然而與其他垂直領域相比,醫學知識抽取存在著數據差異性較大、人工標註的專業性要求高和實體嵌套等諸多難點,因此工業界和學術界都在不斷研究一些特有的醫學知識抽取的方法,後續會進行詳細的探討和實踐。
3. 知識融合
知識融合使不同來源的知識在同一框架規範下進行數據整合、消歧和加工。不同醫學標準下實體的描述可能會不盡相同,同時醫學實體在不同的數據源中存在嚴重的多元指代問題,例如阿奇黴素在百度百科中被稱為希舒美,在 A+醫學百科中別名有阿齊黴素、阿奇紅黴素、疊氮紅黴素等。因此實體對齊是醫學知識融合中非常重要的一步。
3.3 醫療知識圖譜的應用從以上介紹中可以看出,目前醫療知識圖譜的落地應用主要分為一下幾個方向:
臨床決策支持系統
輔助決策系統即通常所謂的CDSS系統,即藉助醫療知識圖譜,醫療決策支持系統可以根據患者症狀描述及化驗數據,給出智能診斷、治療方案推薦及轉診指南,即所謂的診前決策、診中決策和診後決策三大應用場景,例如上述提到「智能導診」、「智能問診」等,同時該系統還可以針對醫生的診療方案進行分析、查漏補缺,減少甚至避免誤診,例如騰訊覓影的風險監控。
臨床決策支持系統的開發難度較大,其核心組件為知識庫、推理機和人機互動系統:
知識庫通常以知識圖譜的形式來構建,因此對知識圖譜的完備性和質量要求較高,能夠覆蓋足夠多的疾病和症狀才能進行診斷
推理機一般稱為「診斷模型」,對相應的醫學知識進行推理做出決策。採用人工構建規則的方式質量較高但很低效,如何通過機器自動學習知識正是CDSS的難點所在。
人機互動系統需要NLP的技術來實現,主要包括問答系統、語義解析、語音識別等
2. 信息檢索系統
醫療信息檢索包括問答系統和搜尋引擎,其面向對象有患者和醫療從業者等。
醫療信息搜尋引擎:基於知識圖譜的搜尋引擎與傳統的搜尋引擎相比能夠更好的理解用戶的語義,優化用戶的問句,根據知識圖譜對query進行擴展和改寫。以最具有代表性的丁香園為例,其面向醫生、醫療機構、醫藥從業者,提供醫療知識的交流與檢索,目前已經取得了不錯的效果。
醫療問答系統:面向患者的醫療問答系統最常見的功能是對患者提供醫學知識的科普,以結構化的知識為主,例如「白內障是什麼」、「什麼是近視」。面向醫療從業者的問答系統主要功能是輔助教育,提供精準的結構化知識查詢,同時也可以輔助科研任務,例如阿里的臨床醫學科研輔助平臺。
目前知識圖譜在醫療領域的落地應用已經取得一定的成果,推進了醫學數據的自動化與智能化處理,為醫療行業帶來新的發展契機。從海量醫學數據中提煉出知識,對其加工處理,結合大數據、自然語言處理等技術組建一套強大的技術架構是目前很多企業的研究方向。本文只是簡單的介紹了目前醫療知識圖譜相關內容,為後續的工作做準備,對於各個環節所涉及到的具體技術今後再做深入的學習和實踐