數據挖掘技術在中醫證候學中的應用

2021-01-16 電子產品世界

作者 / 周旭1 趙耀2  1. 河北醫科大學 基礎醫學院(河北 石家莊 050017) 2. 中國人民銀行石家莊中心支行(河北 石家莊 050000)

本文引用地址:http://www.eepw.com.cn/article/201803/377635.htm

*基金項目:河北省中醫藥管理局科研計劃項目(編號:2014012)。

周旭(1983-),女,碩士,講師,研究方向:數據挖掘。

摘要:中醫證候的研究工作仍然存在一定的困難,證候的規範化和證候診斷的量化是中醫發展必須解決的問題。數據挖掘技術是一種高效的數據分析手段,其在中醫領域的研究也逐步走向熱門。使用數據挖掘技術中的關聯規則和分類算法對早中期慢性腎衰竭的證候和症狀進行分析:首先對採集的症狀和證候信息進行數字特徵化處理;然後對證候之間的關聯關係進行研究,獲得了高支持度的四組證候組合;最後分類和預測症狀和證候之間的辯證關係,得到了症狀的規則集,並計算出其中的重要症狀。實驗證明,分類結果對早中期慢性腎衰竭的症狀與證候的辯證論治具有重要的臨床指導意義。

0 引言

  證候是醫師通過望、聞、問、切來收集病人四診信息資料,運用相關中醫理論,從整體上對疾病進行分析,歸納、推理、判斷疾病的某一時點病理狀態綜合反映的認識[1]。由於證候是一種非線性的複雜的臨床表現,只有採用與證候覆雜性相適應的科學理論及思維方法對其進行研究,才能揭示其科學內涵[2]。運用數據挖掘技術對中醫證候的構成特點及其規律進行分析研究,將對中醫證候的辯證分析起到巨大的促進作用。

1 數據挖掘技術

1.1 數據挖掘定義

  數據挖掘是從大量數據中挖掘有趣模式和知識的過程。從廣義上說,數據挖掘是對資料庫知識發現(Knowledge Discovery in Databases,KDD)的一個過程[3]。數據挖掘作為一種通用技術,可以應用於任何類型的數據,包括資料庫、數據倉庫、web信息以及其他信息存儲資料庫和動態的流入系統的數據等。

1.2 常用的數據挖掘算法

1.2.1 關聯規則

  關聯分析用於發現隱藏在數據集中的有意義的聯繫,所發現的特徵變量之間的聯繫可以用關聯規則或頻繁項集的形式表示。關聯規則挖掘作為一種重要的數據挖掘方法,已經廣泛應用於醫學、金融、網際網路等多個領域[4]。Agrawal等人[5]提出了最早的基於頻繁項集的經典關聯規則Apriori算法。發現關聯規則需要經歷兩個步驟:①通過一種逐層搜索的迭代算法,檢索出支持度不低於某一預設閾值(支持度)的頻繁項集;②利用檢索出的頻繁項集構建出強關聯規則(同時滿足最小支持度和最小置信度)。

1.2.2 分類

  分類任務就是確定對象屬於哪個預定義的目標類。分類問題是一個普遍存在的問題,已經有大量應用,包括目標營銷、性能預測、製造和醫療診斷等[6]。數據挖掘技術中比較成熟且應用廣泛的分類算法有貝葉斯網絡、決策樹以及人工神經網絡等。

  貝葉斯方法最早起源於英國數學家託馬斯.貝葉斯在1763年所證明的一個關於貝葉斯定理的一個特例[7]。經過多位統計學家的共同努力,貝葉斯統計在20世紀50年代之後逐步建立起來,成為統計學中一個重要的組成部分[8-10]。從1763年到現在已有250多年的歷史,這期間,貝葉斯統計方法有了長足的進步[11]。

  決策樹模型源於人工智慧領域的機器學習技術,用於實現數據的分類和預測。經過多年發展,其核心算法已經逐漸成熟,被各類智能決策系統所採納[12]。其中的C5.0算法作為C4.5算法的商業版本,通過對生成規則及算法精確度方面予以改進,獲得了更準確的生成規則、更快的運行速度以及更低的誤差率[13]。決策樹模型在中醫證候學和診斷學[14-15]等方面的應用研究已經較為成熟。

  人工神經網絡是20世紀80年代發展起來的一門由計算機、信息、工程、醫學、生物學、數學、物理學等多學科交叉的邊緣學科[16]。它包含輸入層、輸出層以及1個或幾個隱含層,各層中處理數據的節點稱為神經元,信息處理是由神經元之間的相互作用來實現的。腦與神經科學、人工智慧、計算機科學的深度融合與相互借鑑已成為近年來科學研究領域重要的國際趨勢[17]。

2 數據集的建立

2.1 數據採集

  本文實驗數據採自早中期慢性腎衰竭患者的病案。病案內容包括患者姓名、性別、年齡、原發病、症狀、體徵、腎功能指標、中醫證候、中藥處方等。本文摘取其中的症狀和證候信息進行數據挖掘的分析研究。共採集並錄入病案信息223條,其中記錄症狀共76種,論治證候共16種。

2.2 數據特徵化

  針對要採用的數據挖掘算法,本文將每條數據記錄用布爾值的形式表示,如表1所示。

  其中布爾值0和1表示病人是否具有這種症狀或證候,0表示病人沒有此症狀或證候,1表示病人具有此症狀或證候。

  按照上述方法建成症狀和證候資料庫,其中包括:包含所有症狀的數據集,由專業教授診斷判別的證候數據集,統計症狀和證候頻次的症狀和證候計數數據集以及主要症狀數據集和主要證候組合數據集。

3 關聯分析

  本研究共納入症狀16種,出現頻數在病案總條數10%以上的的證候有11種,分別是血瘀,脾腎氣虛,溼熱內蘊,脾腎陽虛,溼濁阻滯,風溼,胃氣上逆,肝陽上亢,肝腎陰虛,陰陽兩虛,氣滯胃腸。

  本文採用Apriori算法建模,對這11種主要的證候進行關聯分析。結果見表2(由於篇幅限制,只摘取支持度30%以上的規則顯示)。

  支持度是指所有前項證候同時出現的概率,置信度是在前項證候出現的前提下,後項證候同時出現的概率。結果顯示,血瘀單獨出現的機率最高,達到98.21%;血瘀與脾腎氣虛同時出現的機率高於60%;在此基礎上,再同時伴有溼濁阻滯或溼熱內蘊者均在30%左右,而兩者之和則高於60%,充分表明瘀阻、溼壅與脾腎氣虛為慢性腎衰竭虛實夾雜、本虛標實的主要體現。

  使用SPSS Clementine12.0中的網絡圖形建模,該模型可以直觀的體現11種高頻證候兩兩之間關聯關係,連接兩種證候之間的直線越粗,表明兩種證候同時出現在一個病案中的頻率越高。如圖1所示。

  結合網絡關係圖及連結數據分析,強連結關係主要集中於血瘀、脾腎氣虛、溼熱內蘊、溼濁阻滯和脾腎陽虛之間。其中,位於前三位的連結關係分別為血瘀與脾腎氣虛、溼熱內蘊、脾腎陽虛之間,連接條數達389條,佔所有連接條數的50%以上,表明血瘀為早中期慢性腎衰最重要的標實證候;脾腎氣虛除與血瘀之外,與脾腎陽虛、溼熱內蘊、溼濁阻滯之間的關係均較密切,故為本病最主要的本虛證候。

4 分類與預測

4.1 決策樹模型的建立

  本文使用C5.0算法構建決策樹模型。統計資料庫中患者症狀出現的頻數,從76個症狀中篩選出出現次數10次以上的主要症狀如畏寒、小便黃、腰酸痛、眼瞼、下肢水腫、舌紅、舌暗紅、寒熱不調、寐差、夜尿頻、大便幹、雙目乾澀、視物模糊、納差、大便粘膩、胃脘不適、口乾咽幹、關節疼痛、腿麻木脹痛、噁心、乾嘔、四末厥冷、咽癢咽痛咳嗽有痰、耳鳴、腹脹、口苦、舌淡、後背沉重、小便量少、小便清長、咽部異物感、潮熱、乳房脹痛、齒痕舌、舌淡暗、汗出、舌淡紅、皮膚瘙癢健忘、尿頻、大便溏、口淡等39個。使用這些主要症狀參與建模,按其出現次數降序排列。

  據前述關聯規則的結果,出現頻數較高的證候組合(支持度30%以上)共四個,包括:①血瘀、脾腎氣虛;②血瘀、脾腎氣虛、脾腎陽虛;③血瘀、脾腎氣虛、溼熱內蘊;④血瘀、脾腎氣虛、溼濁阻滯。症狀是疾病所反映的現象,它是判斷病種,辨別證候的主要依據。分別對這四種高頻證候組合及其對應的症狀進行決策樹建模,每個組合分別獲得若干條症狀的分類規則。組合1獲得的規則集如表3。

  我們選取分類結果為真的規則集,這些規則集預測的結果就是證候組合為真。組合1(血瘀和脾腎氣虛)共獲得了8條判斷規則,前7條規則都可作為組合1的有效分類規則,而第8條規則中,分類特徵的屬性都為0,在實際臨床應用中不具備實際作用,將其忽略。組合2獲得3條有效分類規則;組合3獲得4條有效分類規則;組合4獲得3條有效分類規則。這些有效規則都可以獨立地的預測其對應的證候組合,構成規則的症狀數量較少,可以簡化診斷過程。

4.2 計算變量重要性

  不同證候組合所對應的症狀規則不盡相同,基於對症狀的信息熵的分析計算,提取每個組合其所對應的重要症狀,結果如表4,表中症狀出現的順序按照重要性降序排列。

  表中的症狀是去除冗餘症狀之後的結果,剔除了不重要的症狀,保留的症狀是對證候組合的預測有重要貢獻的症狀。重要度越高,表明此症狀對目標證候的預測影響程度越高;反之重要度越低,表明此症狀對目標證候的預測影響程度越小。

  不同證候組合所對應的預測症狀不盡相同,通過分析發現,四種最常見證候組合均可出現畏寒的臨床表現,而每一種組合用於鑑別的重要症狀則主要集中側重後背沉重、寒熱不調、尿頻、舌淡等臨床表現。

4.3 不同分類模型預測結果對比

  本文對支持率較高的四種證候組合,採用三種常見的數據挖掘分類預測算法:C5.0決策樹、貝葉斯網絡以及人工神經網絡對症狀進行分類預測,對比分類準確率如圖2。

  三種分類算法中,貝葉斯網絡對本數據集的分類準確率最高,在84.75%到96.41%之間。神經網絡的分類準確率較低,在73.99到91.93%之間,而三種分類算法的平均準確率都達到了82%以上,準確率較為理想。

5 結論

  本文首先構建了一個基於Apriori算法的模型,進行證候的關聯規則挖掘,發現了在早中期慢性腎病患者中的四組高支持度證候組合,並且與中醫理論較為吻合,同時也為下一步的分類與預測工作提供數據支持。

  其次針對較高支持度的四組證候組合以及患者出現的高頻症狀採用C5.0算法進行決策樹建模,以期得一些有意義的症狀規則。結果顯示,這些規則集可以預測患者是否屬於某種證候組合,本文選取預測類別為「真」的規則集(可預測患者確實屬於某種證候組合)作為臨床診斷的參考。預測類別為「假」的規則集(預測患者不屬於某種證候組合)不具備臨床診斷意義,所以不予討論。同時計算出參與預測的症狀的重要性,判別哪些症狀對證候組合的預測結果具有重要意義,說明這些症狀在臨床診斷中值得關注。

  最後分別使用使用貝葉斯網絡,C5.0和神經網絡三種分類算法對症狀進行建模,分析不同的分類算法分類預測的準確率。貝葉斯網絡對四組證候組合的平均分類準確率最高為89.80%;C5.0和其非常接近,也達到88.34%,說明這兩種分類算法對本數據集中證候組合的分類預測都比較可靠。神經網絡的的準確率為82.85%,相較前兩種算法較低,但由於中醫數據集的樣本數量有限且主觀性較強,獲得的準確率達到百分之八十以上我們就可認為是有效可行的分類預測算法。所以認為這三種算法對於症狀和證候的分類預測都是可行的,且以貝葉斯網絡和C5.0算法為更優,預測結果都可以作為臨床診斷的參考依據。

  本文採用的算法都是數據挖掘中的經典算法,並沒有對算法進行優化工作,對證候組合的提取以及症狀的分類預測還需要大量的實驗數據進行進一步驗證,算法的準確率還需要進一步提高,這些都是需要進一步改進的地方。

  綜上所述,利用多種數據挖掘算法對早中期慢性腎病的症狀與證候進行逐漸深入的知識挖掘,是可行有效的,獲得的高支持度證候組合以及症狀的分類預測規則對於臨床診斷也是有一定指導意義的。如何在算法上有更多突破,同時將更多新的算法引入到中醫研究中,以期提高挖掘的效率和準確性,是我們下一步的研究方向。

  參考文獻:

  [1]田金洲,王永炎,時晶,等.證候的概念及其屬性[J].北京中醫藥大學學報,2005,28(5):6-8.

  [2]孫安會,袁肇凱,夏世靖.中醫證候系統生物學研究的現狀和展望.[J]中華中醫藥雜誌,2016,31(1):200-204.

  [3]JiaWeiHan,MichelineKamber, Jian Pei.數據挖掘概念與技術[M].範明,孟曉峰,譯.北京:機械工業出版社.2012:243.

  [4]Giannella C,Han Jiawei,Pei Jian,et al. Mining frequent patterns in data streams at multiple time granularities[J].Next GenerationData Mining,2006,35(1):61-84.

  [5]AGRWAL R,SRIKAN R.Fast algorithms for mining association rules in large databases[C]//Proceedings of the 20th International Conference on Very Large Data Bases. San Francisco: MorganKaufmann Publishers,1994:487-499.

  [6]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數據挖掘導論 [M]. 範明,範宏建,譯.北京:人民郵電出版社。2011:92

  [7]Bayes T. An essay towards solving a problem in the doctrine of chances [J]. London: Philosophical Transactions Royal Societv, 1763,53:370-418

  [8]茆詩松.貝葉斯統計[M].北京:中國統計出版社,1999.

  [9]P M Lee.Bayesian statistics: An Introduction[M]. New York: John Wiley & Sons, 2012.

  [10]A Gelman,J Carlin,H Stern,et al.Bayesian Data Analysis[M].Boca Raton:CRC Press,2013.

  [11]Efrou B.Bayes』 theorem in the 21st century[J].Science, 2013, 340(6137):1177-1178.

  [12]N Robert,E John,M Gary.Handbook of statistical analysis and datamining applications[M].USA:Elservier,2009.

  [13]熊平.數據挖掘算法與Clementine 實踐[M].北京:清華大學出版社,2011,26:116-118.

  [14]張琪,周琳,陳亮,等.決策樹模型用於結核病治療方案的分類和預判[J].中華疾病控制,2015,19(5):510-513.

  [15]陳瀟雨,馬利莊,胡義揚.基於決策樹方法的慢性B型肝炎中醫證候分類[J].上海:中醫藥大學學報,2013,27(1):40-43.

  [16]B D Ripley.Pattern Recognition and Neural Networks. Cambridge: Cambridge University Press. 1996.

  [17]曾毅,劉成林,譚鐵牛.類腦智能研究的回顧與展望[J].計算機學報,2016,39(1):212-222.

  本文來源於《電子產品世界》2018年第4期第56頁,歡迎您寫論文時引用,並註明出處。

相關焦點

  • 大數據_數據挖掘技術分類及應用
    體質資料庫正如一個寶礦,採用數據挖掘技術,肯定能夠挖掘出很多難以想像的寶藏。   2、 體育產業中的應用   數據挖掘最初的應用就是商業領域,而體育產業本身就是一類典型的商業。在一般的商業數據挖掘中,DM技術判斷哪些是它們的最有價值客戶、重新制定它們的產品推廣策略(把產品推廣給最需要它們的人),以用最小的花費得到最好的銷售。
  • 國家藥監局解讀《證候類中藥新藥臨床研究技術指導原則》
    《證候類中藥新藥臨床研究技術指導原則》(以下簡稱《指導原則》)。《指導原則》旨在為證候類中藥新藥臨床試驗的開展和有效性、安全性評價提供基礎性指導,其正文內容中的每一個原則性要求都可以隨著學科進展、後續研究的不斷深入以及證候類中藥新藥研究實踐經驗的積累,進一步豐富和發展為更詳實具體的技術標準。
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 從概念到應用,這一次終於把數據挖掘給講明白了
    然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。01 數據挖掘及高級數據分析技術的應用1.
  • 深度解析數據挖掘在推薦系統中的應用
    實際上,在構建推薦系統的過程中會用到大量的數據挖掘算法。首先,來說下數據挖掘中的聚類分析。推薦系統裡用得最多的協同過濾算法,實際上就是數據挖掘裡的聚類算法。協同過濾的原理分為兩種,一種是基於用戶的協同過濾,就是找到與用戶A興趣相識的用戶B,然後將用戶B看過的物品推薦給用戶A。
  • 大數據中數據挖掘的基本步驟
    挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。   數據挖掘是什麼   數據挖掘指從資料庫的大量數據中揭示出隱含的、先前未知的並有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,主要基於人工智慧、機器學習、模式識別、統計學、資料庫、可視化技術等,高度自動化地分析企業的數據,作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。   數據挖掘步驟。
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    因此需要了解數據挖掘與數據科學之間的重要區別。什麼是數據科學?數據科學是一門專注於數據分析並在此基礎上取得最佳解決方案的科學。在以往,這些問題是由數學和統計學專家來處理的。隨著人工智慧的進步得到了更廣泛的應用,這使得將優化和信息學納入分析方法成為可能。
  • FineBI:數據挖掘的車,開了
    該說數據挖掘了,數據挖掘的定義是有很多的,解讀它的定義是沒什麼意思的。我覺得,數據挖掘是拉近了數學和業務場景的距離的。比如我們曾經學過的線性代數,你可能已經忘了,可以通過下面的公式來回憶一下。矩陣的乘法為什麼這樣規定?為什麼這麼奇怪的乘法規則可以在實踐中有著巨大的作用?
  • 【統計故事】統計學歷史上的經典數據挖掘案例
    來源:《中國統計》2014年第十期作者:聶淑媛學界關於數據挖掘(Data Mining)的起源可謂莫衷一是,直到1995
  • SWATH採集技術在蛋白質組學中的應用
    蛋白組學是SWATH應用最廣泛和深入的領域。因為SWATH在蛋白組學中的重大貢獻,兩位技術研究者StephenTate 和Ron Bonner在第16界人類蛋白質組世界大會上(HUPO2017)獲得了科學與技術獎。並且2018年SWATH被評為Nature最關注技術。
  • 工業大數據的技術與應用
    3、外部數據 外部數據指與工業企業生產活動和產品相關的企業外部網際網路來源數據,例如,評價企業環境績效的環境法規、預測產品市場的宏觀社會經濟數據等。工業大數據技術是使工業大數據中蘊含的價值得以挖掘和展現的一系列技術與方法,包括數據規劃、採集、預處理、存儲、分析挖掘、可視化和智能控制等。
  • 大數據時代的大數據技術與應用有哪些.
    從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。  在解決了這些難題的同時,也意味著大數據開始向縱深方向發展。大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。
  • AI時代,數據挖掘過時了嗎?—企業數據挖掘成功之道(理論篇)
    大數據時代、人工智慧時代,機器學習、人工智慧、深度學習、集成學習……概念漫天飛,數據挖掘似乎成為一個過時技術和概念。今天小編結合多年專業學習與研究經驗,從實踐應用的角度重新梳理一下「數據挖掘」,讓您能夠拋開概念了解本質!
  • 單細胞數據挖掘與課題設計實戰課程
    低門檻:零基礎學R語言,學單細胞數據分析; 2. 零成本:快周期且零成本的實戰型數據挖掘課; 3. 新思路:最熱的技術,最新的挖掘方向,做第一批吃螃蟹的人; 4.
  • CIO時代APP微講座:青島大學李勁華——大數據與生物信息學的應用...
    基於cDNA序列測試所建立起來的EST資料庫已超過數百萬條,在這些數據基礎上派生、整理出來的資料庫已達5000多個。  這一切構成了一個生物學數據的海洋。這種科學數據的極速和海量積累在科學發展史上是空前的,但數據並不等於信息和知識,當然,它是信息和知識的源泉,關鍵在於如何從中對其進行挖掘。與正在以指數方式增長的生物學數據相比,人類相關知識的增長卻十分緩慢。
  • 乾貨 面向大數據的時空數據挖掘
    因此,尋找有效的時空數據分析技術對於時空數據中有價值的時空模式的自動抽取與分析具有重要意義。  近年來,時空數據已成為數據挖掘領域的研究熱點,在國內外贏得了廣泛關注。同時,時空數據挖掘也在許多領域得到應用,如交通管理、犯罪分析、疾病監控、環境監測、公共衛生與醫療健康等。
  • 數據挖掘的知識類型
    這些關聯並不總是事先知道,而是通過資料庫中數據的關聯分析獲得的,其對商業決策具有重要的價值,因而關聯分析廣泛用於市場營銷,事物分析等領域。挖掘關聯知識的一個典型應用實例就是市場購物分析。根據被放到一個購物袋的(購物)內容記錄數據而發現的不同(被購買)商品之間所存在的關聯知識無疑將會幫助商家分析顧客的購買習慣。發現常在一起被購買的商品(關聯知識)將幫助商家指定有針對性的市場策略。
  • 科學網—韓家煒:數據挖掘第一人
    從計算機到大數據 韓家煒的《數據挖掘:概念和技術》一書目前已第三次印刷出版,是國內外數據挖據領域的經典教材,記者不禁對他如何走上科研而感到好奇。 「我在『文革』期間讀高中,本科沒學習理工科。恢復高考後,直接報考了中國科技大學的研究生,也僅讀了一年。
  • 數據科學 Top10 清單(工具、技術、應用……)
    字幕組雙語原文:數據科學 Top10 清單(工具、技術、應用... 你需要的都在這!)英語原文:The List of Top 10 Lists in Data Science翻譯:雷鋒字幕組(李珺毅)毫無疑問,數據科學是21世紀「最吸引人」的職業道路,由具有強烈求知慾和技術專長的人組成,他們能夠從海量數據中挖掘出有價值的見解。
  • 【乾貨】數據挖掘中算法學習的2條進擊路線
    這說明你尚不具備深入開展數據挖掘算法學習的能力。你會發現到處都是門檻,很難繼續進行下去。貝葉斯網絡、HMM(隱馬爾科夫模型),是這個線路中的核心內容。K-means 和 EM 具有與生俱來的聯繫,認識到這一點才能說明你真正讀懂了它們。而EM算法要在HMM的模型訓練中用到,所以你要先學EM才能深入學習HMM。所以儘管在EM中看不到那種畫來畫去的圖模型,但它還在這條線路中。