數據分析案例:預測乳腺癌是否復發

2021-02-21 數之何

    醫院有78條乳腺癌病人的數據,這些病人經過治療,其中34位5年內病情復發,另外44位5年內未見復發,現需要對19位經過治療的病人,分析其在5年內是否會復發,並評估模型的準確性及可行性。

數據說明

       訓練數據包含78位乳腺癌病人樣本,他們中的34位5年內病情復發(標記為relapse),另外的44位至少在5年內未復發(標記為non-relapse)。相應地,這裡有12位復發,7位未復發的病人樣本在測試集中。使用到的基因數量為24481。

LDA降維

      由於維度太多,直接參與計算,太耗費性能,並且時間較長。為便於處理,這裡使用線性判別分析方法對數據降維處理。根據經驗,我們將特徵維度降到156維(即維度數量的平方根), 代碼如下:

import pandas as pdtrain_data = pd.read_csv("breastCancer_train.data",header=None)test_data = pd.read_csv("breastCancer_test.data",header=None)train_data.head()

from sklearn.discriminant_analysis import LinearDiscriminantAnalysisX_train = train_data.drop(24481,axis=1,inplace=False)X_test = test_data.drop(24481,axis=1,inplace=False)y_train = train_data[24481]y_test = test_data[24481]lda = LinearDiscriminantAnalysis(n_components=156)lda.fit(X_train, y_train)x_train_trans = lda.transform(X_train)x_test_trans = lda.transform(X_test)x_train_trans
array([[-0.56797136], [-3.90700734], [ 0.28597055], [ 2.68592054],.

由於數據存在嚴重的共線性,最終的降維結果只有一維。不過,我們仍然可以基於這個數據建立分類模型。

import numpy as npfrom sklearn import treefrom sklearn.metrics import confusion_matrixclf = tree.DecisionTreeClassifier(max_leaf_nodes=2,min_samples_leaf=15)clf = clf.fit(x_train_trans, y_train)y_test_pred = clf.predict(x_test_trans)C2= confusion_matrix(y_test, y_test_pred)print(C2)# [[5 2]#  [3 9]]np.diag(C2).sum()/np.sum(C2)# 0.7368421052631579

進一步,可將決策樹繪製出來,代碼如下:

import graphviz,pydotplusfrom IPython.display import Image  dot_data = tree.export_graphviz(clf, out_file=None,                       feature_names=['v'],                        class_names=['relapse','non-relapse'],                        filled=True, rounded=True,                        special_characters=True)  graph = pydotplus.graph_from_dot_data(dot_data) Image(graph.create_png())

決策樹

除了LDA降維處理的方法之外,我們還可以直接基於高維數據建模,過程如下:

import numpy as npfrom sklearn import treefrom sklearn.metrics import confusion_matrixclf = tree.DecisionTreeClassifier(max_leaf_nodes=2,min_samples_leaf=15)clf = clf.fit(X_train, y_train)y_test_pred = clf.predict(X_test)C2= confusion_matrix(y_test, y_test_pred)print(C2)# [[3 4]#  [5 7]]np.diag(C2).sum()/np.sum(C2)# 0.5263157894736842

當然,這個不是最好的,只是在相同的設置下,和LDA降維後的決策樹效果進行比較。我們可以把決策樹繪製出來,代碼如下:

import graphviz,pydotplusfrom IPython.display import Image  dot_data = tree.export_graphviz(clf, out_file=None,                       feature_names=X_train.columns,                        class_names=['relapse','non-relapse'],                        filled=True, rounded=True,                        special_characters=True)  graph = pydotplus.graph_from_dot_data(dot_data) Image(graph.create_png())

代碼及數據領取方式

掃描下方公眾號回覆:0718

可獲取下載連結

歡迎關注,數海星辰,作者官方公眾號


往期回顧:

相關焦點

  • Python數據分析:股票數據分析案例
    步驟:準備數據可視化數據、審查數據處理數據根據ACF、PACF定階擬合ARIMA模型預測準備數據    # 指定股票分析開始日期    start_date = datetime.datetime(2009, 1, 1)    # 指定股票分析截止日期    end_date = datetime.datetime(2019, 4, 1)    # 股票代碼    stock_code = '600519.SS'    # 滬市貴州茅臺
  • 解讀:影響乳腺癌復發的因素有哪些?
    癌症的轉移和復發對於不同種類的腫瘤存在不同的模式,就乳腺癌而言,不同類型之間出現復發轉移的模式也不一樣。一般來講,乳腺癌的復發、轉移存在兩個高峰,其一為手術後2~3年,其二為手術後5~6年,前者峰值較高,後者峰值較低。
  • 姚貝娜乳腺癌復發陷入昏迷 乳腺癌自測轉起
    點擊標題下方「央廣網」即刻訂閱微信號2015年1月16日凌晨,姚貝娜因乳腺癌惡化
  • 婆婆乳腺癌復發,兒媳婦做了這些事讓她安心!
    「三陰乳腺癌,雖然惡性程度高且易轉移復發,放在過去是一個特別難對付的分型,但是隨著BRAC突變靶向治療、免疫治療的出現,已經不那麼棘手了。大部分治療藥物在醫保的報銷範圍內,花不了太多錢。」我們極力向婆婆解釋了費用的明細,勤儉持家的婆婆才放下了心理的負擔,配合著醫生的治療方案,經過4次化療後情況好轉了不少。
  • [譯]乳房大小和乳腺癌有關係嗎:讓基因告訴你
    23andMe (一個引領著個人基因檢測公司)利用其獨特的在線研究平臺,確定了與乳房大小相關的七個單核苷酸多態性(SNPS),其中三個SNP位點與乳腺癌相關(基於全基因組相關研究(GWS)數據,結果已發表在BMC醫學遺傳學)。這一結果第一次從遺傳角度揭示出乳房的大小和得乳腺癌風險之間的關係。
  • Nat Genet:大數據!對14萬男性的相關分析鑑定了63個新的前列腺癌易感位點
    導語:這些發現改善了風險預測,進一步加強了對易感位點的精心定位,並且為闡釋PrCa潛在的生物學機制提供新的認識。
  • 深度好文:十個段子反思大數據
    同樣為重量級的英國報刊《財經時報》(Financial Times,FT)也刊發了類似反思式的文章「大數據:我們正在犯大錯誤嗎?(Big data: are we making a big mistake?)」【3】在大數據熱炒之中,大數據的價值是否被誇大了?是否存在人造的「心靈雞湯」?
  • 綜述:《為實現預防醫學的大數據分析》
    對這些問題的明確回答是使用智能數據分析方法從大量醫療數據中發現信息。數據分析研究人員正準備在患者醫療方面促成巨大的有益進步。醫療領域的數據分析應用具有巨大的潛力。目前,數據分析、機器學習和數據挖掘使早期疾病的識別和治療成為可能。許多國家都正在實施疾病的早期監測和發現,如美國的BioSense、加拿大的CDPAC、澳大利亞的SAMSS和AIHW,以及法國的SentiWeb等。醫療數據是最有價值的數據之一,但也是最難分析的數據。醫療機構如何使用現代數據分析工具和技術來分析這些複雜數據並從這些數據中創造出價值?
  • HER-2+乳腺癌再添新藥:FDA批准Margenza上市
    早期發現和儘早治療對乳腺癌患者的生存產生積極影響,但是診斷為轉移性乳腺癌的患者預後仍然很差,需要進一步的治療。
  • 權威發布:2016年度優秀大數據應用案例名單
    智慧商場大數據應用案例2聯通雲數據有限公司保定智慧城市應用案例3陝西雲基華海信息技術有限公司城市數據運營案例4通信行業中國移動通信集團浙江公司大數據反通信欺詐應用案例5中國移動通信集團廣東有限公司基於移動運營商智能管道的
  • Her-2傳: 乳腺癌基因中的霸道總裁
    我是HER-2蛋白,是乳腺癌預後分子中的貴族,繼承著表皮細胞生長因子受體家族(腫瘤驅動基因)的高貴血統,在約15%左右的乳腺癌患者細胞中存在。我還是主管乳腺癌細胞生長繁殖的霸道總裁,是乳腺癌耐藥、復發的幕後推手。我的終極目標?在我的帶領下,讓乳腺癌細胞與放療、化療、內分泌治療等一切敵對勢力做最頑強的鬥爭。我的終極目標是:以星星之火造燎原之勢。
  • 360瀏覽器大數據分析 2017春運或將一票難求
    DoNews 12月7日消息(記者 趙晉傑)12月7日下午,360瀏覽器發布了《2017年春運預測報告》,同時正式上線了「360手機瀏覽器搶票專版
  • 大數據全球預測:軟體細分市場將持續增長
    =======Wikibon最近完成了2017年大數據全球預測,該報告的作者是Wikibon分析師George Gilbert,以及Wikibon的Ralph Finos和Peter Burris,涉及到大數據的市場規模、增長和趨勢等。
  • Cancer cell:治療擴散性乳腺癌的新藥
    【新朋友】點擊標題下方「腫瘤評論」快速關注【老朋友】點擊右上角分享或收藏精彩內容女性乳腺是由皮膚、纖維組織、乳腺腺體和脂肪組成的,乳腺癌是發生在乳腺腺上皮組織的惡性腫瘤。乳腺癌中99%發生在女性,男性僅佔1%。全球乳腺癌發病率自20世紀70年代末開始一直呈上升趨勢。美國8名婦女一生中就會有1人患乳腺癌。中國不是乳腺癌的高發國家,但不宜樂觀,近年我國乳腺癌發病率的增長速度卻高出高發國家1~2個百分點。
  • 乾貨分享:據說這是史上最全的大數據分析工具
    設計師網址導航:http://www.userinterface.com.cn/微博指數:http://data.weibo.com/index百度指數:http://index.baidu.com/好搜指數:http://index.so.com/#index搜狗指數:http://zhishu.sogou.com/百度預測
  • 川普「逆襲」成功,大數據預測結果讓人傻了眼!
    其實在這之前有許多機構和個人對此次票選進行了預測。人氣比較高的兩個要數微軟Bing,以及有「數據巫師」之稱的美國統計學家納特·西爾弗(Nate Silver)。而他們的預測結果都是希拉蕊在此次票選中擁有較大勝率。
  • 【日本警視廳】交通安全事故 / 安全帽 數據分析
    警視廳為東京都警察機構,在交通安全推動上不留餘力,在宣導方面,除了嘗試說明外更有詳細的數據分析,強調安全帽的重要性
  • Lab Invest:每日服用阿司匹林或可有效抑制乳腺癌的發展
    2015年4月13日,一項刊登在國際雜誌《Laboratory Investigation》上的研究論文中,來自堪薩斯城退伍軍人醫療中心的研究人員通過研究發現,每日服用一定的劑量的阿司匹林或可有效阻斷乳腺癌的生長
  • 2020年加州65處罰案例分析
    2020年,加州共發生624起關於加州65號提案案例,包含判決案例190起,庭外和解案例434起。涉案罰金總額近2000萬美元,其中判決案例涉案罰金10,626,018美元,庭外和解案例涉案罰金9,251,190美元。涉案產品中非食品類產品案例共550餘起,佔總案例數約88%。
  • Excel數據分析工具:直方圖
    直方圖的意義及作用,在上面的歷史文章中已經介紹過,直方圖是一種特殊的柱形圖,X軸是分組,Y軸是頻數,主要是用來比較數據的分布狀況。Excel數據分析工具中的直方圖模塊,除了可以直接用直方圖對數據做出分析外,還有柏拉圖的內容。柏拉圖在有些地方又稱為帕累託圖(Pareto chart)、排列圖或主次圖,在問題分析和解決過程中經常會被使用, 特別是製造業生產的質量控制。