在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。以從淺入深,層層遞進的形式在投必得醫學公眾號更新。
從第三十一講開始,我們將正式進入機器學習的學習。很多人可能聽到「機器學習」,就覺得這是多麼高大上的東西。其實不然,我們比較熟悉的回歸分析,以及之前的Cox比例風險模型,都算是機器學習的範疇。只是,機器學習的範疇遠大於回歸分析。我們在生物統計學中常用的多元線性回歸分析和多元邏輯回歸分析都只是機器學習的一小部分內容。
我們將從機器學習和多元回歸的基本概念開始給大家一一講解,讓大家明白,「高大上」的機器學習,其實我們生物統計經常使用。
機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與推斷統計學聯繫尤為密切,也被稱為統計學習理論。
在生物統計學中,例如我們常見到的預測模型,某個或某幾個生物指標診斷或預測疾病發生或愈後等,都是運用了機器學習的理論知識。
機器學習通常被分為兩大類:
有監督機器學習:
它是指通過建立數學模型以預測未來結果。具體說來,它是指從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求是包括輸入和輸出,也可以說是特徵和目標。訓練集中的目標是由人為標註的。而在應用這個函數模型時,我們只需要輸入特徵,函數便能給我們算出目標,即預測結果。常見的監督學習算法包括回歸分析和統計分類。
回歸分析可以用於預測連續變量結果。例如,根據收入值預測預期壽命。
也可以用於預測個體的類(或組)。例如,根據患者血漿中的葡萄糖濃度來預測糖尿病陽性的可能性。
機器從已知的觀察結果中學習,以便預測未來病例的結果。
無監督機器學習:
無監督學習與監督學習相比,訓練集沒有人為標註的結果。常見的無監督學習算法有
聚類分析和主成分分析。聚類的目的是識別感興趣數據集中的相似對象組或模式。主成分分析則是對數據的匯總,它是一種降維的方法,它將多個變量通過一定的方法投影到若干個主成分上,從而使得每一個主成分可以最大限度解釋這些變量,並且各個主成分間相互獨立。
這些方法是「無監督的」,它不受先驗思想的引導 。
監督學習和非監督學習的差別就是訓練集目標是否人標註。
此外,機器學習還有其他類別:
半監督學習:介於監督學習與無監督學習之間。
增強機器學習:為了達成目標,隨著環境的變動,而逐步調整其行為,並評估每一個行動之後所到的回饋是正向的或負向的。
算法
類別
線性回歸
監督學習
邏輯回歸
監督學習
線性判別分析
監督學習
決策樹
監督學習
樸素貝葉斯
監督學習
K鄰近
監督學習
學習向量量化
監督學習
支持向量機
監督學習
隨機森林
監督學習
AdaBoost
監督學習
高斯混合模型
非監督學習
限制波爾茲曼機
非監督學習
K-means 聚類
非監督學習
最大期望算法
非監督學習
我們將在之後的介紹中,主要給大家介紹生物統計學中最常用到的:回歸分析、聚類分析和主成分分析。
參考內容:
1. Alboukadel Kassambara, Machine Learning Essentials: Practical Guide in R
2. https://en.wikipedia.org/wiki/Machine_learning
好了,本期講解就先到這裡。小夥伴們趕緊試起來吧。
在之後的更新中,我們會進一步為您介紹R的入門,以及常用生物統計方法和R實現。歡迎關注,投必得醫學手把手帶您走入R和生物統計的世界。
提前預告一下,下一講我們繼續講解機器學習——回歸分析概述。
當然啦,R語言的掌握是在長期訓練中慢慢積累的。一個人學習太累,不妨加入「R與統計交流群」,和數百位碩博一起學習。
快掃二維碼撩客服,
帶你進入投必得醫學交流群,
讓我們共同進步!
↓↓
- END -
長按二維碼關注「投必得醫學」,更多科研乾貨在等你!