第三十一講 R-機器學習與回歸概述

2021-02-07 投必得醫學

在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。以從淺入深,層層遞進的形式在投必得醫學公眾號更新。

從第三十一講開始,我們將正式進入機器學習的學習。很多人可能聽到「機器學習」,就覺得這是多麼高大上的東西。其實不然,我們比較熟悉的回歸分析,以及之前的Cox比例風險模型,都算是機器學習的範疇。只是,機器學習的範疇遠大於回歸分析。我們在生物統計學中常用的多元線性回歸分析和多元邏輯回歸分析都只是機器學習的一小部分內容。

我們將從機器學習和多元回歸的基本概念開始給大家一一講解,讓大家明白,「高大上」的機器學習,其實我們生物統計經常使用。


機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與推斷統計學聯繫尤為密切,也被稱為統計學習理論。

在生物統計學中,例如我們常見到的預測模型,某個或某幾個生物指標診斷或預測疾病發生或愈後等,都是運用了機器學習的理論知識。


機器學習通常被分為兩大類:


有監督機器學習:

它是指通過建立數學模型以預測未來結果。具體說來,它是指從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求是包括輸入和輸出,也可以說是特徵和目標。訓練集中的目標是由人為標註的。而在應用這個函數模型時,我們只需要輸入特徵,函數便能給我們算出目標,即預測結果。常見的監督學習算法包括回歸分析和統計分類。

回歸分析可以用於預測連續變量結果。例如,根據收入值預測預期壽命。

也可以用於預測個體的類(或組)。例如,根據患者血漿中的葡萄糖濃度來預測糖尿病陽性的可能性。

機器從已知的觀察結果中學習,以便預測未來病例的結果。



無監督機器學習:

無監督學習與監督學習相比,訓練集沒有人為標註的結果。常見的無監督學習算法有

聚類分析和主成分分析。聚類的目的是識別感興趣數據集中的相似對象組或模式。主成分分析則是對數據的匯總,它是一種降維的方法,它將多個變量通過一定的方法投影到若干個主成分上,從而使得每一個主成分可以最大限度解釋這些變量,並且各個主成分間相互獨立。

這些方法是「無監督的」,它不受先驗思想的引導 。

監督學習和非監督學習的差別就是訓練集目標是否人標註。

此外,機器學習還有其他類別:

半監督學習:介於監督學習與無監督學習之間。

增強機器學習:為了達成目標,隨著環境的變動,而逐步調整其行為,並評估每一個行動之後所到的回饋是正向的或負向的。



算法

類別

線性回歸

監督學習

邏輯回歸

監督學習

線性判別分析

監督學習

決策樹

監督學習

樸素貝葉斯

監督學習

K鄰近

監督學習

學習向量量化

監督學習

支持向量機

監督學習

隨機森林

監督學習

AdaBoost

監督學習

高斯混合模型

非監督學習

限制波爾茲曼機

非監督學習

K-means 聚類

非監督學習

最大期望算法

非監督學習


我們將在之後的介紹中,主要給大家介紹生物統計學中最常用到的:回歸分析、聚類分析和主成分分析。


參考內容:

1. Alboukadel Kassambara, Machine Learning Essentials: Practical Guide in R

2. https://en.wikipedia.org/wiki/Machine_learning


好了,本期講解就先到這裡。小夥伴們趕緊試起來吧。

在之後的更新中,我們會進一步為您介紹R的入門,以及常用生物統計方法和R實現。歡迎關注,投必得醫學手把手帶您走入R和生物統計的世界。

提前預告一下,下一講我們繼續講解機器學習——回歸分析概述。

當然啦,R語言的掌握是在長期訓練中慢慢積累的。一個人學習太累,不妨加入「R與統計交流群」,和數百位碩博一起學習。


快掃二維碼撩客服,

帶你進入投必得醫學交流群,

讓我們共同進步!

↓↓


- END -


長按二維碼關注「投必得醫學」,更多科研乾貨在等你!

相關焦點

  • R與生物專題 | 第三十二講 R-回歸分析概述
    回歸分析回歸分析(或回歸模型)是機器學習中監督性學習的方法之一,它是由一個或多個預測變量/自變量(x)的值預測連續性數據類型的結果變量/因變量(y)。線性回歸線性回歸(linear-regression)是預測連續變量的最簡單,最流行的技術。它的前提假設是:結果與預測變量之間存在線性關係。
  • R與生物專題 | 第三十五講 R-多元線性回歸
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
  • 《機器學習及R應用》詳細目錄
    機器學習及R應用五天現場班陳強老師(親授)2021/1/20 - 1/24,北京
  • 蝸殼機器學習指南:邏輯斯特回歸(附代碼)
    在蝸殼機器學習指南的綜述篇,我們已經簡要介紹過邏輯斯特回歸了。
  • R與生物專題 | 第五十四講 R-樣本量及實驗效能計算
    t檢驗(兩個n不相等的樣本)7.1 對t檢驗(兩組樣本相等)進行效能計算的函數pwr.t2n.test,其他同pwr.2p.test()7.7 對平衡型方差分析進行樣本量/效能計算的函數pwr.anova.test
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    機器之心整理參與:機器之心編輯部機器學習日益廣為人知,越來越多的計算機科學家和工程師投身其中。不幸的是,理論、算法、應用、論文、書籍、視頻等信息如此之多,很容易讓初學者迷失其中,不清楚如何才能提升技能。本文作者依據自身經驗給出了一套快速上手的可行方法及學習資源的分類匯總,機器之心在其基礎上做了增益,希望對讀者有所幫助。
  • 【乾貨】最新深度學習課程,多倫多大學「神經網絡與機器學習導論(2018年Spring)(附課件下載)
    http://www.cs.toronto.edu/~rgrosse/概述機器學習是一套強大的技術,它允許計算機從數據中學習,而不是讓人類專家手工編程行為。神經網絡是一類最初受大腦啟發的機器學習算法,但最近在實際應用中取得了很多成功。
  • 從淺層模型到深度模型:概覽機器學習優化算法
    該論文從淺層模型到深度模型縱覽監督學習中常用的優化算法,並指出了每一種優化算法的優點及局限性,同時其還包括了一階和二階等各種算法的形式化表達。機器之心主要對本論文選擇性地編譯了優化算法的部分,更詳細的推導及介紹請查看原論文。
  • R與生物專題 | 第四十八講 R-逐步回歸
    在我們學習了線性回歸和邏輯回歸等回歸模型對連續型變量或分類變量進行預測模型建模(可點擊上面「R與生物統計專題」進一步查找詳情)。那麼,假如我們有很多個預測變量,想要一一確定這些預測變量是否真對結果變量起到了預測功能,我們有沒有辦法讓這個「刪除」變量的步驟可以自動實現呢?於是我們引入了逐步回歸。
  • 【重溫經典】吳恩達機器學習課程學習筆記七:Logistic回歸
    【重溫經典】吳恩達機器學習課程學習筆記一:監督學習【重溫經典】吳恩達機器學習課程學習筆記二:無監督學習(unsupervised learning)【重溫經典】吳恩達機器學習課程學習筆記三:監督學習模型以及代價函數的介紹【重溫經典】吳恩達機器學習課程學習筆記四:梯度下降【重溫經典】吳恩達機器學習課程學習筆記五:多元梯度下降
  • 只需十四步:從零開始掌握Python機器學習(附資源)
    一個有效地方法是當你覺得合適時,直接去看下面特定的練習題,參考上述備註和視頻恰當的部分,第三步:科學計算 Python 軟體包概述好了,我們已經掌握了 Python 編程並對機器學習有了一定的了解。而在 Python 之外,還有一些常用於執行實際機器學習的開源軟體庫。
  • 「學術報告」南開大學郭憲:強化學習基本理論概述
    >此次報告主要是從更宏觀的角度講一講強化學習到底是怎麼回事。其次,需要了解強化學習與其他機器學習的區別和聯繫。現在大部分人都說機器學習很火,深度學習當中最火的是監督學習,那麼強化學習和監督學習之間有什麼聯繫和區別呢?這個topic也非常關鍵,因為很多人都有監督學習的基礎。
  • R與生物專題 | 第四十四講 R-非線性回歸
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
  • 【機器學習基礎】(二):理解線性回歸與梯度下降並做簡單預測
    步長是算法自己學習不出來的,它必須由外界指定。這種算法不能學習,需要人為設定的參數,就叫做超參數。線性回歸最終我們找到了線性模型來解釋自變量x與因變量y之間的關係,這就是線性回歸。回歸的解釋是,事物總是傾向於朝著某種「平均」發展,這種趨勢叫做回歸,所以回歸多用於預測。
  • 邏輯回歸算法學習與思考
    from http://blog.csdn.net/dongtingzhizi本文是作者對於邏輯回歸算法的學習和思考,主要介紹:邏輯回歸的算法介紹、邏輯回歸的數學原理、邏輯回歸的實際應用、邏輯回歸的總結以及網絡安全場景預測,歡迎大家參考討論。
  • 回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...
    選自EliteDataScience機器之心編譯參與:蔣思源、晏奇在本教程中,作者對現代機器學習算法進行一次簡要的實戰梳理。雖然類似的總結有很多,但是它們都沒有真正解釋清楚每個算法在實踐中的好壞,而這正是本篇梳理希望完成的。因此本文力圖基於實踐中的經驗,討論每個算法的優缺點。而機器之心也在文末給出了這些算法的具體實現細節。
  • 「人工智慧核心之機器學習(3)」——實現Linear Regression
    同樣的在機器學習中,一個重要而且很常見的問題就是學習特徵變量(自變量)與響應變量(因變量)之間的函數關係,進而對新出現的變量進行結果預測。這種尋找連續變量與目標結果間關係的方式稱之為回歸,與上節分享的KNN實現的離散變量的分類,均屬於機器學習有監督算法的核心功能,是實現預測的重要方式。
  • R&S[19] | 學習排序入門級概述
    在上述兩個例子下,我們都要尋求合適的方法來完成這個排序,那麼學習排序其實給了我們很大的空間。現在給出一個比較可靠的學習排序定義:Methods that use machine learning technologies to solve the problem of ranking.
  • 《機器學習-原理、算法與應用》出版了
    SIGAI微信公眾號自去年4月份發布第一篇文章「機器學習-波瀾壯闊40年」起,到今天為止,已經累計發布文章164篇,在各個平臺的閱讀次數超過超過300萬次,深受人工智慧學習者和從業者的喜愛,其中不乏大量的精品文章。此公眾號創立之初的目的是為了幫助大家學習和掌握人工智慧技術,用於學術研究和產品研發,傳播人工智慧技術。