機器學習基本概念-維度災難和線性回歸

2020-12-22 圖像那些式兒

上一節機器學習中的基本概念

1.4.3 維度災難

圖1.17 (a)均值為0、方差為1的高斯pdf,圖由gaussPlotDemo生成。(b)條件密度模型p(y | x,θ) = N(y | w+ wxσ)的可視化。當我們離開回歸線時,密度以指數速度下降。圖由linregWedgeDemo2生成。

KNN分類器結構簡單,只要有良好的距離度量和足夠的標記訓練數據,就可以很好地工作,然而,KNN分類器的主要問題是它們不能很好地處理高維輸入。

為了解釋維度災難,我們給出了一些來自(Hastie et al. 2009, p22)的例子。考慮將KNN分類器應用於輸入為均勻分布d維單位立方體中的數據。我們通過在x周圍生長一個超立方體來估計測試點x周圍類標籤的密度,直到它包含所需的數據點的期望值達到f。此立方體的期望邊長

如果D = 10,那麼估計基於10%的數據。

我們有e(0.1) = (0.1)' = 0.8,所以我們需要在x周圍的每個維度上擴展立方體的80%,即使我們只使用1%的數據,我們會發現e(0.01) = 0.63。如圖1.16所示。由於數據在每個維度上的範圍僅為1而我們卻需要用掉0.63,因此我們可以看到該方法不再是非常局部的。查看如此遙遠的鄰居的問題是,它們可能不能很好地預測給定點上輸入-輸出函數的行為。

1.4.4 分類和回歸的參數模型

克服維度災難的主要方法是對數據分布的性質(p(y|x)或p(x))做一些假設。這些假設被稱為歸納偏差,通常以參數模型的形式體現出來,參數模型是具有固定數量參數的統計模型。下面我們簡要描述兩個廣泛使用的例子;我們將在本書後面更深入地討論這些模型和其他模型。

1.4.5 線性回歸

圖1.18 對21個數據點進行最小二乘法擬合生成14次多項式和20次多項式。圖由linregPolyVsDegree生成

線性回歸是使用最廣泛的回歸模型之一。其響應輸出是輸入的線性函數。記為:

其中wTx表示輸入向量x與模型的權向量w之間的內積,ε是線性預測和真實響應之間的殘差。我們經常假設ε服從高斯分布或正態分布,即ε~N(μ,σ)。其中μ是均值和σ2是方差,當我們繪製這個分布時,我們得到眾所周知的鐘形曲線,如圖1.17(a)所示。

為了更清楚地說明線性回歸和高斯函數之間的關係,可以將模型改寫為以下形式:

這說明模型是一個條件概率密度函數。在最簡單的情況下,假設μx的線性函數,因此μ= wT x,假設噪聲也是固定的則有σ(x) =σ。在這種情況下,模型是θ = (w,σ)的參數模型。

例如,假設輸入是一維的。我們可以將預期的響應表示如下:

w截距w斜率,我們已經定義了向量x= (1, х)(在對輸入向量首部插入常數1項作為截距項是一種常見的符號技術)。如果w是正的,這意味著我們期望輸出隨著輸入的增加而增加。在圖1.17(b)的1d中得到了說明;圖1.7(a)顯示了更常規的平均響應與x的關係圖。

線性回歸可以對非線性關係建模做法是把輸入x替換成x的非線性函數φ(x)

它被稱為基函數展開式。例如,圖1.18說明了φ(x) = [1, x, x,…xd],d = 14,和d = 20的情況;這就是所謂的多項式回歸。我們將在本書後面討論其他類型的基函數。事實上,許多流行的機器學習方法,如支持向量機、神經網絡、分類和回歸樹等,可以被看作是從數據中估計基函數的不同方法,正如我們在第14章和第16章中討論的那樣。

下一節

相關焦點

  • 深度學習和機器學習的線性代數入門
    在模型構建過程中,我們經常設計各種概念,例如維數災難、正則化、二進位、多分類、有序回歸等。神經元是深度學習的基本單位,該結構完全基於數學概念,即輸入和權重的乘積和。至於Sigmoid,ReLU等等激活函數也依賴於數學原理。
  • ...科學與技術系朱軍教授:機器學習裡的貝葉斯基本理論、模型和算法
    本文乃三大內容中的第一部分:貝葉斯基本理論、模型和算法。我今天想和大家分享的是,在深度學習或者大數據環境下我們怎麼去看待相對來說比較傳統的一類方法,貝葉斯方法。它是在機器學習和人工智慧裡比較經典的方法。
  • 【乾貨】機器學習中的五種回歸模型及其優缺點
    回歸是用於建模和分析變量之間關係的一種技術,常用來處理預測問題。博文介紹了常見的五種回歸算法和各自的特點,其中不僅包括常見的線性回歸和多項式回歸,而且還介紹了能用於高維度和多重共線性的情況的Ridge回歸、Lasso回歸、ElasticNet回歸,了解它們各自的優缺點能幫助我們在實際應用中選擇合適的方法。
  • 線性調節器和開關模式電源的基本概念
    電源轉換器從給定輸入電源為負載生成輸出電壓和電流。它需要在穩態和瞬態條件下滿足負載電壓或電流調節要求。還必須在組件出現故障時保護負載和系統。根據具體應用,設計人員可選擇線性穩壓器(LR)或開關模式電源(SMPS)解決方案。為了更好地選擇解決方案,設計人員必須熟悉各種方法的優點、缺點和設計考慮因素。本文重點關注非隔離電源應用,並介紹其操作和設計基礎知識。
  • 五分鐘了解機器學習十大算法
    今天,我們將簡要介紹 10 種最流行的機器學習算法,這樣你就可以適應這個激動人心的機器學習世界了!讓我們言歸正傳!1. 線性回歸線性回歸(Linear Regression)可能是最流行的機器學習算法。線性回歸就是要找一條直線,並且讓這條直線儘可能地擬合散點圖中的數據點。
  • 機器學習之多元線性回歸模型梯度下降公式與代碼實現(篇二)
    上一篇我們介紹了線性回歸的概述和最小二乘的介紹,對簡單的一元線性方程模型手推了公式和python代碼的實現。機器學習之線性回歸模型詳細手推公式與代碼實現(篇一)今天這一篇來介紹多元線性回歸模型多元線性回歸模型介紹在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸
  • 95後哈佛小哥撰寫從零開始的機器學習入門必備,書籍資源已開放
    撰寫目的是為讀者提供獨立構建一些基本的機器學習算法的實踐指導,如果用工具箱類比的話,就是教會讀者具體使用一把螺絲刀、一盒捲尺。書中的每一章都對應一種機器學習方法。作者 Danny Friedman 介紹說,學習一種方法的最佳方式就是從零開始(無論是從理論上還是代碼上),因此本書的宗旨也是提供這些推導過程。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • 原理+代碼|Python實戰多元線性回歸模型
    文章來源: 早起Python作者:蘿蔔前言「多元線性回歸模型」非常常見,是大多數人入門機器學習的第一個案例,儘管如此,裡面還是有許多值得學習和注意的地方。其中多元共線性這個問題將貫穿所有的機器學習模型,所以本文會「將原理知識穿插於代碼段中」,爭取以不一樣的視角來敘述和講解「如何更好的構建和優化多元線性回歸模型」。
  • 機器學習中算法與模型的區別
    比如,我們有分類的算法,如 K- 近鄰算法;回歸的算法,如線性回歸;聚類的算法,如 K- 均值算法。下面是機器學習算法的例子:  線性回歸  邏輯回歸  決策樹  人工神經網絡  K- 最近鄰  K- 均值你可以把機器學習算法想像成計算機科學中的任何其他算法。
  • 機器學習預測房價?靠譜嗎?
    機器學習種類機器學習大致分為兩大類:監督學習和無監督學習。監督學習是用示例教學機器的方法。這些機器接受了大量數據的訓練,從而學會識別圖案,並可以根據訓練數據來識別和區分數據。建立和使用模型的步驟是:· 定義:模型類型是什麼?是線性回歸還是其他類型?· 擬合:從現有數據中獲取模式(建模的核心)。· 預測:預測目標· 評估:確定模型預測的準確度。
  • 回歸系列(一)|怎樣正確地理解線性回歸
    作者:丁點helper 來源:丁點幫你線性回歸,可能是統計學上運用最廣泛的一類方法了,之所以說它是一類方法,是因為它包括了我們熟知的各種模型:簡單線性回歸、多重線性回歸、Logistic回歸等等。確實如此,線性回歸,尤其是一般線性模型(一個Y,多個X)使用起來沒什麼障礙,但大家是否完全理解清楚了所有應該掌握的內容(非數學計算)可能有待思考,這個系列的文章我們以「線性回歸」為主題,希望能讓大家對這個問題的認識能再全面一丁點。
  • 想了解機器學習?你需要知道的十個基礎算法
    由於大數據是目前科技行業最熱門的趨勢,基於大量的數據機器學習在提前預測和做出建議方面有巨大的潛力。一些有關機器學習常見的例子有:Netflix基於你以前看過的電影再給你做出影片的推薦,或者亞馬遜根據你以前買過的書籍再給你進行圖書推薦。如果想了解更多有關機器學習的知識,要從哪裡開始呢?作者第一次入門是在哥本哈根海外交流時選了一門有關人工智慧的課程。
  • spss線性回歸 回歸方程 - CSDN
    ,用到的分析方法就是線性回歸,決定猛學習一下,再來評判視頻裡的結論。>線性回歸,首先應用於定距變量之間,本質上是分析一個因變量和一組自變量之間的相關關係,既可以解釋,也可以做預測。就是一個用線性回歸解釋相關性的問題。
  • 萬字乾貨 | 一文助你了解機器學習
    本文共分為四個部分:第一部分、介紹關於AI的常見誤區,回答機器學習是什麼,可以用來做什麼,怎麼用;第二分部、介紹機器學習為業務賦能的6個步驟,及非專家用戶的應用難點和解決方案;第三部分、通過案例介紹二分類,聚類和回歸模型如何應用;第四部分、介紹機器學習模型的主要應用場景和立項模板。一、關於AI的幾個誤區1. 只有那些科技公司才能應用AI技術?
  • 涵蓋邏輯回歸、貝葉斯等算法,一本關於ML在線免費書籍,值得一讀
    提到機器學習領域的書籍資源,大家比較熟悉的有周志華老師的《機器學習》(西瓜書)、李宏毅老師的「寶可夢課程」等等。此外不同學習階段的學生也能夠找到適合自身的機器學習基礎和進階書籍資源。周志華西瓜書。近日,本科畢業於哈佛大學統計學與經濟學專業、現任哈佛助教的 Daniel Friedman 開放了他撰寫的一本免費在線書籍《Machine Learning from Scratch》,該書從理論和數學上介紹了 ML 最常見算法(OLS、邏輯回歸、樸素貝葉斯、決策樹、boosts 和神經網絡等)的完整推論。
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。對需求預測而言,多元線性回歸更具有實用性和有效性。多元線性回歸分析是一種應用範圍很廣的定量預測方法,是使用最多的需求預測方法之一,也是商業領域應用最廣泛的建模技術之一。多元線性回歸分析幾乎可運用於任何商業環境中,當然,包括需求預測。本章主要內容如下。
  • 手把手:用Python搭建機器學習模型預測黃金價格
    新年第一天,讓我們嘗試用python搭建一個機器學習線性回歸模型,預測金價!自古以來,黃金一直作為貨幣而存在,就是在今天,黃金也具有非常高的儲藏價值,那麼有沒有可能預測出黃金價格的變化趨勢呢?答案是肯定的,讓我們使用機器學習中的回歸算法來預測世界上貴重金屬之一,黃金的價格吧。
  • AI學習筆記:人工智慧與機器學習概述 - 計算機java編程
    一、人工智慧基本概念1.1 基本概念數據分析:對歷史規律的展現、對未來數據的預測。監督學習算法又可以分為分類算法和回歸算法分類算法:看label的類型。如果label離散型變量,二分類/多分類。 比如線性回歸算法回歸算法:連續性變量,比如預測股票價格、交通流量等。
  • 機器學習:降維技術完整指南
    在統計學、機器學習和資訊理論中,降維是將n維降為k維的過程,其中k<n。我們可能需要幾天或幾個月的時間來進行有意義的分析,這些分析需要大量的時間、金錢和人力。訓練一個高維的數據會給我們帶來如下問題:存儲數據所需的空間隨著維度的增加而增加。維度越小,訓練機器學習模型所需的時間就越少。