不用代碼,教你Excel構建數據分析預測模型!

2021-01-10 騰訊網

你可以在Excel中執行建模,只需幾個步驟。

下面是一個教程,介紹如何在Excel中構建線性回歸模型以及如何解釋結果。

Excel真的能構建預測模型?

這通常是我提起這個話題時的第一反應。當我演示如何利用Excel的靈活性為我們的數據科學和分析項目構建預測模型時,接下來是一個令人懷疑的眼神。

讓我問你一個問題:如果你周圍的商店開始收集客戶數據,他們是否可以採用基於數據的策略來銷售他們的商品?他們能預測自己的銷售額或估計可能銷售的產品數量嗎?

現在你一定想知道,他們究竟將如何建立一個複雜的統計模型來預測這些事情?學習分析或僱傭分析師可能超出了他們的能力範圍。好消息是,他們不需要。

Microsoft Excel為我們提供了一種構建預測模型的能力,而不必編寫複雜的代碼。

我們可以很容易地在MS Excel中建立一個簡單的線性回歸模型,它可以幫助我們在幾個簡單的步驟中執行分析。我們不需要精通Excel或統計學就可以進行預測建模!

在這篇文章中,我將解釋如何在Excel中建立一個線性回歸模型,以及如何對結果進行分析,以便你成為一名分析師!

什麼是線性回歸?

線性回歸是我們大多數人學習的第一種機器學習技術。它也是業界最常用的監督學習技術。

但什麼是線性回歸?

它是一種線性方法,用於統計建模因變量(要預測的變量)和自變量(用於預測的因素)之間的關係。

線性回歸給出了這樣一個方程:

Y:因變量

X:自變量

C:係數,基本上是根據重要性分配給特徵的權重

最常用的回歸方法是OLS(普通最小二乘法)。它的目標是減少平方和以產生這樣的最佳擬合線:

Excel加載項獲取分析工具包

要在Excel中執行回歸分析,首先需要啟用Excel的分析工具包加載項。Excel中的分析工具包是一個插件程序,為統計和工程分析提供數據分析工具。

要將其添加到工作簿中,請執行以下步驟:

步驟1:Excel選項

轉到文件->選項:

點擊播放 GIF 0.0M

步驟2:定位分析工具包

轉到左側面板上的加載項->管理Excel加載項->轉到:

點擊播放 GIF 0.0M

第3步:添加分析工具包

選擇「分析工具包」並按「確定」:

點擊播放 GIF 0.0M

你已在Excel中成功添加分析工具包!你可以通過轉到功能區中的數據欄進行檢查。

讓我們開始用Excel建立我們的預測模型!

在Excel中實現線性回歸

到目前為止,很多東西都是理論上的。現在,讓我們深入了解Excel並進行線性回歸分析!

下面是我們將要處理的問題聲明:

Winden鎮有一家賣鞋的公司。該公司希望通過考慮以下因素來預測每個客戶的銷售情況:客戶收入、離家距離、客戶每周的跑步頻率。

步驟1:選擇回歸

進入數據->數據分析

轉到數據工具包中的「數據分析」,選擇「回歸」,然後按「確定」:

點擊播放 GIF 0.0M

步驟2:選擇

在這一步中,我們將選擇一些分析所需的選項,例如:

1.輸入y範圍–獨立因子的範圍

2.輸入x範圍-相關因素的範圍

3.輸出範圍–要顯示結果的單元格範圍

點擊播放 GIF 0.0M

其他選項是自由選擇的,你可以根據你的特定目的選擇它們。

按OK,我們最終在Excel中用兩個步驟進行了回歸分析!很簡單!現在我們將在excel中看到回歸分析的結果。

用Excel分析預測模型的結果

實施線性回歸模型是最簡單的部分。現在是我們分析的棘手方面——在Excel中解釋預測模型的結果。

綜上所述,我們有三種產出類型,我們將逐一介紹:

回歸統計表

方差分析表

回歸係數表

殘差表

1.回歸統計表

回歸統計表告訴我們最佳擬合線如何定義自變量和因變量之間的線性關係。兩個最重要的度量是R方和調整R方。

R方統計量是擬合優度的指標,它告訴我們最佳擬合線解釋了多少方差。R方的範圍從0到1。

在我們的例子中,R平方值為0.953,這意味著我們的行能夠解釋95%的方差——這是一個好的跡象。

但是有一個問題-當我們不斷增加更多的變量,我們的R平方值將繼續增加,即使變量可能沒有任何影響。調整R平方解決了這個問題,是一個更可靠的度量。

2.方差分析表

方差分析表將平方和分解為其組成部分,以提供模型內變化的詳細信息。

它包括一個非常重要的指標,顯著性F(或P值),它告訴我們你的模型是否具有統計顯著性。

簡而言之,這意味著我們的結果可能不是由於隨機性,而是因為一個潛在的原因。

p值最常用的閾值是0.05。如果我們得到的值低於這個,就可以了。否則,我們需要選擇另一組自變量。

在我們的例子中,我們的值遠低於0.05的閾值。太棒了,我們現在可以前進了!

3.回歸係數表

係數表以係數的形式分解回歸線的組成部分。從中我們可以了解很多。

對於Winden鞋業公司來說,似乎每增加一個單位的收入,銷售額就增加0.08,而增加一個單位的店面距離就增加508個銷售額!

running frequency的增加似乎使銷售量減少了24,但我們真的能相信這個特徵嗎?

如果你看上面的圖片,你會發現它的p值大於0.5,這意味著它在統計學上不顯著。

4.殘差表

殘差表反映了預測值與實際值之間的差異。

它由我們的模型預測的值組成:

如何改進我們的模型?

如前所述,變量running frequency的p值大於0.05,因此讓我們從分析中移除該變量來檢查結果。

我們將遵循上述所有步驟,但不包括running frequency列:

我們注意到調整後的R平方的值從0.920略微提高到0.929!

用Excel做預測!

我們已經準備好回歸分析了,現在該怎麼辦?讓我們看看。

你的一位老顧客,名叫亞歷山德,走進來,我們想預測他的銷售額。我們可以簡單地從線性回歸模型的數據中插入數字。

Aleksander有4萬的收入,住在離商店2公裡的地方。估計銷售額是多少?

方程變成:

在這裡,我們的模型估計,亞歷山德先生將支付4218購買他的新鞋!這就是簡單地在Microsoft Excel中進行線性回歸的能力。

結尾

在本文中,我們學習了如何在Excel中建立線性回歸模型以及如何解釋結果。我希望這本教程能幫助你成為一個更好的分析師或數據科學家。

了解IT相關內容——各平臺同名「職坐標在線」

相關焦點

  • 四行代碼搞定多元回歸分析,教你預測未來
    多元回歸分析由於分析多種信息之間存在的聯繫而十分有趣。它不只是簡單地分析事物和另外一件事物的關聯——就像簡單線性回歸那樣,而是可以幫助你處理許多不同事物和你想要預測事物之間的關係。線性回歸模型是一種數據模型,經常適用於數據科學,也是機器學習中的一個基礎構建塊。
  • 教你用R畫列線圖(Nomogram),讓預測模型結果可視化!
    還沒來得及閱讀的小夥伴請點擊查看:    同樣是構建多因素回歸模型,往往我們另一個主要目的是為了對結局事件的發生風險進行預測,那麼是否也可以將預測模型的結果,像森林圖那樣可視化地展示出來呢?今天小咖就來帶大家認識一下神奇的列線圖。
  • 大數據分析為什麼要學習R中的線性建模
    對於大數據分析師來說,能夠建立線性模型是絕對必要的,但是數據分析人員甚至業餘愛好者也可以從線性建模的功能中受益匪淺。R中的線性建模,這是大數據分析師中的新課程,它將從頭開始教你此技能。你準備好動手開始建模嗎?
  • 大數據分析使用torchlayers構建PyTorch模型
    torchlayers的目的是做Keras為TensorFlow做的事情,提供更高級別的模型構建API以及一些方便的默認值和附加組件,這些組件和附加組件可用於製作PyTorch神經網絡。通過在線搜索判斷,PyTorch繼續受到廣泛關注,並且更重要的是,它的採用率不斷提高。
  • 手把手:教你如何用深度學習模型預測加密貨幣價格
    如果你真的想了解其中的基礎理論,那麼我推薦你閱讀這三篇文章:《理解LSTM網絡》、《探究LSTM》、原始白皮書。出於私心,我主要是想吸引更多的非專業機器學習愛好者,所以我會儘量減少代碼的篇幅。如果你想自己使用這些數據或者建立自己的模型,本篇文章同樣提供了Jupyter (Python) 筆記供參考。那麼,我們開始吧!
  • 零一數據 [21天小白學成大師]第五天 學會用EXCEL做預測
    原創:有點瘦的胖子零一需要預測的場景太多這裡就不一一贅述了,在師傅的指導下,我對excel的認知水平又提升了一大截,學會了用excel做多元回歸分析。這個預測方法不僅適用絕大部分行業,並且也適用沒有業務基礎的小白操作。附上師父的一句教誨:相信相信的力量。
  • 基於R的生存資料預測模型構建與Nomogram繪製
    本章討論的構建預測模型也是一種「算命」,只是這是一種更為科學的「算命」。作為一個腫瘤科醫生,臨床上可能會遇到這樣的情況,一個55歲男性中晚期食管癌患者問道:醫生,請問我還能活多久?我們首先使用Cox回歸基於構建預測模型並篩選獨立預後因素(用於建模的數據集一般稱為訓練集或者內部數據集)。需要說明的是本例的數據錄入、單因素Cox回歸分析,多因素Cox回歸分析等操作可參考筆者主編的《聰明統計學》[1] 與《瘋狂統計學》[2]。最終我們可得到三個與預後相關的獨立因素:Age, PgR, Pathologic_stage。
  • Excel數據分析包含哪些知識
    相信大家對即將講述的數據分析內容很感興趣,想知道Excel數據分析包含哪些知識?本文就言簡意賅地後面的系列文章會涉及到的一些內容,在這裡進行一下簡單的概括,大致分為八大部分分別如下:第一部分引入數據挖掘的概念。簡要介紹什麼是數據挖掘,介紹Excel強大的數據挖掘功能,excel不支持的功能需要使用「加載宏」。
  • 手把手教你用Keras進行多標籤分類(附代碼)
    當你在嘗試構建你自己的深度學習數據集時,請確保你遵循了上述教程連結——它將幫助你快速啟動構建你自己的數據集。多標籤分類項目結構請直接訪問本文的「下載」處以獲得原始碼及文件。為多標籤分類訓練一個Keras神經網絡請不要忘了使用本文底下的「下載」處來下載代碼、數據集和預先訓練好的模型(以防你不想自己訓練模型)。 如果你想要自己訓練模型,請打開終端。在那裡,打開項目路徑並執行如下命令:
  • 數據建模中分類與預測模型
    因此,本文基於上期數據預處理部分之後,介紹如何在清洗過後的數據基礎之上建立分類與預測模型,為此種模型的構建方法進行簡單介紹,輔助投資者對自身分析邏輯中的分析框架進行量化分析,方便其多元化的交易分析。  一、分類與預測的介紹  數據建模中分類與預測模型主要是尋求合適的分類模型並在此基礎之上進行未來預測。
  • 財務風險預警模型構建實證分析
    這個過程可以通過SPSS統計分析軟體中的因子分析功能,對五個指標進行檢驗,其檢驗結果表明,這五個指標的相關係數都是小於0.5的。因此,可以選擇這五個指標來構建模型。   三、財務風險預警模型的構建  本文將採用基於極值原理的Fisher判別法。其基本思想是:把多維問題化為一維問題,並應用線性判別函數解決判別問題。
  • 什麼是數據分析的漏鬥模型?
    漏鬥模型,不僅僅是一個模型,更是一種可以普遍適用的方法論,或者說是一種思維方式。本文主要談談漏鬥模型的本質、漏鬥模型案例分析以及如何繪製漏鬥模型。漏鬥模型關於漏鬥模型,我認為本質是分解和量化。為什麼這麼說,這裡以營銷漏鬥模型舉慄。
  • Excel裡的這個工具,做財務分析一定要學會
    有過編制預算經驗的朋友,應該會很熟悉,在預測技術裡,回歸分析應用非常廣泛,是用來進行定量數據分析的方法。線性回歸分析是一種統計方法,用於確定某個變量(或一組變量)對另一個變量的影響。
  • 如何使用PySpark來利用機器學習模型對流數據進行預測?
    因為社交媒體平臺以評論和狀態更新的形式接收龐大的流數據。該項目將幫助我們審核公開發布的內容。設置項目工作流程1. 模型構建:構建邏輯回歸模型管道,對推文中是否包含仇恨言論進行分類。在這裡,我們的重點不是建立一個完全準確的分類模型,而是了解如何在流數據上使用任意模型並返回結果2.
  • 教你學Python32-預測數值型數據:數據回歸
    通過調用NumPy庫裡的矩陣方法,我們可以僅使用幾行代碼就完成所需功能。該方法也稱作OLS, 意思是「普通小二乘法」(ordinary least squares)。數據格式為:數據下載地址:數據集下載第一列都為1.0,即x0。第二列為x1,即x軸數據。第三列為x2,即y軸數據。首先繪製下數據,看下數據分布。
  • 快速介紹Python數據分析庫pandas的基礎知識和代碼示例
    為了能夠快速查找和使用功能,使我們在進行機器學習模型時能夠達到一定流程化。我創建了這個pandas函數的備忘單。這不是一個全面的列表,但包含了我在構建機器學習模型中最常用的函數。讓我們開始吧!本附註的結構:導入數據導出數據創建測試對象查看/檢查數據選擇查詢數據清理篩選、排序和分組統計數據首先,我們需要導入pandas開始:import pandas as pd導入數據使用函數pd.read_csv直接將CSV轉換為數據格式。注意:還有另一個類似的函數pd。read_excel用於excel文件。
  • 你為何而轉:微博用戶轉發行為預測模型的構建與影響因素探究
    本研究旨在構建模型對轉發行為進行預測,並分析其影響因素。首先根據「5W模型」,提取微博作者、微博文本、微博接受者和相互關係四個一級維度特徵,並細分為39個二級維度特徵,利用支持向量機構建預測模型,再通過新浪微博數據,對模型進行評估。預測模型的查全率為58.67%,精確率為82.19%,F1值為68.46%,這表明預測模型的表現令人滿意。
  • 數據分析能力的核心是思維
    數據分析的方法崇拜在和團隊小夥伴分享的的時候,發現一個問題:我問,你怎麼看數據分析能力?如何評價自己的數據分析能力?大家的回答主要是這樣的:運營是基於數據驅動的,但是拿著很多數據,不能分析下去,主要是對於excel的一些陌生的公式、函數都不太會,我要專門去學一下excel我感覺導致現在轉化率低低原因是xxx,最近接觸到很多用戶都是這麼反饋的,但還沒有找到好的分析方法產品的數據分析能力還是很重要,我想去學個R,能夠去構建量化模型……
  • 手把手教你用數據分析看美國大選
    數據分析到底是什麼?該怎麼做?數據思維又是什麼?數據分析怎麼應用到日常工作生活? 為了更好的理解數據分析的這些問題,我們來結合美國大選這個具體例子,帶著大家做一場「探索性數據分析」。
  • 數據分析學習:手把手教你用直方圖、餅圖和條形圖做數據分析...
    各組必須將所有的數據包含在內。  各組的組寬最好相等。下面結合具體實例來運用分布分析對定量數據進行特徵分析。表3-2是菜品「撈起生魚片」在2014年第二個季度的銷售數據,繪製銷售量的頻率分布表、頻率分布圖,對該定量數據做出相應的分析。▲表3-2 「撈起生魚片」的銷售情況1.