不用代碼!手把手教你Excel構建數據分析預測模型!

2021-02-13 數據不吹牛

https://juejin.im/post/6845166891640553479

你可以在Excel中執行建模,只需幾個步驟。

下面是一個教程,介紹如何在Excel中構建線性回歸模型以及如何解釋結果

這通常是我提起這個話題時的第一反應。當我演示如何利用Excel的靈活性為我們的數據科學和分析項目構建預測模型時,接下來是一個令人懷疑的眼神。

讓我問你一個問題:如果你周圍的商店開始收集客戶數據,他們是否可以採用基於數據的策略來銷售他們的商品?他們能預測自己的銷售額或估計可能銷售的產品數量嗎?

現在你一定想知道,他們究竟將如何建立一個複雜的統計模型來預測這些事情?學習分析或僱傭分析師可能超出了他們的能力範圍。好消息是,他們不需要。

Microsoft Excel為我們提供了一種構建預測模型的能力,而不必編寫複雜的代碼。

我們可以很容易地在MS Excel中建立一個簡單的線性回歸模型,它可以幫助我們在幾個簡單的步驟中執行分析。我們不需要精通Excel或統計學就可以進行預測建模!

在這篇文章中,我將解釋如何在Excel中建立一個線性回歸模型,以及如何對結果進行分析,以便你成為一名分析師!

線性回歸是我們大多數人學習的第一種機器學習技術。它也是業界最常用的監督學習技術。

但什麼是線性回歸?

它是一種線性方法,用於統計建模因變量(要預測的變量)和自變量(用於預測的因素)之間的關係。

線性回歸給出了這樣一個方程:

Y:因變量

X:自變量

C:係數,基本上是根據重要性分配給特徵的權重

最常用的回歸方法是OLS(普通最小二乘法。它的目標是減少平方和以產生這樣的最佳擬合線:

要在Excel中執行回歸分析,首先需要啟用Excel的分析工具包加載項。Excel中的分析工具包是一個插件程序,為統計和工程分析提供數據分析工具。

要將其添加到工作簿中,請執行以下步驟:

轉到文件->選項:

轉到左側面板上的加載項->管理Excel加載項->轉到:

選擇「分析工具包」並按「確定」:

你已在Excel中成功添加分析工具包!你可以通過轉到功能區中的數據欄進行檢查。

讓我們開始用Excel建立我們的預測模型!

到目前為止,很多東西都是理論上的。現在,讓我們深入了解Excel並進行線性回歸分析!

下面是我們將要處理的問題聲明:

Winden鎮有一家賣鞋的公司。該公司希望通過考慮以下因素來預測每個客戶的銷售情況:客戶收入、離家距離、客戶每周的跑步頻率。

進入數據->數據分析

轉到數據工具包中的「數據分析」,選擇「回歸」,然後按「確定」:

在這一步中,我們將選擇一些分析所需的選項,例如:

其他選項是自由選擇的,你可以根據你的特定目的選擇它們。

按OK,我們最終在Excel中用兩個步驟進行了回歸分析!很簡單!現在我們將在excel中看到回歸分析的結果。

實施線性回歸模型是最簡單的部分。現在是我們分析的棘手方面——在Excel中解釋預測模型的結果

綜上所述,我們有三種產出類型,我們將逐一介紹:

1.回歸統計表

回歸統計表告訴我們最佳擬合線如何定義自變量和因變量之間的線性關係。兩個最重要的度量是R方和調整R方。

R方統計量擬合優度的指標,它告訴我們最佳擬合線解釋了多少方差。R方的範圍從0到1

在我們的例子中,R平方值為0.953,這意味著我們的行能夠解釋95%的方差——這是一個好的跡象。

但是有一個問題-當我們不斷增加更多的變量,我們的R平方值將繼續增加,即使變量可能沒有任何影響。調整R平方解決了這個問題,是一個更可靠的度量。

2.方差分析表

方差分析表將平方和分解為其組成部分,以提供模型內變化的詳細信息。

它包括一個非常重要的指標,顯著性F(或P值),它告訴我們你的模型是否具有統計顯著性。

簡而言之,這意味著我們的結果可能不是由於隨機性,而是因為一個潛在的原因。

p值最常用的閾值是0.05。如果我們得到的值低於這個,就可以了。否則,我們需要選擇另一組自變量。

在我們的例子中,我們的值遠低於0.05的閾值。太棒了,我們現在可以前進了!

3.回歸係數表

係數表以係數的形式分解回歸線的組成部分。從中我們可以了解很多。

對於Winden鞋業公司來說,似乎每增加一個單位的收入,銷售額就增加0.08,而增加一個單位的店面距離就增加508個銷售額!

running frequency的增加似乎使銷售量減少了24,但我們真的能相信這個特徵嗎?

如果你看上面的圖片,你會發現它的p值大於0.5,這意味著它在統計學上不顯著

4.殘差表

殘差表反映了預測值與實際值之間的差異

它由我們的模型預測的值組成:

如前所述,變量running frequency的p值大於0.05,因此讓我們從分析中移除該變量來檢查結果

我們將遵循上述所有步驟,但不包括running frequency列:

我們注意到調整後的R平方的值從0.920略微提高到0.929!

我們已經準備好回歸分析了,現在該怎麼辦?讓我們看看。

你的一位老顧客,名叫亞歷山德,走進來,我們想預測他的銷售額。我們可以簡單地從線性回歸模型的數據中插入數字。

Aleksander有4萬的收入,住在離商店2公裡的地方。估計銷售額是多少?

方程變成:

在這裡,我們的模型估計,亞歷山德先生將支付4218購買他的新鞋!這就是簡單地在Microsoft Excel中進行線性回歸的能力。

在本文中,我們學習了如何在Excel中建立線性回歸模型以及如何解釋結果。我希望這本教程能幫助你成為一個更好的分析師或數據科學家。

相關焦點

  • 手把手教你用seq2seq模型創建數據產品(附代碼)
    本文將教你如何使用Keras和TensorFlow來對Github項目進行文本摘要和特徵提取。目標:訓練一個模型來對Github項目進行總結其中所蘊含的思想是通過多個問題的描述和標題一個模型能夠學習到如何去總結、概括新的問題。如果你並非Github的員工,那麼獲取Github上的數據最好的方法是利用這個出色的開源項目(https://www.githubarchive.org/),它被描述為:「一個記錄、存檔Github公開時間軸並使之可簡易應用於分析的項目。」本文的附錄提供了使用這個項目獲取數據的教程。
  • 手把手教你用PySpark構建機器學習模型
    >區塊鏈 / 資料庫 / 熱點Harun Ur Rashid是一位自學成才的數據科學家,他展示了利用簡潔的代碼一步一步創建了三種算法的機器學習模型的過程,非常適用於機器學習算法愛好者。中興數據智能為您翻譯如下。 數智君 | 翻譯Spark是實現集群計算的引擎,而PySpark是一個使用Spark的Python庫。PySpark是一種適用於執行大規模探索性數據分析、構建機器學習管道、為數據平臺創建ETL的出色語言。如果你對Python以及諸如Pandas這樣的庫很熟悉,那麼PySpark語言可以很好地幫助你創建更多可擴展的分析和管道。
  • 手把手教你如何快速複製Excel表格數據
    在工作過程中,我們有各種不同的表格數據。他們分布在不同的excel表格文件中,處理其中數據是造成很大的不便,降低了工作效率。下面我們來聊聊,如果通過程序快速的將excel表格數據複製到我們指定的表格當中,讓我們的數據處理更加方便快捷。
  • 手把手教你學Python之手寫數字識別
    問題描述:手寫數字識別是指給定一系列的手寫數字圖片以及對應的數字標籤,構建模型進行學習,目標是對於一張新的手寫數字圖片能夠自動識別出對應的數字
  • python金融風控評分卡模型和數據分析
    針對銀行,消費金融的現金貸等線上貸款場景,金融信貸領域建模型和數據分析很難?邏輯回歸評分卡/catboost/xgboost/lightgbm/等模型用python一次全部搞定!由易到難,帶你從菜鳥輕鬆晉級kaggle級建模高手。
  • 四行代碼搞定多元回歸分析,教你預測未來
    如果你確實想要得知這些問題,那麼多元回歸分析正可以幫助到你。多元回歸分析由於分析多種信息之間存在的聯繫而十分有趣。它不只是簡單地分析事物和另外一件事物的關聯——就像簡單線性回歸那樣,而是可以幫助你處理許多不同事物和你想要預測事物之間的關係。線性回歸模型是一種數據模型,經常適用於數據科學,也是機器學習中的一個基礎構建塊。
  • Excel中的預測建模–如何從頭開始創建線性回歸模型
    當我演示如何利用Excel的靈活特性為我們的數據科學和分析項目構建預測模型時,將以一種難以置信的眼神。讓我問一個問題-您周圍的商店是否開始收集客戶數據,他們是否可以採用基於數據的策略來銷售商品?他們可以預測其銷售量或估計可能銷售的產品數量嗎?現在,您一定想知道他們將如何建立一個可以預測這些事情的複雜統計模型?學習分析或僱用分析師可能超出了他們的範圍。
  • 乾貨|手把手教你如何去做一份商業數據分析報告
    之前寫過一篇文章(一招教你如何去做商業數據分析),更多是從宏觀視角教大家如何去做商業數據分析,今天小編將以電信流失數據為例,教你如何具體去做一份數據分析報告。需要完整版代碼及數據的同學,公眾號後臺回覆:「分析報告」。在分析問題之前,我們先看一下數據源都有那些欄位,可以思考一下那些欄位可能用戶的流失有關。
  • 教你用Python解決非平衡數據問題(附代碼)
    本文為你分享數據挖掘中常見的非平衡數據的處理,內容涉及到非平衡數據的解決方案和原理,以及如何使用Python這個強大的工具實現平衡的轉換。可以認為兩種類別的客戶是失衡的,如果直接對這樣的數據建模,可能會導致模型的結果不夠準確。不妨先對該數據構建隨機森林模型,看看是否存在偏倚的現象。原始數據表中的state變量和Area_code變量表示用戶所屬的「州」和地區編碼,直觀上可能不是影響用戶是否流失的重要原因,故將這兩個變量從表中刪除。
  • 基於LSTM的多變量多步預測模型
    ,並完成對未來指定步長時刻數據的預測、分析和可視化,手把手教你去搭建屬於自己的預測分析模型。本文主要分為:LSTM模型簡介、數據探索分析、模型構建測試三個部分。本文今天主要是藉助於LSTM這一深度學習模型來對手中的時序序列數據進行建模分析,構建我們的序列數據預測模型,來對未來多步時刻進行預測分析。二、數據探索分析這裡我們使用到的數據集來源於中央監測站某地公開的大氣常規六因子的監測數據,數據集部分截圖如下所示:
  • 手把手教你從零起步構建自己的圖像搜索模型
    根據我們為許多語義理解項目提供技術指導的經驗,我們編寫了一個教程,讓讀者了解如何構建自己的表徵模型,包括圖像和文本數據,以及如何有效地進行基於相似性的搜索。到本文結束時,讀者自己應該能夠從零起步構建自己的快速語義搜索模型,無論數據集的大小如何。本文配有一個帶有代碼注釋的 notebook,使用了 streamlit 和一個獨立的代碼庫來演示和使用所有相關技術。
  • 【ML系列】手把手教你用Numpy構建神經網絡!(附代碼)
    (深度分享)2、監督學習標籤在股市中的應用(代碼+書籍)3、2018年學習Python最好的5門課程4、全球投行頂尖機器學習團隊全面分析5、使用Tensorflow預測股票市場變動6、被投資圈殘害的清北復交學生們7、使用LSTM預測股票市場基於Tensorflow比如使用
  • 像Excel一樣使用R進行數據分析(3)
    Excel是數據分析中最常用的工具,本篇文章通過R與excel的功能對比介紹如何使用R通過函數式編程完成excel中的數據處理及分析工作。
  • 一行代碼不用寫,就可以訓練模型?
    一行代碼不用寫,就可以訓練、測試和使用模型,還有這樣的好事?用戶無需編寫一行代碼即可使用機器學習模型,只要有 yaml 或 json 文件,來描述你想做什麼即可。其基本思路是在人類可讀的 yaml 或 json 文件中將所有配置進行分組,包括模型定義、數據預處理方法等,然後讓 igel 自動化執行一切操作。用戶在 yaml 或 json 文件中描述自己的需求,之後 igel 使用用戶的配置構建模型,進行訓練,並給出結果和元數據。
  • 【課程】人工智慧+股票投資,手把手教你
    通過深度學習,他們用歷史信息構成的數據集,來訓練算法發現預測模式、規律。比如說,當算法從股票和期貨的價格數據中發現相似點時,就會受到「激勵」。 通過強化學習,算法會在運行過程中,根據某種行為的成敗來重新校準。
  • 通過Python 代碼實現時間序列數據的統計學預測模型
    來源 | DeepHub IMBA封圖 | CSDN 付費下載於視覺中國在本篇中,我們將展示使用 Python 統計學模型進行時間序列數據分析。 目標是:根據兩年以上的每日廣告支出歷史數據,提前預測兩個月的廣告支出金額。
  • 圍觀SVM模型在分類和預測問題上的強悍表現!
    在上一期的《手把手教你如何由淺入深地理解線性SVM模型》中我們分享了線性SVM模型的來龍去脈,得到很多讀者朋友的點讚和支持,本期我們繼續分享SVM
  • 財政收入影響因素分析及預測模型(二)
    專欄中每四篇文章為一個完整的數據挖掘案例。案例介紹順序為:先由數據案例背景提出挖掘目標,再闡述分析方法與過程,最後完成模型構建,在介紹建模過程中同時穿插操作訓練,把相關的知識點嵌入相應的操作過程中。      為方便讀者輕鬆地獲取一個真實的實驗環境,本專欄使用大家熟知的Python語言對樣本數據進行處理以進行挖掘建模。
  • Tensorflow實戰系列:手把手教你使用LSTM進行文本分類(附完整代碼)
    【導讀】專知小組計劃近期推出Tensorflow實戰系列,計劃教大家手把手實戰各項子任務。
  • excel數據分析技巧:預測未來,為圖表添加趨勢線
    對於exceler而言,預測數據走勢,如銷量趨勢預測、股指走勢預測等是日常處理、分析數據工作中的一部分。面對這類問題,我們可以使用Excel圖表中的趨勢線對數據未來走勢進行預測,幫助我們更加直觀地了解數據變化的趨勢。下面我們就和春風一起來學習excel中的趨勢線吧!學習更多技巧,請收藏部落窩教育excel圖文教程。