Python數據分析|線性回歸

2020-12-14 Glennnnnn

Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。

壹 數據導入

Python下載及環境配置這裡就不贅述了哈,網上教程非常多,我們直接一開始就進入乾貨,打它一個開門見山。

①導入Python常用數據分析庫:常用的numpy、pandas、matplotlib先導入。

②將待處理的數據讀取:read_excel進行Excel文件讀取,用sheet_name指定導入的sheet。

③數據初視:用head函數將讀取的數據表格展示前幾行用於初步觀察,可以看到初步的數據形式、欄位。

貳數據預處理

初步觀察發現有一些列的數據是空的,它們對於數據分析沒有意義,考慮去掉。並且後續進行一定的數據預處理。

①去掉無效列:運用drop函數去掉無效的數據列,並再次調用head函數觀察數據。

②看上圖效果,數據已經規整一些了,接下來需要看看整體的數據表還有多大:調用shape並用print函數列印出來,可以看到數據表格是227行、12列的大小。

③接下來需要進行數據缺失值處理:調用info函數,查看各列的數據,可以看到各列的數據還是有不一致的情況,需要做進一步的處理。

④先以我們後續需要用來做線性回歸的列「內容閱讀量」為標準,將不含該值的數據行去除:調用dropna函數,並執行info函數看數據情況。

⑤上述處理後,數據已經規整了一些,但某些行的數值仍然是缺失的,此時不能再整行或整列的進行刪除了,須對個別缺失值執行填充:發現「月留」和「當月高活人數」這兩列仍有缺失值,採取均值填充的方法處理,主要用到fillna函數。

至此,數據預處理流程完成。數據預處理非常關鍵,非常影響後續的數據分析流程。

叄線性回歸

數據預處理流程完成後,後續將進行線性回歸,進行業務相關數據的擬合和預測。

①導入線性回歸分析庫:建立線性回歸的自變量x和因變量y,這裡我們以「內容閱讀量」這一列數據作為x,以「業務DAU(人)」這一列作為y。

②建立線性回歸方程,並計算出回歸係數:調用linear_model庫,計算回歸係數為0.1683。

③繪製擬合圖:調用matplotlib庫裡的scatter方法繪製y和x的散點圖,並將線性回歸擬合的直線也同步繪製上去。

④數據預測:調用linear_model庫裡的predict方法,可以預測出因變量後續的值。便於大家後續對結果進行預估。

至此,利用Python進行線性回歸的實例完成。歡迎關注微信公眾號Glen。

相關焦點

  • python數據分析--回歸函數及線性回歸分析
    1.常見的回歸函數2.工具數據分析有很多成熟的工具可以使用,如R、python、此處我們選用python進行分析。首先,我們需要安裝並導入python數據分析常用的庫。__version__)3.線性回歸分析Y= aX + b + e ,e表示殘差。
  • python多重線性回歸分析
    python多重線性回歸分析多重線性回歸分析定義多重線性回歸模型:MulitipleLinear Regression多元線性回歸模型:Multivariate Linear Regression數據準備#多重線性回歸#數據準備import pandas as pddf=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')
  • python機器學習--線性回歸
    python機器學習--線性回歸線性回歸是最簡單的機器學習模型,其形式簡單,易於實現,同時也是很多機器學習模型的基礎。對於一個給定的訓練集數據,線性回歸的目的就是找到一個與這些數據最吻合的線性函數。針對線性回歸算法在之前的數模案例也有涉及喔,歡迎去看看上一篇博客數學建模預測模型實例--大學生體測數據模型在這裡插入圖片描述OLS線性回歸Ordinary Least Squares 最小二乘法一般情況下,線性回歸假設模型為下,其中w為模型參數
  • Python數據科學:線性回歸
    本次介紹:線性回歸:多個連續變量與一個連續變量間的關係。其中線性回歸分為簡單線性回歸和多元線性回歸。/ 01 / 數據分析與數據挖掘資料庫:一個存儲數據的工具。因為Python是內存計算,難以處理幾十G的數據,所以有時數據清洗需在資料庫中進行。統計學:針對小數據的數據分析方法,比如對數據抽樣、描述性分析、結果檢驗。人工智慧/機器學習/模式識別:神經網絡算法,模仿人類神經系統運作,不僅可以通過訓練數據進行學習,而且還能根據學習的結果對未知的數據進行預測。
  • 用 Python 進行多元線性回歸分析(附代碼)
    很多人在做數據分析時會經常用到一元線性回歸,這是描述兩個變量間統計關係的最簡單的回歸模型。但現實問題中,我們往往會碰到多個變量間的線性關係的問題,這時就要用到多元線性回歸,多元線性回歸是一元回歸的一種推廣,其在實際應用中非常廣泛,本文就用python代碼來展示一下如何用多元線性回歸來解決實際問題。圖1.
  • R數據分析:一般線性回歸的做法和解釋
    發現大家做分析做的最多的還是線性回歸,很多人諮詢的都是線性回歸的問題,今天專門出一個線性回歸的文章。
  • 多重線性回歸
    python多重線性回歸分析多重線性回歸分析定義>多重線性回歸模型:Mulitiple Linear Regression多元線性回歸模型:Multivariate Linear Regression數據準備#多重線性回歸
  • python線性回歸
    一.理論基礎1.回歸公式  對於單元的線性回歸,我們有:f(x) = kx + b 的方程(k代表權重,b代表截距)。
  • Excel數據分析篇:線性回歸
    通過數據間相關性分析的研究,進一步建立自變量(i=1,2,3,…)與因變量Y之間的回歸函數關係,即回歸分析模型,從而預測數據的發展趨勢。 2、分類按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關係類型,可分為線性回歸分析和非線性回歸分析。
  • 機器學習之線性回歸:OLS 無偏估計及相關性python分析
    如果因為線性回歸的模型是 y = theta.transpose().dot(X),因為X的係數很大,所以一個很小的樣本X的擾動,會導致y的取值波動很大,這就是我們所說的方差會很大,取值不聚集,取值很散,會造成不小的誤差值估計,這就是一個bug。具體請看下面的測試。
  • Python 機器學習:多元線性回歸
    DT機器學習  公眾號: datayx接著上一次的一元線性回歸python機器學習:線性回歸往下講,這篇文章要講解的多元線性回歸。1、什麼是多元線性回歸模型?當y值的影響因素不唯一時,採用多元線性回歸模型。例如商品的銷售額可能不電視廣告投入,收音機廣告投入,報紙廣告投入有關係,可以有 sales =β0+β1*TV+β2* radio+β3*newspaper.
  • 線性回歸-如何對數據進行回歸分析
    線性回歸模型的目的就是想找出一種特徵集與目標集之間的線性關係,使得我們可以通過已知的特徵數據預測出目標數據。在經過了1078 份數據的分析之後,最終他得出結論:人類的身高維持在相對穩定的狀態,他稱之為回歸效應,並給出了歷史上第一個回歸公式:公式中的 Y 代表子代身高,X 代表父代身高,單位為英寸。
  • 從零開始學Python數據分析【21】--線性回歸(實戰部分)
    01)從零開始學Python數據分析【7】-- pandas(數據框部分02)從零開始學Python數據分析【8】-- pandas(數據框部分03)從零開始學Python數據分析【9】-- pandas(數據框部分04)從零開始學Python數據分析【10】-- matplotlib(條形圖)從零開始學Python數據分析【11
  • 大數據分析python自回歸模型
    那是因為我們在此類數據中遇到自相關。換句話說,通過了解當今產品的價格,我們經常可以對明天的產品價值做出大致的預測。因此,在大數據分析python自回歸模型中,我們將討論一個反映這種相關性的模型。–自回歸模型。
  • python數據分析專題 (7):python數據分析模塊
    python是一門優秀的程式語言,而是python成為數據分析軟體的是因為python強大的擴展模塊。
  • 從零開始學Python數據分析【22】--線性回歸診斷(第一部分)
    從零開始學Python數據分析【16】-- matplotlib(雷達圖)從零開始學Python數據分析【17】-- matplotlib(面積圖)從零開始學Python數據分析【18】-- matplotlib(熱力圖)從零開始學Python數據分析【19】-- matplotlib(樹地圖)從零開始學Python數據分析【20】--
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。一、什麼是線性回歸線性回歸是利用線性的方法,模擬因變量與一個或多個自變量之間的關係;對於模型而言,自變量是輸入值,因變量是模型基於自變量的輸出值,適用於x和y滿足線性關係的數據類型的應用場景。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    -箱線圖 3-25可視化-折線圖 3-26可視化-餅圖 3-27本章小結 4-01假設檢驗 4-02卡方檢驗 4-03方差檢驗 4-04相關係數 4-05線性回歸 4-06主動分析 4-07編碼實現 4-08交叉分析方法與實現 4-09
  • 自己動手進行線性回歸計算
    經過一段時間的NumPy數組與Pandas數組基本操作的學習,今天小編將兩個庫結合起來做一個實戰分析——多元線性回歸。一、多元線性回歸模型在進行正式的回歸分析之前,我們來回顧一下多元線性回歸的基本原理。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。