Python數據分析|線性回歸

2021-01-08 Glennnnnn

Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。

壹 數據導入

Python下載及環境配置這裡就不贅述了哈,網上教程非常多,我們直接一開始就進入乾貨,打它一個開門見山。

①導入Python常用數據分析庫:常用的numpy、pandas、matplotlib先導入。

②將待處理的數據讀取:read_excel進行Excel文件讀取,用sheet_name指定導入的sheet。

③數據初視:用head函數將讀取的數據表格展示前幾行用於初步觀察,可以看到初步的數據形式、欄位。

貳數據預處理

初步觀察發現有一些列的數據是空的,它們對於數據分析沒有意義,考慮去掉。並且後續進行一定的數據預處理。

①去掉無效列:運用drop函數去掉無效的數據列,並再次調用head函數觀察數據。

②看上圖效果,數據已經規整一些了,接下來需要看看整體的數據表還有多大:調用shape並用print函數列印出來,可以看到數據表格是227行、12列的大小。

③接下來需要進行數據缺失值處理:調用info函數,查看各列的數據,可以看到各列的數據還是有不一致的情況,需要做進一步的處理。

④先以我們後續需要用來做線性回歸的列「內容閱讀量」為標準,將不含該值的數據行去除:調用dropna函數,並執行info函數看數據情況。

⑤上述處理後,數據已經規整了一些,但某些行的數值仍然是缺失的,此時不能再整行或整列的進行刪除了,須對個別缺失值執行填充:發現「月留」和「當月高活人數」這兩列仍有缺失值,採取均值填充的方法處理,主要用到fillna函數。

至此,數據預處理流程完成。數據預處理非常關鍵,非常影響後續的數據分析流程。

叄線性回歸

數據預處理流程完成後,後續將進行線性回歸,進行業務相關數據的擬合和預測。

①導入線性回歸分析庫:建立線性回歸的自變量x和因變量y,這裡我們以「內容閱讀量」這一列數據作為x,以「業務DAU(人)」這一列作為y。

②建立線性回歸方程,並計算出回歸係數:調用linear_model庫,計算回歸係數為0.1683。

③繪製擬合圖:調用matplotlib庫裡的scatter方法繪製y和x的散點圖,並將線性回歸擬合的直線也同步繪製上去。

④數據預測:調用linear_model庫裡的predict方法,可以預測出因變量後續的值。便於大家後續對結果進行預估。

至此,利用Python進行線性回歸的實例完成。歡迎關注微信公眾號Glen。

相關焦點

  • 一元線性回歸分析python - CSDN
    python多重線性回歸分析多重線性回歸分析定義多重線性回歸模型:MulitipleLinear Regression多元線性回歸模型:Multivariate Linear Regression數據準備#多重線性回歸#數據準備import pandas as pddf=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')
  • python一元線性回歸分析專題及常見問題 - CSDN
    python多重線性回歸分析多重線性回歸分析定義多重線性回歸模型:Mulitiple Linear Regression多元線性回歸模型:MultivariateLinear Regression數據準備#多重線性回歸#數據準備import pandas as pddf=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')df根據預測目標,確定自變量和因變量#多重線性回歸
  • Python數據科學:線性回歸
    本次介紹:線性回歸:多個連續變量與一個連續變量間的關係。其中線性回歸分為簡單線性回歸和多元線性回歸。/ 01 / 數據分析與數據挖掘資料庫:一個存儲數據的工具。因為Python是內存計算,難以處理幾十G的數據,所以有時數據清洗需在資料庫中進行。統計學:針對小數據的數據分析方法,比如對數據抽樣、描述性分析、結果檢驗。人工智慧/機器學習/模式識別:神經網絡算法,模仿人類神經系統運作,不僅可以通過訓練數據進行學習,而且還能根據學習的結果對未知的數據進行預測。
  • python多重線性回歸分析
    一個簡單的線性回歸模型測試。定義:線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。表達形式為y =aX+b,b為誤差服從均值為0的正態分布,a為截距。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    -箱線圖 3-25可視化-折線圖 3-26可視化-餅圖 3-27本章小結 4-01假設檢驗 4-02卡方檢驗 4-03方差檢驗 4-04相關係數 4-05線性回歸 4-06主動分析 4-07編碼實現 4-08交叉分析方法與實現 4-09
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。
  • 使用Python中的線性回歸通過語音診斷帕金森氏病
    本文,我們將創建一個簡單的python機器學習算法,以便能夠通過聲音來診斷該人是否為患者。我們將使用一組(健康者和帕金森病患者)音頻文件庫,通過對音頻進行一些測量來構建我們的機器學習數據集。建立機器學習數據集後,我們將使用SciKit Learn庫訓練線性回歸模型。最後,我們將構建一個python庫,這個庫可以輕鬆集成到其他應用程式中。數據集首先,我們需要將音頻文件轉換成包含音頻測量值以及患者是否健康標誌的表格。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 機器學習的線性回歸分析
    打開APP 機器學習的線性回歸分析 是DRR啊 發表於 2020-01-23 17:33:00 概述 線性回歸是利用數理統計中回歸分析
  • SPSS分析技術:線性回歸分析
    回歸分析類型回歸分析根據自變量個數,自變量冪次以及變量類型可以分為很多類型,常用的類型有:線性回歸;曲線回歸;二元Logistic回歸技術;線性回歸原理回歸分析就是建立變量的數學模型,建立起衡量數據聯繫強度的指標,並通過指標檢驗其符合的程度。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • 範例分析:多元線性回歸分析
    基礎回顧簡單線性和多元線性回歸理論基礎請回顧:相關與回歸分析基礎;一元(簡單線性)相關分析與回歸分析
  • 【線性回歸】多變量分析:多元回歸分析
    實際上大部分學習統計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應用於實踐,可能還要真正領會回歸分析的基本思想和一些實際應用手法!下面我們就來談談多元回歸分析,這張圖是利用多元線性回歸製作的策略分析圖,你可以理解X軸是重要性,Y軸是表現;首先,多元回歸分析應該強調是多元線性回歸分析!
  • 簡單線性回歸分析
    線性回歸分析,統計學上是對具有相關性的變量進行定量分析,分析變量之間的定量關係。
  • 8種用Python實現線性回歸的方法,究竟哪個方法最高效?
    今天,讓我們來談談線性回歸。沒錯,作為數據科學界元老級的模型,線性回歸幾乎是所有數據科學家的入門必修課。拋開涉及大量數統的模型分析和檢驗不說,你真的就能熟練應用線性回歸了麼?未必!在這篇文章中,文摘菌將介紹8種用Python實現線性回歸的方法。了解了這8種方法,就能夠根據不同需求,靈活選取最為高效的方法實現線性回歸。
  • 如何用EXCEL線性回歸分析法快速做數據分析預測
    回歸分析法,即二元一次線性回歸分析預測法先以一個小故事開始本文的介紹。令我吃驚的是,本人以完整的數據推算做依據,做出的報告結果居然與僅入職數周,數據不齊全的Edwin制定的報告結果吻合度達到99%以上。仍清楚記得,筆者曾用得是標準的周轉天數計算公式反推法,而Edwin用的正是本文重點介紹的二元一次線性回歸分析法。二元一次線性回歸分析法是一種數據分析模型。
  • 8種用Python實現線性回歸的方法
    拋開涉及大量數統的模型分析和檢驗不說,你真的就能熟練應用線性回歸了麼?未必!「寶刀不老」的線性回歸時至今日,深度學習早已成為數據科學的新寵。即便往前推10年,SVM、boosting等算法也能在準確率上完爆線性回歸。
  • 了解線性回歸的數學原理:線性回歸背後的微積分
    線性回歸通常是任何機器學習課程的起點。目的是預測輸入變量與目標變量之間的線性關係。天真的情況是穿過空間原點的直線。在這裡,我們僅限於二維空間,即笛卡爾平面。讓我們從y = mx格式開始逐步發展,然後從y = mx + c回歸開始。y = mx的簡化方案在這種情況下,我們知道我們要對通過原點的數據擬合一條線。
  • Python環境下的8種簡單線性回歸算法
    GitHub 地址:對於大多數數據科學家而言,線性回歸方法是他們進行統計學建模和預測分析任務的起點。但我們不可誇大線性模型(快速且準確地)擬合大型數據集的重要性。如本文所示,在線性回歸模型中,「線性」一詞指的是回歸係數,而不是特徵的 degree。
  • 多元線性逐步回歸分析
    一、方法簡述多元逐步回歸有3種篩選自變量的方法:(1)向前法:這種算法SPSS會建立由一個自變量開始,每次引入一個偏回歸平方和最大且具有統計學意義的自變量,由少到多,直到無具有統計學意義的因素可以代入方程為止,此法也可能納入部分無意義變量;(2)向後法:這種算法SPSS會先建立一個全因素的回歸方程,再逐步剔除一個偏回歸平方和最小且無統計學意義的自變量