Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。
壹 數據導入
Python下載及環境配置這裡就不贅述了哈,網上教程非常多,我們直接一開始就進入乾貨,打它一個開門見山。
①導入Python常用數據分析庫:常用的numpy、pandas、matplotlib先導入。
②將待處理的數據讀取:read_excel進行Excel文件讀取,用sheet_name指定導入的sheet。
③數據初視:用head函數將讀取的數據表格展示前幾行用於初步觀察,可以看到初步的數據形式、欄位。
貳數據預處理
初步觀察發現有一些列的數據是空的,它們對於數據分析沒有意義,考慮去掉。並且後續進行一定的數據預處理。
①去掉無效列:運用drop函數去掉無效的數據列,並再次調用head函數觀察數據。
②看上圖效果,數據已經規整一些了,接下來需要看看整體的數據表還有多大:調用shape並用print函數列印出來,可以看到數據表格是227行、12列的大小。
③接下來需要進行數據缺失值處理:調用info函數,查看各列的數據,可以看到各列的數據還是有不一致的情況,需要做進一步的處理。
④先以我們後續需要用來做線性回歸的列「內容閱讀量」為標準,將不含該值的數據行去除:調用dropna函數,並執行info函數看數據情況。
⑤上述處理後,數據已經規整了一些,但某些行的數值仍然是缺失的,此時不能再整行或整列的進行刪除了,須對個別缺失值執行填充:發現「月留」和「當月高活人數」這兩列仍有缺失值,採取均值填充的方法處理,主要用到fillna函數。
至此,數據預處理流程完成。數據預處理非常關鍵,非常影響後續的數據分析流程。
叄線性回歸
數據預處理流程完成後,後續將進行線性回歸,進行業務相關數據的擬合和預測。
①導入線性回歸分析庫:建立線性回歸的自變量x和因變量y,這裡我們以「內容閱讀量」這一列數據作為x,以「業務DAU(人)」這一列作為y。
②建立線性回歸方程,並計算出回歸係數:調用linear_model庫,計算回歸係數為0.1683。
③繪製擬合圖:調用matplotlib庫裡的scatter方法繪製y和x的散點圖,並將線性回歸擬合的直線也同步繪製上去。
④數據預測:調用linear_model庫裡的predict方法,可以預測出因變量後續的值。便於大家後續對結果進行預估。
至此,利用Python進行線性回歸的實例完成。歡迎關注微信公眾號Glen。