變量分析:
①相關分析:一個連續變量與一個連續變量間的關係。
②雙樣本t檢驗:一個二分分類變量與一個連續變量間的關係。
③方差分析:一個多分類分類變量與一個連續變量間的關係。
④卡方檢驗:一個二分分類變量或多分類分類變量與一個二分分類變量間的關係。
本次介紹:
線性回歸:多個連續變量與一個連續變量間的關係。
其中線性回歸分為簡單線性回歸和多元線性回歸。
/ 01 / 數據分析與數據挖掘
資料庫:一個存儲數據的工具。因為Python是內存計算,難以處理幾十G的數據,所以有時數據清洗需在資料庫中進行。
統計學:針對小數據的數據分析方法,比如對數據抽樣、描述性分析、結果檢驗。
人工智慧/機器學習/模式識別:神經網絡算法,模仿人類神經系統運作,不僅可以通過訓練數據進行學習,而且還能根據學習的結果對未知的數據進行預測。
/ 02 / 回歸方程
01 簡單線性回歸
簡單線性回歸只有一個自變量與一個因變量。
含有的參數有「回歸係數」「截距」「擾動項」。
其中「擾動項」又稱「隨機誤差」,服從均值為0的正態分布。
線性回歸的因變量實際值與預測值之差稱為「殘差」。
線性回歸旨在使殘差平方和最小化。
下面以書中的案例,實現一個簡單線性回歸。
建立收入與月均信用卡支出的預測模型。
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols
# 消除pandas輸出省略號情況及換行情況
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
# 讀取數據,skipinitialspace:忽略分隔符後的空白
df = pd.read_csv('creditcard_exp.csv', skipinitialspace=True)
print(df.head())
讀取數據,數據如下。
對數據進行相關性分析。
# 獲取信用卡有支出的行數據
exp = df[df['avg_exp'].notnull()].copy().iloc[:, 2:].drop('age2', axis=1)
# 獲取信用卡無支出的行數據,NaN
exp_new = df[df['avg_exp'].isnull()].copy().iloc[:, 2:].drop('age2', axis=1)
# 描述性統計分析
exp.describe(include='all')
print(exp.describe(include='all'))
# 相關性分析
print(exp[['avg_exp', 'Age', 'Income', 'dist_home_val']].corr(method='pearson'))
輸出結果。
發現收入(Income)和平均支出(avg_exp)相關性較大,值為0.674。
使用簡單線性回歸建立模型。
# 使用簡單線性回歸建立模型
lm_s = ols('avg_exp ~ Income', data=exp).fit()
print(lm_s.params)
# 輸出模型基本信息,回歸係數及檢驗信息,其他模型診斷信息
print(lm_s.summary())
一元線性回歸係數的輸出結果如下。
從上可知,回歸係數值為97.73,截距值為258.05。
模型概況如下。
其中R值為0.454,P值接近於0,所以模型還是有一定參考意義的。
使用線性回歸模型測試訓練數據集,得出其預測值及殘差。
# 生成的模型使用predict產生預測值,resid為訓練數據集的殘差
print(pd.DataFrame([lm_s.predict(exp), lm_s.resid], index=['predict', 'resid']).T.head())
輸出結果,可與最開始讀取數據時輸出的結果對比一下。
使用模型測試預測數據集的結果。
# 對待預測數據集使用模型進行預測
print(lm_s.predict(exp_new)[:5])
輸出結果。
12下一頁>(免責聲明:本網站內容主要來自原創、合作媒體供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,並對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或連結內容可能涉嫌侵犯其智慧財產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,並提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件後,將會依法儘快聯繫相關文章源頭核實,溝通刪除相關內容或斷開相關連結。 )