使用《利用python進行數據分析》(第二版)進行學習,僅需要學習資料的小夥伴可直接跳轉至文章最下方。(註:只有第5章--pandas入門部分,使用jupyter notebook打開,代碼已通過測試,後續章節請追隨更新)
1、pandas的數據結構
pandas有兩個主要的數據結構:Series和DataFrame。
有些匯總統計(如相關係數和協方差)是通過參數對計算出來的。我們來看幾個DataFrame ,它們的數據來自Yahoo ! Fina nce的股票價格和成交貓:
1)python中有一種存儲方式,可以存儲為.pkl文件。
2)該存儲方式,可以將python項目過程中用到的一些暫時變量、或者需要提取、暫存的字符串、列表、字典等數據保存起來。
3)保存方式就是保存到創建的.pkl文件裡面。
4)然後需要使用的時候再 open,load。
Series的corr方法用於計算兩個Series中重疊的、非NA的、按索引對齊的值的相關係數。與此類似,cov用於計算協方差:DataFrame的corr和COV方法將以DataFrame的形式返回完整的相關係數或協方差矩陣:利用DataFrame的corrwith方法,你可以計算其列或行跟另一個Series或DataFrame之間的相關係數。傳入一個Series將會返回一個相關係數值Series (針對各列進行計算):傳入一個DataFrame則會計算按列名配對的相關係數。這裡,計算百分比變化與成交量的相關係數:傳入axis = 1即可按行進行計算。無論如何,在計 算相關係數之前,所有的數據項都會桉標籤對齊。百度網盤連結:https://pan.baidu.com/s/1-pokKZZEXncHcxVm7lPiWw