本文作者:孫曉玲
文字編輯:孫曉玲
學習了Pandas的基本數據類型,今天為大家介紹Pandas中基本數據類型的常用操作方法,這裡以DataFrame數組為例。
首先生成一個DataFrame數組,方法之前已經介紹這裡將不再贅述,給出命令如下:
import numpy as npimport pandas as pddates = pd.date_range('20191101', periods=8)df = pd.DataFrame(np.random.randn(8, 5), index=dates,columns=list('abcde'))df1.查看頂部和尾部數據
當數據集龐大時,查看數據的基本情況通常只需查看頂部與尾部數據,即可得知數據概貌,可用.head()和.tail()函數分別查看頭部、尾部數據,默認為顯示5條數據,也可以傳入數字指定你想要查看的數據條數。這裡示範輸出默認情況下前5條數據與指定後3條數據。
2.查看行列索引與值
本例中,行索引為日期索引dates,列索引為列表[a,b,c,d,e],值為交互式列表中的數據,可分別用.index、.columns和.values屬性查看行列索引與數值。
df.indexdf.columnsdf.values採用交互式輸出方式,輸出結果中除了行列索引,還包括其數據類型。這裡行索引的數據類型為64位的datestime,是逐日型數據,當然還有逐月、逐年等其他類型,在生成datestime時傳入不同的日期類型參數即可得到。這裡的列索引類型為object,值為一個二維NumPy數組。
與NumPy數組類似,Pandas數組也具有快速描述性統計方法,使用.describe()函數可以生成描述性統計,總結數據集分布的中心趨勢,不包括空值,其語法結構如下:DataFrame.describe(percentiles=None, include=None, exclude=None)示例如下:
輸出結果包括每一列的觀測值數量、均值、標準差、最大值、最小值及重要的分位數。如果你想得到逐行的描述性統計結果,可對原數據進行轉置再進行描述性統計。
2.常用的描述性統計方法
下表列出了Pandas數組中一些常用的描述性統計方法。
這裡選取幾個演示如下:
df.count()#計算每一列非空數值個數df.cumsum()df.count()返回每一列非空數值個數,df.cumsum()返回隨著日期的累積和。
df.quantile(0.3) #0.3分位數df.min()df.idxmin()df.quantile(0.3)返回每一列的0.3分位數,df.min()返回每一列的最小值,df.idxmin()返回每一列最小值對應的日期索引。動手操作,熟能生巧,快來練習一下吧~
對我們的推文累計打賞超過1000元,我們即可給您開具發票,發票類別為「諮詢費」。用心做事,不負您的支持!過了14天潛伏期真的沒事了?
Pandas基本數據類型介紹
「個性化」sortobs命令,教你實現排序自由
恭賀新春,平安順遂|各省疫情關注度地圖
過年觀影指南(二)
過年觀影指南(一)
egenmore隱藏功能——進位轉換
相遇insobs,如暗室逢燈
數據可視化之地理坐標系
微信公眾號「Stata and Python數據分析」分享實用的stata、python等軟體的數據處理知識,歡迎轉載、打賞。我們是由李春濤教授領導下的研究生及本科生組成的大數據處理和分析團隊。
此外,歡迎大家踴躍投稿,介紹一些關於stata和python的數據處理和分析技巧。
投稿郵箱:statatraining@163.com投稿要求:
1)必須原創,禁止抄襲;
2)必須準確,詳細,有例子,有截圖;
注意事項:
1)所有投稿都會經過本公眾號運營團隊成員的審核,審核通過才可錄用,一經錄用,會在該推文裡為作者署名,並有賞金分成。
2)郵件請註明投稿,郵件名稱為「投稿+推文名稱」。
3)應廣大讀者要求,現開通有償問答服務,如果大家遇到有關數據處理、分析等問題,可以在公眾號中提出,只需支付少量賞金,我們會在後期的推文裡給予解答。