今天介紹幾個常用的Pandas操作。
import numpy as np
import pandas as pd
df = pd.read_csv('./economics.csv')1.DataFrame to markdown/latexdataframe可以轉換為許多常用格式,如csv,excel,sql,json,html,latex等等,這裡以markdown和latex為例。
print(df.to_markdown())
print(df.to_latex())or
df.to_markdown('table.md')
df.to_latex('table.tex')也可以自定義輸出latex格式,如表格寬度。
df.to_latex('tb.tex',column_format='lp{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}')除此以外,dataframe還可以保存為圖片。
import dataframe_image as dfi
dfi.export(obj = df, filename = 'table.jpg', fontsize=15)2.DataFrame常用屬性查詢df.values #值df.index #索引號df.columns #列標籤df.dtypes #數據類型df.shape #形狀(幾行幾列)3.DataFrame常用基本函數df.head(5) #前5行df.tail(5) #後5行df.info() #信息概況df.describe() #主要統計量(count、mean、std、max、min、quartile)4.DataFrame唯一值函數df['psavert'].unique() #唯一值組成的數組df['psavert'].nunique()#唯一值個數df['psavert'].value_counts()#唯一值及其頻數df.describe()#主要統計量(count、mean、std、max、min、quartile)df['psavert'].duplicated()#重複行的布爾值df[df['psavert'].duplicated()]#單列去重(刪除重複行)df.drop_duplicates(subset=['psavert', 'pop'], keep='first')#多列去重(保留first唯一值)5.DataFrame替換函數df['psavert'].replace(12.5, 'A', inplace = True)#替換某列的單個值df['psavert'].replace({12.5:'A', 11.7:'B'}, inplace = True)#替換某列的多個值df['date'].replace({r'2\d+': 'The 21st century'}, regex=True, inplace = True)#正則替換df['psavert'].mask(df['psavert']>12.0 ,'A', inplace = True)#條件符合,進行替換df['psavert'].where(df['psavert']<12.0 ,'A', inplace = True)#條件不符合,進行替換5.DataFrame排序函數df.sort_values('psavert',ascending = False)#單列降序排序df.sort_values(['psavert','uempmed'],ascending=[True,False])#前者升序排序情況下,後者降序排序今天先寫到這,下一期接著寫DataFrame的apply方法。