十分鐘學習pandas!pandas常用操作總結!

2020-12-11 程式設計師阿狗

學習Python, 當然少不了pandas,pandas是python數據科學中的必備工具,熟練使用pandas是從sql boy/girl 跨越到一名優秀的數據分析師傅的必備技能。

這篇pandas常用操作總結幫大家回顧下pandas的常用語法,尤其是我們分析數據時常用的方法。文末還有pandas的cheat sheet,幫助你記住常見的pandas操作。

常用操作分類:

從不同文件中導入數據以不同的文件格式導出DataFrames查看DataFrame信息選擇數據的特定子集數據清理命令分組、排序和過濾數據其他以下df代表DataFrame對象,ser代表Series對象。

從不同文件中導入數據

從CSV文件中讀取所有數據:pd.read_csv(file_name)從一個分隔的文本文件(如TSV)中讀取所有數據:pd.read_table(file_name)從Excel表讀取:pd.read_excel(file_name)從SQL資料庫中讀取數據:pd.read_sql(query, connectionObject)從JSON格式的字符串或URL中獲取數據:pd.read_json(jsonString)要獲取剪貼板的內容:pd.read_clipboard()

以不同的文件格式導出DataFrames

將DataFrame寫入CSV文件:df.to_csv(file_name)將DataFrame寫入Excel文件:df.to_excel(file_name)將一個DataFrame寫入一個SQL表:df.to_sql(tableName, connectionObject)將DataFrame寫入JSON格式的文件:df.to_json(file_name)

查看DataFrame信息

獲取所有與索引、數據類型和內存相關的信息:df.info()要提取DataFrame的起始n行:df.head(n)要提取DataFrame中最後n行:df.tail(n)要提取DataFrame中可用的行數和列數:df.shape。總結數字列的統計:df.describe()要查看唯一值及其計數:ser.value_counts(dropna=False)

選擇數據的特定子集

提取第一行:df.iloc[0,:]。提取第一列的第一個元素: df.iloc[0,0]返回標籤為'col'的列作為Series:df[col]。返回具有新數據框架的列:df[[col1,col2]]。按位置選擇數據:ser.iloc[0]。按索引選擇數據:ser.loc['index_one']

數據清理命令

同時重命名所有列:df.rename(columns = lambda x: x + '1')選擇性地重命名列:df.rename(columns = {'oldName': 'newName'})重命名所有的索引:df.rename(index = lambda x: x + 1)按順序重命名列:df.columns = ['x', 'y', 'z']。檢查是否存在空值,相應地返回一個布爾值arrray:pd.isnull()pd.isnull()的反向:pd.notnull()刪除所有包含空值的記錄:df.dropna()刪除所有包含空值的列:df.dropna(axis=1)用'n'代替每個空值:df.fillna(n)要將series的所有數據類型轉換為浮點數:ser.astype(float)將所有數字1替換為'1',將3替換為'3':ser.replace([1,2], ['one', 'two'])

python數據分析經典教材:

分組、排序和過濾數據

返回列值的groupby對象:df.groupby(colm)返回多列值的groupby對象:df.groupby([colm1, colm2])按升序排序(按列):df.sort_values(colm1)要按降序排序(按列):df.sort_values(colm2, ascending=False)提取列值大於0.6的行:df[df[colm] > 0.6]

其他

將第一個DataFrame的行添加到第二個DataFrame的末尾:df1.append(df2)將第一個DataFrame的列添加到第二個DataFrame的末尾:pd.concat([df1,df2],axis=1)返回所有列的平均值:df.mean()返回非空值的數量:df.count()另外給大家準備了pandas使用的cheat sheet,簡單兩頁全面地總結了pandas的使用方法。

截圖:

公眾號 程式設計師阿狗

中回復「 1206 」即可獲取。

相關焦點

  • 十分鐘快速了解Pandas的常用操作!
    在之前我曾將Pandas數據處理中的常用操作已習題的形式整理為Pandas進階修煉120題,但是仍有部分剛接觸Python的讀者不知該如何下手,所以我將在本文中分享我在學習Pandas時使用的教程。在我知道pandas之前還是個Excel Boy,偶然了解到pandas,但是當時網上並沒有太多的資料,因此只能從官方文檔中學習,事實上在之前的很多文章中我都有提到官方文檔是最好的學習手冊,pandas也是。
  • 分享我學習Pandas的資料,新手入門Pandas最好教程
    在之前我曾將Pandas數據處理中的常用操作已習題的形式整理為Pandas進階修煉120題,但是仍有部分剛接觸Python的讀者不知該如何下手,所以我將在本文中分享我在學習Pandas時使用的教程。在我知道pandas之前還是個Excel Boy,偶然了解到pandas,但是當時網上並沒有太多的資料,因此只能從官方文檔中學習,事實上在之前的很多文章中我都有提到官方文檔是最好的學習手冊
  • 超全的pandas數據分析常用函數總結(上篇)
    來源 | 凹凸數據為了更好地學習數據分析,我對於數據分析中pandas這一模塊裡面常用的函數進行了總結。整篇總結,在詳盡且通俗易懂的基礎上,我力求使其有很強的條理性和邏輯性,所以製作了思維導圖,希望能夠幫助到大家深入了解與學習相關函數的知識點。
  • 超全的pandas數據分析常用函數總結(下篇)
    上篇文章中,小編給大家總結了數據分析中pandas這一模塊裡面常用函數的四個部分的內容,分別為導入模塊、創建數據集並讀取、數據查看與數據清洗,現在給大家介紹下篇的內容。來源 | 凹凸數據5.# 會報錯第一種修改方式:data.join(data2,lsuffix='_data', rsuffix='_data2')輸出結果:第二種修改方式:data.set_index('id').join(data2.set_index('id'))輸出結果:用concat合併pandas.concat
  • Python3操作excel的集大成者pandas
    有個Python開發包的大管家,名叫Anaconda,這傢伙安裝好後,就有了操作excel的開發包pandas,既然用Anaconda的挺多,想必處理excel時,他們會更多選擇用pandas,而它是基於NumPy 的一種工具,該工具是為了解決數據分析任務而創建的。
  • Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據
    numpy的基本的東西我們學習差不多了,後面具體應用中遇到問題具體分析,然後去深入了解遇到的新的知識點就行。現在我們開始學習pandas,pandas一般用的更多,pandas是基於numpy去寫的。pandas是一個專門做數據結構和數據分析的庫。
  • pandas向量化字符串操作方法
    作者:小伍哥 來源:AI入門學習那麼,有沒有辦法,不用循環就能同時處理多個字符串呢,pandas的向量化操作就提供了這樣的方法。向量化的操作使我們不必擔心數組的長度和維度,只需要關係操作功能,尤為強大的是,除了支持常用的字符串操作方法,還集成了正則表達式的大部分功能,這使得pandas在處理字符串列時,具有非常大的魔力。
  • pandas向量化字符串操作方法!
    作者:小伍哥 來源:AI入門學習python內置一系列強大的字符串處理方法,但這些方法只能處理單個字符串,處理一個序列的字符串時,需要用到循環。那麼,有沒有辦法,不用循環就能同時處理多個字符串呢,pandas的向量化操作就提供了這樣的方法。向量化的操作使我們不必擔心數組的長度和維度,只需要關係操作功能,尤為強大的是,除了支持常用的字符串操作方法,還集成了正則表達式的大部分功能,這使得pandas在處理字符串列時,具有非常大的魔力。
  • pandas指南:做更高效的數據科學家
    今天我要告訴你們的是:在數據科學中,有一個軟體包是你們絕對需要學習的,那就是pandas。而pandas真正有趣的地方是,很多其他的包也在裡面。pandas是一個核心包,因此它具有來自其他各種包的特性。pandas類似於Python中的Excel:它使用表(即DataFrame)並對數據進行轉換,但它還能做更多。
  • pandas庫中最重要的幾個知識點
    前言本篇是【機器學習與數據挖掘】頭條號原創首發Python數據分析系列文章的第四篇Python數據分析系列文章之Python基礎篇Python數據分析系列文章之NumpyPython數據分析系列文章之Pandas(上)Python數據分析系列文章之Pandas(下)Python數據分析系列文章之ScipyPython數據分析系列文章之MatplotlibPython
  • 探索 COVID-19 新冠數據來學習 Pandas
    使用 Pandas 數據分析工具來學習一些基本的 pandas 命令,並探索數據集中包含的內容。在本教程中,我們將使用 pandas 數據分析工具來學習一些基本的 pandas 命令,並探索數據集中包含的內容。配置開發環境安裝好Python3版本,本文中還須安裝 pandas。
  • Python數據分析之pandas數據讀寫
    本節將學習pandas從多種存儲媒介(比如文件和資料庫)讀取數據的工具,還將學到直接將不同的數據結構寫入不同格式文件的方法,而無需過多考慮所使用的技術。本節的主要內容為pandas的多種I/O API函數,它們為大多數常用格式的數據作為DataFrame對象進行讀寫提供了很大便利。你首先會學會文本文件的讀寫,隨後再逐步過渡到更加複雜的二進位文件。
  • D04 Pandas簡介 Pandas到底強在哪裡?
    通過Pandas我們可以方便的操作數據的增、查、改、刪、合併、重塑、分組、統計分析,此外Pandas還提供了非常成熟的I/O工具,用於讀取文本文件,excel文件,資料庫等不同來源數據,利用超快的HDF5格式保存/加載數據。# Pandas到底強在那裡?Pandas很快,Pandas是基於numpy開發的,此外Pandas的很多底層算法都經過Cython優化。
  • Pandas常用技巧總結
    歸納整理了一些工作中常用到的pandas使用技巧,方便更高效地實現數據分析。
  • 為什麼要學習pandas來處理分析數據?
    獲取數據後,需要進行探索性分析,也就是EDA操作,接著是數據清洗、分析、呈現。excel能做的pandas可以自動化、效率更高地完成。更加靈活pandas經過這些年的發展,有著雖然小眾但忠誠的擁躉,功能十分強大,可以算是python+excel+sql的完美結合。
  • Python數據分析:pandas讀取和寫入數據
    我的公眾號是關於自己在數據分析/挖掘學習過程中的一些技術和總結分享,文章會持續更新......繼續深入學習pandas相關操作,數據讀取寫入、分組、合併,轉換等等。前面一篇文章裡已經寫了關於描述性統計以及常用的基本操作。接下來的一段時間裡,我將陸續地去掌握並輸出。這篇文章是關於數據讀取與寫入的知識點。
  • 一張圖就能徹底搞定Pandas
    昨天在面向GitHub編程時,無意發現了Pandas官方竟提供了同款小抄,項目地址如下https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf可以看到這份小抄提供了PPT和PDF兩個版本,雖然最新一條更新記錄為兩年前,但是並不影響我們拿來學習,下面我們來看看這份小抄(速查表) 的強大!
  • 未明學院:7張思維導圖掌握數據分析關鍵庫pandas
    pandas與numpy一起構成了數據分析的基礎雙生庫。今天小明邀請了未明的王老師,給大家總結了pandas的核心知識,主要包括以下幾個方面。pandas核心知識01、首先我們來認識一下pandas的一些基本概念。
  • 嫌pandas慢又不想改代碼怎麼辦?來試試Modin
    最近看到了一篇也是關於對pandas提速的文章,但是從另一個角度,工具。使用它可以很好的突破操作優化上的瓶頸,而這個工具就是Modin。Modin存在的意義就是:更改一行代碼來提速pandas工作流程。Pandas在數據科學領域就無需介紹了,它提供高性能,易於使用的數據結構和數據分析工具。
  • 超詳細教程|pandas合併之append和concat(下)
    本篇文章主要介紹了pandas中對series和dataframe對象進行連接的方法:pd.append()和pd.concat(),文中通過示例代碼對這兩種方法進行了詳細的介紹,希望能對各位python小白的學習有所幫助。