在pandas中使用pipe()提升代碼可讀性

2021-01-10 TechWeb

1. 簡介

我們在利用pandas開展數據分析時，應儘量避免過於「碎片化」的組織代碼，尤其是創建出過多不必要的「中間變量」，既浪費了「內存」，又帶來了關於變量命名的麻煩，更不利於整體分析過程代碼的可讀性，因此以流水線方式組織代碼非常有必要。

而在以前我撰寫的一些文章中，為大家介紹過pandas中的eval()和query()這兩個幫助我們鏈式書寫代碼，搭建數據分析工作流的實用API，再加上下面要介紹的pipe()，我們就可以將任意pandas代碼完美組織成流水線形式。

2. 在pandas中靈活利用pipe()pipe()

顧名思義，就是專門用於對Series和DataFrame操作進行流水線(pipeline)改造的API，其作用是將嵌套的函數調用過程改造為「鏈式」過程，其第一個參數func傳入作用於對應Series或DataFrame的函數。

具體來說pipe()有兩種使用方式，「第一種方式」下，傳入函數對應的第一個位置上的參數必須是目標Series或DataFrame，其他相關的參數使用常規的「鍵值對」方式傳入即可，就像下面的例子一樣，我們自編函數對「泰坦尼克數據集」進行一些基礎的特徵工程處理：

import pandas as pd train = pd.read_csv('train.csv') def do_something(data, dummy_columns): ''' 自編示例函數 ''' data = ( pd # 對指定列生成啞變量 .get_dummies(data, # 先刪除data中指定列 columns=dummy_columns, drop_first=True) ) return data # 鏈式流水線 ( train # 將Pclass列轉換為字符型以便之後的啞變量處理 .eval('PclassPclass=Pclass.astype("str")', engine='python') # 刪除指定列 .drop(columns=['PassengerId', 'Name', 'Cabin', 'Ticket']) # 利用pipe以鏈式的方式調用自編函數 .pipe(do_something, dummy_columns=['Pclass', 'Sex', 'Embarked']) # 刪除含有缺失值的行 .dropna() )

可以看到，在緊接著drop()下一步的pipe()中，我們將自編函數作為其第一個參數傳入，從而將一系列操作巧妙地嵌入到鏈式過程中。

「第二種使用方式」適合目標Series和DataFrame不為傳入函數第一個參數的情況，譬如下面的例子中我們假設目標輸入數據為第二個參數data2，則pipe()的第一個參數應以(函數名, '參數名稱')的格式傳入：

def do_something(data1, data2, axis): ''' 自編示例函數 ''' data = ( pd .concat([data1, data2], axisaxis=axis) ) return data # pipe()第二種使用方式 ( train .pipe((do_something, 'data2'), data1=train, axis=0) )

在這樣的設計下我們可以避免很多函數嵌套調用方式，隨心所欲地優化我們的代碼~

相關焦點

在pandas中使用pipe()提升代碼可讀性

相關焦點

從小白到大師,這裡有一份Pandas入門指南

PandaSQL:一個讓你能夠通過SQL語句進行pandas的操作的python包

懶人秘籍:教你如何避免編寫pandas代碼

嫌pandas慢又不想改代碼怎麼辦?來試試Modin

如何使用Pandas-Profiling進行探索性數據分析

pandas使用的25個技巧

Pandas的介紹與基本使用

停止使用Pandas並開始使用Spark+Scala

Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據

pandas指南:做更高效的數據科學家

Pandas on Ray:僅需改動一行代碼,即可讓Pandas加速四倍

提高數據處理效率,一行代碼開啟Pandas四倍速!

python時間序列分析之_用pandas中的rolling函數計算時間窗口數據

圖解四個實用的pandas函數!

如何在Python中編寫簡單代碼,並且速度超越Spark?

使用pandas和openpyxl處理複雜Excel數據

15個應該掌握的Jupyter Notebook 使用技巧

Python數據分析利器,Pandas入門介紹,幫你便捷高效處理複雜數據

如何用pandas更快地進行數據可視化?

快速介紹Python數據分析庫pandas的基礎知識和代碼示例