懶人秘籍:教你如何避免編寫pandas代碼

2021-01-07 讀芯術

全文共4781字,預計學習時長14分鐘

來源:Pexels

Pandas在數據科學領域無需介紹,它提供高性能,易於使用的數據結構和數據分析工具。但是,在處理過多的數據時,單核上的Pandas就顯得心有餘而力不足了,大家不得不求助於不同的分布式系統來提高性能。然而,提高性能的權衡常常伴隨著陡峭的學習曲線。

而大家都在儘可能地避免這種懸崖峭壁,結果可想而知,都轉向了如何避免編寫pandas代碼。

在過去4年裡,筆者一直使用pandas作為數據分析的主要工具。必須承認,「如何避免編寫pandas代碼」的大部分內容來自於使用pandas編程的起步階段。在進行代碼審閱時,筆者仍然看到許多經驗豐富的程式設計師在看一些熱門「如何避免使用」的帖子。

在本文中,筆者首先展示了一個「如何避免」的例子,然後展示了一個正確的「如何使用」pandas來計算統計數據的方法。改進後,代碼更簡潔、易讀,執行更快。報告時間的格式為: 831 ms ± 25.7 ms per loop,即平均831毫秒,標準偏差為25.7毫秒。每個代碼示例執行多次,以計算準確的執行時間。

和往常一樣,可以下載 JupyterNotebook並在電腦上試運行。

開始pandas遊戲之旅,請閱讀如下資源:

5個鮮為人知的pandas技巧使用pandas進行探索性數據分析

來源:Pexels

設置

from platform importpython_versionimport numpy as npimport pandas as pdnp.random.seed(42) # set the seed tomake examples repeatable

樣本數據集

樣本數據集包含各個城市的預訂信息,是隨機的,唯一目的是展示樣本。

數據集有三列:

id表示唯一的標識city表示預定的城市信息booked perc表示特定時間預定的百分比

數據集有一萬條,這使速度改進更加明顯。注意,如果代碼以正確的pandas方式編寫,pandas可以利用DataFrames計算數百萬(甚至數十億)行的統計數據。

size = 10000cities =["paris", "barcelona", "berlin", "newyork"]df = pd.DataFrame( {"city": np.random.choice(cities,size=size), "booked_perc": np.random.rand(size)})df["id"] = df.index.map(str) +"-" + df.citydf = df[["id", "city", "booked_perc"]]df.head()

1.如何避免對數據求和

翻滾的熊貓/Reddit

來自Java世界的靈感,把「多行for循環」應用到了Python。

計算booked perc列的總和,把百分比加起來毫無意義,但無論如何,一起來試試吧,實踐出真知。

%%timeitsuma = 0for _, row in df.iterrows(): suma += row.booked_perc766ms ± 20.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

更符合Python風格的方式來對列求和如下:

%%timeitsum(booked_perc forbooked_perc in df.booked_perc)989 s ± 18.5 s per loop (mean ±std. dev. of 7 runs, 1000 loops each)%%timeitdf.booked_perc.sum()92s ± 2.21 s per loop (mean ± std. dev. of 7 runs, 10000 loops each)

正如預期的那樣,第一個示例是最慢的——對一萬項求和幾乎需要1秒。第二個例子的速度之快令人驚訝。

正確的方法是使用pandas對數據進行求和(或對列使用任何其他操作),這是第三個示例——也是最快的!

2.如何避免過濾數據

玩耍的熊貓/Giphy

儘管在使用pandas之前,筆者已經很熟悉numpy,並使用for循環來過濾數據。求和時,還是可以觀察到性能上的差異。

%%timeitsuma = 0for _, row in df.iterrows(): if row.booked_perc <=0.5: suma += row.booked_perc831ms ± 25.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)%%timeitdf[df.booked_perc<= 0.5].booked_perc.sum()724 s ± 18.8 s per loop(mean ± std. dev. of 7 runs, 1000 loops each)

正如預期的一樣,第二個例子比第一個例子快很多

如果加入更多的過濾器呢?只需把它們添加到括號裡

%%timeitdf[(df.booked_perc <=0.5) & (df.city == 'new york')].booked_perc.sum()1.55ms ± 10.7 s per loop (mean ± std. dev. of 7 runs, 1000 loops each)

3.如何避免訪問以前的值

翻滾的熊貓/Giphy

你可能會說:好吧,但是如果需要訪問先前某一列的值呢,還是需要一個for循環。你錯了!

分別使用和不使用for循環來計算一行到另一行百分數的改變

%%timeitfor i inrange(1, len(df)): df.loc[i,"perc_change"] = (df.loc[i].booked_perc- df.loc[i - 1].booked_perc) / df.loc[i- 1].booked_perc7.02 s ± 24.4 ms per loop (mean ± std. dev. of 7runs, 1 loop each)%%timeitdf["perc_change"] = df.booked_perc.pct_change()586s ± 17.3 s per loop (mean ± std. dev. of 7 runs, 1000 loops each)

同樣,第二個例子比第一個使用for循環的例子快得多

pandas有許多函數可以根據以前的值計算統計數據(例如shift函數對值進行移位)。這些函數接受periods參數,可以在計算中包含以前值的數量。

4.如何避免使用複雜的函數

來源:墜落的熊貓(國家地理)Giphy

有時需要在DataFrame中使用複雜函數(有多個變量的函數)。讓我們將從紐約的booking_perc兩兩相乘,其他設置為0並且把這列命名為sales_factor。

筆者首先想到的是使用iterrows的for循環

%%timeitfor i, row in df.iterrows(): if row.city =='new york': df.loc[i, 'sales_factor'] =row.booked_perc * 2 else: df.loc[i, 'sales_factor'] =03.58 s ± 48.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

一個更好的辦法是直接在DataFrame上使用函數

%%timeitdef calculate_sales_factor(row): if row.city =='new york': return row.booked_perc* 2 return 0df['sales_factor'] =df.apply(calculate_sales_factor, axis=1)165 ms ± 2.48 ms per loop(mean ± std. dev. of 7 runs, 10 loops each)

最快的方法是使用pandas過濾器直接計算函數值

%%timeit df.loc[df.city== 'new york', 'sales_factor'] = df[df.city == 'newyork'].booked_perc * 2df.sales_factor.fillna(0, inplace=True)3.03 ms ± 85.5 sper loop (mean ± std. dev. of 7 runs, 100 loops each)

可以看到從第一個例子到最後一個的加速過程。

當解決有3個及3個以上變量的函數時,可以把它分解為多個pandas表達式。這比運用函數更快。

Eg: f(x, a, b) = (a + b) * xdf['a_plus_b'] = df['a'] +df['b']df['f'] = df['a_plus_b'] * df['x']

5.如何避免對數據進行分組

蹭癢熊貓/Giphy

現在可以看到,在開始使用pandas之前,筆者更多依賴於for循環。至於對數據進行分組,如果充分發揮pandas的優勢,可以減少代碼行數。

要計算如下數據:

一個城市的平均sales factor一個城市的首次預定id

%%timeit avg_by_city = {}count_by_city = {}first_booking_by_city = {}for i, row in df.iterrows(): city = row.city if city in avg_by_city: avg_by_city[city] += row.sales_factor count_by_city[city] += 1 else: avg_by_city[city] = row.sales_factor count_by_city[city] = 1 first_booking_by_city[city] =row['id']for city, _ in avg_by_city.items(): avg_by_city[city] /=count_by_city[city]878 ms ± 21.4 ms per loop (mean ± std. dev. of 7 runs, 1 loopeach)

Pandas有分組操作所以不必在DataFrame上進行迭代,pandas的分組操作和SQL的GROUP BY語句一樣的。

%%timeitdf.groupby('city').sales_factor.mean()df.groupby('city').sales_factor.count()df.groupby('city').id.first()3.05 ms ± 65.3 s per loop(mean ± std. dev. of 7 runs, 100 loops each)%%timeitdf.groupby("city").agg({"sales_factor":["mean", "count"], "id": "first"})4.5ms ± 131 s per loop (mean ± std. dev. of 7 runs, 100 loops each)

驚奇的是,第三個例子不是最快的,但比第二個例子更簡潔。筆者建議,如果需要加速的代碼,請用第二種方法。

快樂的熊貓/Giphy

最後,小芯的建議是:如果需要使用pandas編寫for循環,那一定存在一種更好的編寫方式。

會存在一些計算量很大的函數,即使上述的優化方法也會無效。那麼我們就需要使用最後手段:Cython和Numba。

大家一起來試試這些方法吧,一定會有意想不到的收穫~

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 如何在Python中編寫簡單代碼,並且速度超越Spark?
    數據科學家們用pandas進行探索。然後,其他的數據工程師團隊重新編寫相同的邏輯代碼並使其大規模工作,或者使用Spark令其與實時流一同工作。當數據科學家需要更改邏輯或將一個不同的數據集用於他/她的模型時,則會進行一次次地迭代。
  • 一行代碼讓你的pandas運行得更快
    Modin 如何加速數據處理過程在筆記本上在具有 4 個 CPU 內核的現代筆記本上處理適用於該機器的數據幀時,Pandas 僅僅使用了 1 個 CPU 內核,而 Modin 則能夠使用全部 4 個內核。
  • 如何編寫簡潔美觀的Python代碼
    介紹你有沒有遇到過一段寫得很糟糕的Python代碼?我知道你們很多人都會點頭的。編寫代碼是數據科學家或分析師角色的一部分。另一方面,編寫漂亮整潔的Python代碼完全是另一回事。作為一個精通分析或數據科學領域(甚至軟體開發)的程式設計師,這很可能會改變你的形象。
  • 如何從pandas輕鬆過渡到PySpark?
    如下所示,您可以在Koalas上擴展Spark上的pandas代碼,只需將一個包替換為另一個即可。但是,當他們不得不使用詞彙表之外的庫時,就會迷迷糊糊,每隔幾分鐘檢查一次StackOverflow,並且必須中斷工作流程才能使代碼正常工作。儘管PySpark易於使用並且在很多方面與pandas相似,但它們仍然是他們必須學習的詞彙。
  • Python學習指南| 快速入門Pandas數據分析技巧
    首先,你不應該真的只想著去學習pandas。 雖然知道如何在資料庫中執行操作會很有用,但它不會像在數據分析過程中實際使用它的方式那樣。 你可以將你的學習分為兩個不同的類別:1.學習獨立於數據分析的pandas library2.
  • PandaSQL:一個讓你能夠通過SQL語句進行pandas的操作的python包
    如果你熟練的使用SQL,那麼這篇文章將介紹一種更直接、簡單的使用Pandas處理大多數數據操作案例。假設你對SQL非常的熟悉,或者你想有更可讀的代碼。或者您只是想在dataframe上運行一個特殊的SQL查詢。或者,也許你來自R,想要一個sqldf的替代品。
  • 60行Python代碼編寫資料庫查詢應用
    而在今天的教程內容中,我將帶大家學習Dash中渲染網頁靜態表格的常用方法,並在最後的例子中教大家如何配合Dash,簡簡單單編寫一個資料庫查詢應用~圖12 在Dash中渲染靜態表格在Dash中渲染「靜態」表格,方法有很多,而我們今天要學習的方法,是配合之前文章介紹過的第三方拓展
  • Python數據分析之pandas數據讀寫
    你首先會學會文本文件的讀寫,隨後再逐步過渡到更加複雜的二進位文件。最後我們會講解SQL和NoSQL常用資料庫的連接方法,我們用幾個例子來說明如何直接把DataFrame中的數據存儲到資料庫中。同時,我們還會介紹如何從資料庫讀取數據,存儲為DataFrame對象,並對其進行檢索。
  • 教你用十行代碼編寫一個Python小遊戲!不信?來看看!
    或許你之前學習過一點編程,但若是你從沒接觸過遊戲編程,那麼你仍然會對遊戲程序的運行感到不解。遊戲程序不像計算一個公式或謎題,得到答案之後程序就結束了,遊戲程序一直是處於運行中的,只要你不主動退出,那麼你可以永遠呆在遊戲之中。這就遊戲循環的神奇魔力。下面我們嘗試用最少的代碼來編寫一個小遊戲。
  • 自動生成pandas代碼,python數據處理神器
    熟悉我的同學都知道,我的大部分教程最終都希望教會你怎麼節省代碼。今天我要說的不是怎麼寫代碼,而是介紹一款我親手打造的小工具,它作為探索數據的工具,你不僅不需要寫任何的代碼,它最終還會自動生成pandas代碼。
  • 不用寫代碼就能學用Pandas,適合新老程式設計師的神器Bamboolib
    為了進行數據檢索和創建所有的圖表而編寫代碼是相當麻煩的,需要付出很多的時間和努力,Bamboolib 如何讓整個數據檢索工作變得輕而易舉?例如,可以通過運行導出的代碼,以圖表的形式展現 price_range 和 ram 這兩個列,你就會看到一個將這些圖表以 PNG 格式下載的選項。
  • pandas指南:做更高效的數據科學家
    如果你是Python新手,很難知道針對特定任務的包哪個是最好的。你需要有經驗的人來告訴你。今天我要告訴你們的是:在數據科學中,有一個軟體包是你們絕對需要學習的,那就是pandas。而pandas真正有趣的地方是,很多其他的包也在裡面。pandas是一個核心包,因此它具有來自其他各種包的特性。
  • Pandas的數據過濾
    下面的代碼顯示如何提取id號為478和222的員工的姓名、姓氏和工資。下面的代碼片段顯示如何選擇id號為128、478、257和299的員工的姓名、姓氏和薪水。正如你可能注意到的,上面的代碼相當於編寫兩個布爾表達式,並使用邏輯運算符and對它們求值。
  • 教你如何編寫第一個爬蟲
    因此,你需要約束自己的網絡爬蟲行為,將請求的速度限定在一個合理的範圍之內。爬取網站的時候需要限制自己的爬蟲,遵守Robots協議和約束網絡爬蟲程序的速度;在使用數據的時候必須遵守網站的智慧財產權。所以只要你合理利用就不會違法,爬蟲還是可以學的哦,畢竟爬蟲對數據分析真的非常有用,那麼爬蟲該怎麼學呢?今天來教大家編寫一個簡單的爬蟲!
  • 一場pandas與SQL的巔峰大戰(七)
    具體來講,本篇文章我們先討論pandas中如何使用SQL,用到了pandasql,再討論pandas對於資料庫的讀寫。文中代碼更多以python為主。最後本文也對整個pandas 大戰 SQL系列文章進行了一些回顧。文末有驚喜!
  • 如何用pandas更快地進行數據可視化?
    作者:劉早起來源:早起Python(公眾號)如果你經常使用Python進行數據分析,那麼對於pandas一定不會陌生,但是Pandas除了在數據處理上大放異彩,隨著版本的不斷更新,Pandas的繪圖功能在某些情況下甚至要比matplotlib更加適用,本文就將介紹如何用Pandas更快的進行數據可視化!
  • 一行pandas代碼生成啞變量
    一、 數據import pandas as pddf = pd.read_csv('data.csv', usecols=['Name', 'Info'])df.head()二、任務現在我想生成A、B、C、D的啞變量三、技術實現在pandas
  • Python數據分析利器,Pandas入門介紹,幫你便捷高效處理複雜數據
    pandas(pannel data analysis,面板數據分析),我個人覺得pandas用於數據分析處理有別於Python字典和列表的主要在於以下三點。運算效率提升,pandas是基於numpy寫的,換句話說也是c語言進行編寫並編譯成本地庫的,在運算效率會高很多。
  • 資料| 編寫高質量Python代碼的59個有效方法
    內容簡介 · · · · · ·用Python編寫程序,是相當容易的,所以這門語言非常流行。但若想掌握Python所特有的優勢、魅力和表達能力,則相當困難,而且語言中還有很多隱藏的陷阱,容易令開發者犯錯。
  • 如何理解pandas?
    一起學習,一起成長pandas對於python而言,是及其重要的存在,那麼什麼是pandas?它有那些優勢?它在python語言中的地位如何,小編從此開始進行介紹。不贅述,直擊重點,以解讀和實操的方式進行知識分享。