Python,Numpy,Pandas……數據科學家必備排序技巧

2021-01-11 讀芯術

全文共6168字,預計學習時長12分鐘

對數據進行分類整理是數據科學家和數據工程師的基礎工作。Python會提供許多內置庫,優化排序選項。有些庫甚至可以同時在GPU上運行。令人驚奇的是,一些排序方法並沒有使用之前所述的算法類型,其他方法的執行效果也不如預期。

選擇使用哪種庫和哪類排序算法著實難辦,因為算法的執行變化很快。本文將具體展開講解,提供一些幫助記憶算法的技巧,分享測速的結果。

分好類的茶

開始排序吧!

更新於2019年7月17日:速度測試結果現在包括PyTorch和TensorFlow的GPU執行。TensorFlow還包括tensorflow==2.0.0-beta1和tensorflow-gpu==2.0.0-beta1下的CPU結果。令人感到驚奇的發現是:PyTorch GPU變亮的速度更快,TensorFlow GPU比TensorFlow CPU速度更慢。

有許多不同的基本排序算法。有些比其他執行速度更快、佔用內存更小。有些適合處理大數據,還有些可以更好地對特定序列數據進行排排序。可參見下表了解許多常用算法的時間和空間複雜性。

圖片來自 http://bigocheatsheet.com/

了解基礎的算法並不能解決大多數數據科學問題。事實上,過早的優化處理說不定什麼時候就會被視為錯誤源泉。不過需要重複排序大量數據時,知道使用哪個庫和哪些關鍵字參數會十分有用。以下是一個備忘表。

Google表格可在此處獲取:

https://docs.google.com/spreadsheets/d/1zQbDvpmrvTYVnRz_2OTlfB6knLlotdbAoFH6Oy48uSc/edit?usp=sharing

多年來,許多庫的排序算法都發生了變化。用於本文分析的軟體版本如下。

python 3.6.8

numpy 1.16.4

pandas 0.24.2

tensorflow==2.0.0-beta1

#tensorflow-gpu==2.0.0-beta1 slows sorting

pytorch 1.1

讓我們從基礎開始吧!

Python (vanilla版)

Python包含兩個內置排序法。

my_list.sort()對原有列表進行排序。改變了列表。sort()返回None。

sorted(my_list)生成任何可迭代的排序副本。sorted()返回已排序的迭代。sort()不會改變原始迭代。

sort()應該更快,因為已到位。神奇的是這不是下面測試中的發現。就地排序更危險,因為會改變原始數據。

香草味冰激凌

說到vanilla版Python,本文呈現的默認排序順序都是升序—從小到大。大多數排序方法採用關鍵字參數,將順序切換為降序。對大腦來說很不幸,因為每個庫的參數名稱都不同。

要將vanilla Python中排序方式更改為降序,通過reverse = True.

key可以作為關鍵字參數來傳遞,從而創建自己的排序標準。例如,sort(key = len)將按照每個列表項的長度排序。

Vanilla Python中唯一使用的排序算法是Timsort。Timsort會根據要排序的數據特徵選擇排序方法。舉個例子,如果排短列表,就採用插入排序。

Timsort以及Vanilla Python的其他算法都很穩定。這意味著如果有多個相同值,這些數據在排序後仍維持原始順序。

想要記住sort()與sorted()不同,就記著sorted比sort單詞長,並且因複製需要排序時間會更長。雖然下面的結果與傳統觀念相悖,但助記符仍然起作用。

NumPy

Numpy是用於科學計算的Python基礎庫。與vanilla Python一樣,有兩種執行方式,一種是變異數組,另一種是數據的複製。

my_array.sort()改變有序數組並返回已排序數組。

np.sort(my_array)返回已排序數組的副本,因此原始數組不會改變。

以下是可選參數。

axis:int,可選—要排序的軸。默認值為-1,表示沿最後一個軸排序。

kind:{'quicksort','mergesort','heapsort','stable'},可選—排序算法。默認為'quicksort'。詳細信息如下。

order:str或str的列表,可選—當a是已定義欄位的數組時,該參數會指定首先比較哪一欄位,其次是哪個等等。可以指定單個欄位為字符串,而且不是所有欄位都需指定,不過仍需按照未指定欄位在dtype中的順序執行,打破聯繫。

現在,人們使用的排序算法與根據名字聯想的略有不同。通過kind = quicksort意味著排序實際是從introsort算法開始的。

若[它]沒有明顯進展,則會切換成堆排序算法。執行該操作最壞的情況就是產生快速排序O(n * log(n))。Stable會自動為正在排序的數據類型選擇最穩定的排序算法。目前依據數據類型,它與合併排序一起映射到tim排序或基數排序中。API前向兼容性目前抑制了選擇執行的能力,並且是不同數據類型的硬連線。添加Timsort是為了更好地處理已完成或幾乎排好序的數據。對於隨機數據,timsort在處理方式上幾乎與mergesort相同。現在timsort用於穩定排序,而在沒有其他選擇的情況下,quicksort仍為默認排序...'mergesort'和'stable'會映射到整數數據類型的基數排序。 來自Numpy文檔 -(部分內容有改動)

其中一點是Numpy提供了比vanilla Python排序算法選項更大的控制範圍。第二點是kind關鍵字值不一定與實際排序類型相對應。最後一點是mergesort和stable值是穩定的,但quicksort和heapsort不是。

Numpy排序是列表中唯一沒有用關鍵字參數來反轉排序順序的操作。幸運的是,這個可快速反轉數組順序:my_arr [:: -1]。

Numpy算法選項在更受歡迎的Pandas中也適用—而且這些功能更容易保持穩定。

Pandas

通過df.sort_values(by = my_column)對Pandas DataFrame進行排序。有許多可用關鍵字參數。

by:str或str of list,required—要排序的名稱或名稱列表。如果axis為0或index,那by可能會有索引級別和/或列標籤。如果axis為1或columns,則by可能含級別和/或索引標籤。

axis:{0或index,1或columns},默認為0—排序軸。

ascending:bool或bool列表,默認為True—按升序與降序排序。指定多個排序順序的列表。如果是bool列表,就必須與by參數長度匹配。

inplace:bool,默認為False—如果為True,則直接對其執行操作。

kind:{quicksort,mergesort,heapsort或stable},默認快速排序—選擇排序算法。可另參見ndarray.np.sort了解更多內容。對於DataFrames,此法僅應用於單列或單標籤的排序。

na_position:{『first』,『last』},默認『last』 - 首先以NaNs作為開頭,最後將NaNs作為結尾。

按照相同的句法對Pandas系列進行排序。用Series時,不需要輸入by關鍵字,因為列不多。

Pandas用到了Numpy計算法,動動手指即可輕鬆獲得同等優化的排序選項。但是,Pandas操作需要更多的時間。

按單列排序時的默認設置是Numpy的quicksort。如果排序進度很慢,那麼實際為內省排序的quicksort會變為堆排序。Pandas確保多列排序使用Numpy的mergesort。Numpy中的mergesort實際用的是Timsort和Radix排序算法。這些排序算法都很穩定,而且多數列排序中穩定排序是很有必要的。

使用Pandas需記住的關鍵內容:

函數名稱:sort_values()。

by= column_name或列名列表。

「 ascending」是逆轉的關鍵字。

用mergesort進行穩定排序。

在進行探索性數據分析時,常發現自己是用Series.value_counts()在Pandas DataFrame中對值進行求和排序的。這是一個代碼片段,用於每列常用值的求和和排序。

for c in df.columns:

print(f"---- {c} ---")

print(df[c].value_counts().head())

Dask,實際上是用於大數據的Pandas,到2019年中期還沒有實現並行排序,儘管大家一直在討論這個。

對小數據集進行探索性數據分析,Pandas排序是個不錯的選擇。當數據很大,想要在GPU上並行搜索時,你也許會想到TensorFlow或PyTorch。

TensorFlow

TensorFlow是最受歡迎的深度學習框架。以下是TensorFlow 2.0的簡介。

tf.sort(my_tensor)返回tensor排序副本。可選參數有:

axis:{int,optional}待排序軸。默認值為-1,對最後一個軸進行排序。

direction:{ascending or descending}—數值排序的方向。

name:{str,optional}—操作的名稱。

tf.sort在幕後使用top_k()方法。top_k使用CUB庫的CUDA GPU促使並行性更容易實現。正如文檔所述「CUB為CUDA編程模型的每一項程序都提供了最先進、可重複利用的軟體組件。」TensorFlow通過CUB在GPU上使用基數排序。

為了使GPU能夠滿足TensorFlow 2.0,你需要!pip3 install tensorflow-gpu==2.0.0-beta1。我們會從下面的評論看到,如果你要進行排序,你可能想堅持tensorflow==2.0.0-beta1。

使用下面一小段代碼來檢查代碼的每一行是否都能在CPU 或GPU中運行:

tf.debugging.set_log_device_placement(True)

為了詳述你想要使用GPU,使用下面代碼:

with tf.device('/GPU:0'):

%time tf.sort(my_tf_tensor)

使用 with tf.device('/CPU:0'):為了使用CPU。

假如在TensorFlow中工作,tf.sort()是非常直觀的記憶和使用方法。只需記住direction = descending可轉換排序順序。

PyTorch

torch.sort(my_tensor)返回tensor排序副本。可選參數有:

dim:{int,optional} - 待排序維度

descending:{bool,optional} - 控制排序順序(升序或降序)。

out:{tuple,optional} - (Tensor,LongTensor)的輸出元組,可以作為輸出緩衝區。

通過將.cuda()粘貼到張量的末尾來指定要使用GPU進行排序。

gpu_tensor=my_pytorch_tensor.cuda()

%time torch.sort(gpu_tensor)

一些分析表明,如果任何大於100萬行乘以100,000列的數據集要排序,PyTorch將通過Thrust利用分段式並行排序。

不幸的是,當我們試圖通過Google Colab中的Numpy創建1.1M x 100K隨機數據點時,發現內存已不足。然後嘗試了416 MB RAM的GCP,依舊沒有內存。

分段排序和位置排序是mergesort的高性能體現,處理非均勻隨機數據。分段排序使我們能夠並行排序許多長度可變數組。 https://moderngpu.github.io/segsort.html

Thrust作為並行算法庫,實現了GPU與多核CPU之間的聯繫。提供了排序原語,可自動選擇最有效的執行方式。TensorFlow使用的CUB庫會用來包裝Thrust。PyTorch和TensorFlow在操作時GPU分類法相似 - 無論選擇何種。

與TensorFlow一樣,PyTorch的排序方法記起來相當容易:torch.sort()。唯一費腦子的是排序值的方向:TensorFlow使用direction,而PyTorch使用descending。

雖然用GPU進行排序對於非常大的數據集來說可能是一個很好的選擇,但直接在SQL中對數據進行排序也是可以的。

SQL

SQL中的排序通常非常快,特別是在內存中執行時。

SQL很規範,但沒有規定某操作必須使用哪種排序算法。Postgres使用磁碟合併排序,堆排序或快速排序,視情況而定。如果內存夠,在內存中排序會更快。通過work_mem設置增加排序的可用內存。

其他SQL的執行使用不同排序算法。例如,根據Stack Overflow的回答,谷歌BigQuery的內省排序採取了一些措施。

SQL中的排序由ORDER BY命令執行。這種句法不同於所有使用單詞sort的Python排序執行。其實更容易記住SQR語句與ODER BY,因為非常獨特。

為使排序降序,請用關鍵字DESC。因此,按字母順序從最後一個到第一個反饋給客戶的查詢如下所示:

SELECT Names FROM Customers

ORDER BY Names DESC;

比較

對於上面的每個Python庫,我們對wall time進行了分析,以便在單列,單數組或單列表中對相同的1,000,000個數據點進行排序。同時使用了配有T4 GPU的Google Colab Jupyter筆記本。

數據來源: https://colab.research.google.com/drive/1NNarscUZHUnQ5v-FjbfJmB5D3kyyq9Av

觀察

對於Numpy和Pandas,inplace比複製數據更快。這並不奇怪。

Pandas默認快速排序相當快。

大多數Pandas功能相對較慢。

TensorFlow操作相當快。

Python inplace排序慢得出奇。比Numpy inplace mergesort和TensorFlow慢了10倍。曾多次對其進行測試(使用不同的數據)來確認這不是一個異常現象。

重申,這只是一個小測試。絕對不是決定性的。

Wrap

通常不需要自定義排序。選擇很多。一般不會採用單一的排序方法。相反,首先對數據進行評估,然後用效果更好的排序算法。如果排序進展不快,執行操作時也會自行改變算法。

在本文中,你已經了解了如何在Python數據科學堆和SQL中的每個板塊裡進行排序。

只需要記住選擇哪個選項以及如何調用它們。可用上面的備忘表,節省時間。大致建議如下:

使用默認的Pandas sort_values()來探索相對較小的數據集。

數據集較大或運行速度較高時,嘗試Numpy的就地合併,PyTorch或TensorFlow並行GPU方式或SQL。

留言 點讚 關注

我們一起分享AI學習與發展的乾貨

編譯組:黃雪嬌、孫夢琪

相關連結:

https://towardsdatascience.com/surprising-sorting-tips-for-data-scientists-9c360776d7e

如需轉載,請後臺留言,遵守轉載規範

相關焦點

  • Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據
    【每天幾分鐘,從零入門python編程的世界!】numpy的基本的東西我們學習差不多了,後面具體應用中遇到問題具體分析,然後去深入了解遇到的新的知識點就行。現在我們開始學習pandas,pandas一般用的更多,pandas是基於numpy去寫的。pandas是一個專門做數據結構和數據分析的庫。
  • D03 Numpy排序、篩選、統計
    title: D03|Numpy排序、篩選、統計author: Adolph Leecategories: 數據挖掘基礎tags:Python數據挖掘基礎統計篩選排序在進行數據挖掘工作之前,我們常常需要對數據的全貌今昔概覽,利用描述性統計獲取數據的特徵,例如數據的均值
  • 懂Excel輕鬆入門Python數據分析包pandas(二十七):IF函數代替者
    此系列文章收錄在:數據大宇宙 > 數據處理 > E-pd轉發本文並私信我"python",即可獲得Python資料以及更多系列文章(持續更新的)經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。
  • python數據科學系列:numpy入門詳細教程
    python數據科學基礎庫主要是三劍客:numpy,pandas以及matplotlib,每個庫都集成了大量的方法接口,配合使用功能強大。numpy:numerical python縮寫,提供了底層基於C語言實現的數值計算庫,與python內置的list和array數據結構相比,其支持更加規範的數據類型和極其豐富的操作接口,速度也更快num
  • Python模塊NumPy,Pandas,matplotlib的中文文檔
    今天比較忙所以不能寫長文了作為一名數據工程師需要熟練掌握python中的這些numpy,matplotlib,pandas,sklearn,seaborn,statsmodel.模塊但是由於這些模塊的文檔都是英文的可能一些英文不好的同學學起來會比較的困難,所以我從網上給大家找到一些中文的文檔
  • 圖解四個實用的pandas函數!
    作者:Baijayanta Roy來源:towardsdatascience編譯&內容補充:早起Python在用python進行機器學習或者日常的數據處理中,pandas是最常用的Python庫之一,熟練掌握pandas是每一個數據科學家的必備技能,本文將用代碼+圖片詳解Pandas中的四個實用函數!
  • pandas與numpy中神奇的axis
    pandas與numpy中神奇的axis最近在百奧智匯兼職,基本上比較重的工作就在數據處理,所以pandas和numpy用的比較多。
  • Python數據分析:pandas讀取和寫入數據
    我的公眾號是關於自己在數據分析/挖掘學習過程中的一些技術和總結分享,文章會持續更新......繼續深入學習pandas相關操作,數據讀取寫入、分組、合併,轉換等等。前面一篇文章裡已經寫了關於描述性統計以及常用的基本操作。接下來的一段時間裡,我將陸續地去掌握並輸出。這篇文章是關於數據讀取與寫入的知識點。
  • numpy中的數據類型對象有哪些
    Numpy數據類型numpy是一個python擴展包,它可以為我們提供更精確的科學技術,更強大的數學能力。為此,numpy定義了比python更豐富的數據類型來達成目的。數據類型以上就是一系列Numpy中提供的數據類型。需要理解的是,Numpy中的數據類型,和python本身的數據類型是不同的。Numpy中的數據類型,實質是數據類型對象dtype的實例。
  • 不懂NumPy 算什麼 Python 程式設計師?|CSDN 博文精選
    事實上,NumPy 的數據組織結構,尤其是數組(numpy.ndarray),幾乎已經成為所有數據處理與可視化模塊的標準數據結構了(這一點,類似於在機器學習領域 Python 幾乎已經成為首選工具語言)。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    總目錄 零基礎全能篇(4套課程) 實用編程技巧進價(1套課程) 數據分析與挖掘(8套課程) 辦公自動化(3套課程) 機器學習與人工智慧(7套課程) 開發實戰篇(4套課程) 量化投資(2套課程) 網絡爬蟲(6套課程) 資料庫操作(1套課程) python
  • 6個提升效率的pandas小技巧
    pandas是python中常用的數據分析庫,出現頻率非常高,而且pandas功能之多讓人咋舌,即使pandas老手也沒法保證能高效使用pandas做數據分析。這篇文章目的梳理幾個高效實用的pandas小技巧,供大家參考。1.
  • python機器學習:常用庫的介紹及安裝
    首先電腦一臺,這是必備的。下面我們來看一下需要安裝些什麼軟體到電腦上!如:我要安裝Numpy庫,那麼我就可以打開Anaconda的DOS界面,輸入「pip install numpy"即可下載安裝對應的庫了。這裡需要下載後安裝,所以在安裝新庫的時候要保證網絡是接通的,否則無法下載安裝。
  • 快速介紹Python數據分析庫pandas的基礎知識和代碼示例
    我創建了這個pandas函數的備忘單。這不是一個全面的列表,但包含了我在構建機器學習模型中最常用的函數。讓我們開始吧!本附註的結構:導入數據導出數據創建測試對象查看/檢查數據選擇查詢數據清理篩選、排序和分組統計數據首先,我們需要導入pandas開始:import pandas as pd導入數據使用函數pd.read_csv直接將CSV轉換為數據格式。注意:還有另一個類似的函數pd。read_excel用於excel文件。
  • python數據分析基礎之numpy
    支持高級大量的維度數組與矩陣運算,是學習數據挖掘的基礎,今天我們就來總結下numpy的一些基礎用法。首先,在講numpy之前,我先帶領大家預習下大學學習過的矩陣的基礎知識。1、矩陣的基本概念矩陣:由m×n個數排列成 的m行n列的數表,稱為m行n列矩陣。實矩陣:元素是實數的矩陣。復矩陣:元素是負數的矩陣。
  • 如果不懂Numpy,請別說自己是Python程式設計師
    了解 numpy之後,我才想明白當初磁層頂的三維模型之所以慢,是因為使用了 list(python 數組)而不是 ndarray(numpy 數組)存儲數據。有了 numpy,python 程式設計師才有可能寫出媲美 C 語言運行速度的代碼。
  • Numpy入門詳細教程
    >numpy入門詳細教程python數據科學基礎庫主要是三劍客:numpy,pandas以及matplotlib,每個庫都集成了大量的方法接口,配合使用功能強大。numpy:numerical python縮寫,提供了底層基於C語言實現的數值計算庫,與python內置的list和array數據結構相比,其支持更加規範的數據類型和極其豐富的操作接口,速度也更快n
  • Pandas閃回咒!如何在Python中重寫SQL查詢?
    入門指南如果電腦中沒有pandas包,則需要先安裝一下:Conda install pandas在這個階段,我們將使用著名的Kaggle泰坦尼克數據集:https://www.kaggle.com/c/titanic/data?select=test.csv。
  • 學習筆記,從NumPy到Scrapy,學習Python不能錯過這些庫
    numpy庫可以用來存儲和處理大型矩陣,並且在一定程度上彌補了python在運算效率上的不足,正是因為numpy的存在使得python成為數值計算領域的一大利器;2. SciPy SciPy和Numpy聯繫很密切,Scipy一般都是操控Numpy數組來進行科學計算,所以可以說是基於Numpy之上了。
  • Numpy應用整理
    numpy簡介numpy是python最為常用的庫,沒有之一,它表示Numeric Python,從名字也可以看出來,它被用來做數值計算,常與scipy配合使用。>numpy.arange(n)生成range數據,注意要區別於python中的range()函數,numpy中的arange()>>> nr = np.arange(1,10,2)>>> nrarray([1, 3, 5, 7, 9])