作者:luanhz
來源:小數志
numpy入門詳細教程
python數據科學基礎庫主要是三劍客:numpy,pandas以及matplotlib,每個庫都集成了大量的方法接口,配合使用功能強大。平時雖然一直在用,也看過很多教程,但紙上得來終覺淺,還是需要自己系統梳理總結才能印象深刻。本篇先從numpy開始,對numpy常用的方法進行思維導圖式梳理,多數方法僅拉單列表,部分接口輔以解釋說明及代碼案例。最後分享了個人關於axis和廣播機制的理解。
本文知識要點一級菜單
numpy:numerical python縮寫,提供了底層基於C語言實現的數值計算庫,與python內置的list和array數據結構相比,其支持更加規範的數據類型和極其豐富的操作接口,速度也更快
numpy的兩個重要對象是ndarray和ufunc,其中前者是數據結構的基礎,後者是接口方法的基礎
ufunc,通函數,其意義是可以像執行標量運算一樣執行數組運算,本質即是通過隱式的循環對各個位置依次進行標量運算。只不過這裡的隱式循環交由底層C語言實現,因此相比直接用python循環實現,ufunc語法更為簡潔、效率更為高效
索引、迭代和切片操作方式與普通列表比較類似,但是支持更為強大的bool索引
這部分內容比較基礎,僅補充一個個人認為比較有用的ufunc加聚合的例子。ufunc本身屬於方法(方法即是類內的函數接口),ufunc之上還支持4個方法:
reduce,聚合方法
accumulate,累計聚合
reduceat,按指定軸向、指定切片聚合
outer:外積
numpy中支持5類創建數組的方式:
以上方法中,最為常用的是方法1、2、5。
numpy提供了與列表類似的增刪操作,其中
三種方法需要接收一個axis參數,如果未指定,則均會先對目標數組展平至一維數組後再執行相應操作。
點擊查看大圖
數組拼接也是常用操作之一,主要有3類接口:
concatenate,對給定的多個數組按某一軸進行拼接,要求所有數組具有相同的維度(ndim相等)、且在非拼接軸大小一致stack系列,共6個方法:
hstack,column_stack:功能基本一致,均為水平堆疊(axis=1),或者說按列堆疊。唯一的區別在於在處理一維數組時:hstack按axis=0堆疊,且不要求兩個一維數組長度一致,堆疊後仍然是一個一維數組;而column_stack則會自動將兩個一維數組變形為Nx1的二維數組,並仍然按axis=1堆疊,自然也就要求二者長度一致,堆疊後是一個Nx2的二維數組vstack,row_stack,功能一致,均為垂直堆疊,或者說按行堆疊,axis=0
dstack,主要面向三維數組,執行axis=2方向堆疊,輸入數組不足3維時會首先轉換為3維,主要適用於圖像處理等領域
stack,進行升維堆疊,執行效果與前幾種堆疊方式基本不同,要求所有數組必須具有相同尺寸。堆疊後,一維變二維、二維變三維……
數組切分可以看做是數組拼接的逆操作,分別對應:
hsplit:水平切分,要求切分後大小相等,維數不變,可以切分一維數組
vsplit:垂直切分,要求切分後大小相等,維數不變,要求至少二維以上
dsplit:縱深切分,要求切分後大小相等,維數不變,至少三維數組
split:通過接收一個axis參數實現任意切分,默認axis=0,若設置axis=1或2則可分別實現vstack和dstack
array_split:前面4個方法均要求實現相同大小的子數組切分,當切分份數無法實現整除時會報錯。array_split則可以適用於近似相等條件下的切分,也接受一個axis參數實現指定軸向numpy可以很方便的實現基本統計量,而且每種方法均包括對象方法和類方法:
max,argmax分別返回最大值和最大值對應索引,可接收一個axis參數,指定軸線的聚合統計。對於二維及以上數組,若不指定axis,即axis=None,此時對數組所有數值求聚合統計
min,argmin,與最大一致
mean、std,分別求均值和標準差,也可接收一個預設參數axis實現特定軸向聚合統計或全局聚合
var、cov,分別求方差和協方差,與均值標準差類似
sort、argsort,分別返回排序後的數組和相應索引,接收一個axis參數,默認為axis=-1,按最後一個軸向,若axis=None表示先展平成一維數組後再排序;另外可設置排序算法,如快排、堆排或歸併等
與列表的操作類似,numpy的數組類型也存在深淺拷貝之分:
註:正因為賦值和view操作後兩個數組的數據共享,所以在前面resize試圖更改數組形狀時可以執行、但更改元素個數時會報錯。
Random是numpy下的一個子包,內置了大量的隨機數方法接口,包括絕大部分概率分布接口,常用的主要還是均勻分布和正態分布:
均勻分布:random、rand、uniform,三者功能具有相似性,其中前兩者均產生指定個數的0-1之間均勻分布,而uniform可通過設置參數實現任意區間的均勻分布;當需要產生整數均勻分布時,可用randint除了隨機數包,numpy下的另一個常用包是線性代數包,常見的矩陣操作均位於此包下。由於點積dot()和向量點積vdot()操作使用較為頻繁,所以全局可用。
由於numpy的基本數據結構是多維數組,很多接口方法均存在維度的問題,按照不同維度執行操作結果往往不同,例如拼接、拆分、聚合統計等,此時一般需要設置一個維度參數,即axis。由於很多教程因為翻譯或語言習慣不同,存在眾說紛紜、口徑不一的問題,有的說axis=0是橫軸,有的說是縱向,所以如何理解axis的含義可能是很多numpy初學者的常見困擾之一,筆者也是如此。
例如,在sort方法中,axis參數的解釋為"Axis along which to sort",翻譯過來就是沿著某一軸執行排序。這裡的沿著一詞用得恰到好處,形象的描述了參數axis的作用,即相關操作是如何與軸向建立聯繫的,在具體解釋之前,先介紹下axis從小到大的順序問題。axis從小到大對應軸的出場順序先後,或者說變化快慢:axis=0對應主軸,沿著行變化的方向,可以理解為在多重for循環中最外面的一層,對應行坐標,數值變化最慢;而axis=1對應次軸,沿著列變化的方向,在多重for循環中變化要快於axis=0的軸向。類似地,如果有更高維度則依次遞增。
至此,再來理解這裡axis沿著的意義。舉個例子,axis=0代表沿著行變化的方向,那麼自然地,切分方法split(axis=0)接口對應vsplit,因為是對行切分,即垂直切分;而split(axis=1)接口則對應hsplit,因為是對列切分,即水平切分;split(axis=2)則對應dsplit。類似的,np.sort(axis=0)必然是沿著行方向排序,也就是分別對每一列執行排序。
想必這樣理解,應該不會存在混淆了。
可能困擾numpy初學者的另一個用法是numpy的一大利器:廣播機制。廣播機制是指執行ufunc方法(即對應位置元素1對1執行標量運算)時,可以確保在數組間形狀不完全相同時也可以自動的通過廣播機制擴散到相同形狀,進而執行相應的ufunc方法。
條件很簡單,即從兩個數組的最後維度開始比較,如果該維度滿足維度相等或者其中一個大小為1,則可以實現廣播。當然,維度相等時相當於未廣播,所以嚴格的說廣播僅適用於某一維度從1廣播到N;如果當前維度滿足廣播要求,則同時前移一個維度繼續比較。
好吧,以上例子其實都源自numpy官方文檔。具體可參考../numpy/doc/Broadcasting.py文件。另外,doc包下還包括很多說明文檔,對於深刻理解numpy運行機制大有裨益。
再補充一句:這裡或許有人好奇,為什麼必須要1對N才能廣播,N的任意因數(比如N/2、N/3等)不是都可以"合理"廣播到N嗎?對此,個人也曾有此困惑,我的理解是這裡的合理只是數學意義下的合理,但數組表徵值意義下往往不合理,因為缺乏解釋性!比如2可以廣播到12,但此時該怎樣理解這其中的廣播意義呢?奇偶不同?那3廣播到12呢?4廣播到12呢?還是欠缺解釋性。所以numpy限制必須是1廣播到N或者二者相等,才可以廣播。