Numpy入門詳細教程

2021-01-18 Python數據之道

作者:luanhz

來源:小數志


numpy入門詳細教程


python數據科學基礎庫主要是三劍客:numpy,pandas以及matplotlib,每個庫都集成了大量的方法接口,配合使用功能強大。平時雖然一直在用,也看過很多教程,但紙上得來終覺淺,還是需要自己系統梳理總結才能印象深刻。本篇先從numpy開始,對numpy常用的方法進行思維導圖式梳理,多數方法僅拉單列表,部分接口輔以解釋說明及代碼案例。最後分享了個人關於axis和廣播機制的理解。


本文知識要點一級菜單





numpy:numerical python縮寫,提供了底層基於C語言實現的數值計算庫,與python內置的list和array數據結構相比,其支持更加規範的數據類型和極其豐富的操作接口,速度也更快

numpy的兩個重要對象是ndarray和ufunc,其中前者是數據結構的基礎,後者是接口方法的基礎

ufunc,通函數,其意義是可以像執行標量運算一樣執行數組運算,本質即是通過隱式的循環對各個位置依次進行標量運算。只不過這裡的隱式循環交由底層C語言實現,因此相比直接用python循環實現,ufunc語法更為簡潔、效率更為高效

索引、迭代和切片操作方式與普通列表比較類似,但是支持更為強大的bool索引


這部分內容比較基礎,僅補充一個個人認為比較有用的ufunc加聚合的例子。ufunc本身屬於方法(方法即是類內的函數接口),ufunc之上還支持4個方法:

reduce,聚合方法

accumulate,累計聚合

reduceat,按指定軸向、指定切片聚合

outer:外積


當然,後兩個用處較少也不易理解,前兩個在有些場景下則比較有用:





numpy中支持5類創建數組的方式:


以上方法中,最為常用的是方法1、2、5。





numpy提供了與列表類似的增刪操作,其中


三種方法需要接收一個axis參數,如果未指定,則均會先對目標數組展平至一維數組後再執行相應操作。



數組變形是指對給定數組重新整合各維度大小的過程,numpy封裝了4類基本的變形操作:轉置、展平、尺寸重整和複製。主要方法接口如下:


reshape常用於對給定數組指定維度大小,原數組不變,返回一個具有新形狀的新數組;如果想對原數組執行inplace變形操作,則可以直接指定其形狀為合適維度


    

另外,當resize新尺寸參數與原數組大小不一致時,要求操作對象具有原數組的,而不能是view或簡單賦值。(具體參考08 視圖與拷貝一節)


點擊查看大圖









數組拼接也是常用操作之一,主要有3類接口:

concatenate,對給定的多個數組按某一軸進行拼接,要求所有數組具有相同的維度(ndim相等)、且在非拼接軸大小一致


stack系列,共6個方法:

hstack,column_stack:功能基本一致,均為水平堆疊(axis=1),或者說按列堆疊。唯一的區別在於在處理一維數組時:hstack按axis=0堆疊,且不要求兩個一維數組長度一致,堆疊後仍然是一個一維數組;而column_stack則會自動將兩個一維數組變形為Nx1的二維數組,並仍然按axis=1堆疊,自然也就要求二者長度一致,堆疊後是一個Nx2的二維數組


vstack,row_stack,功能一致,均為垂直堆疊,或者說按行堆疊,axis=0

dstack,主要面向三維數組,執行axis=2方向堆疊,輸入數組不足3維時會首先轉換為3維,主要適用於圖像處理等領域

stack,進行升維堆疊,執行效果與前幾種堆疊方式基本不同,要求所有數組必須具有相同尺寸。堆疊後,一維變二維、二維變三維……






數組切分可以看做是數組拼接的逆操作,分別對應:

hsplit:水平切分,要求切分後大小相等,維數不變,可以切分一維數組

vsplit:垂直切分,要求切分後大小相等,維數不變,要求至少二維以上

dsplit:縱深切分,要求切分後大小相等,維數不變,至少三維數組

split:通過接收一個axis參數實現任意切分,默認axis=0,若設置axis=1或2則可分別實現vstack和dstack

array_split:前面4個方法均要求實現相同大小的子數組切分,當切分份數無法實現整除時會報錯。array_split則可以適用於近似相等條件下的切分,也接受一個axis參數實現指定軸向





numpy可以很方便的實現基本統計量,而且每種方法均包括對象方法和類方法:

max,argmax分別返回最大值和最大值對應索引,可接收一個axis參數,指定軸線的聚合統計。對於二維及以上數組,若不指定axis,即axis=None,此時對數組所有數值求聚合統計

min,argmin,與最大一致

mean、std,分別求均值和標準差,也可接收一個預設參數axis實現特定軸向聚合統計或全局聚合

var、cov,分別求方差和協方差,與均值標準差類似

sort、argsort,分別返回排序後的數組和相應索引,接收一個axis參數,默認為axis=-1,按最後一個軸向,若axis=None表示先展平成一維數組後再排序;另外可設置排序算法,如快排、堆排或歸併等





與列表的操作類似,numpy的數組類型也存在深淺拷貝之分:


註:正因為賦值和view操作後兩個數組的數據共享,所以在前面resize試圖更改數組形狀時可以執行、但更改元素個數時會報錯。





numpy提供了一些特殊的常量,值得注意的是np.newaxis可以用作是對數組執行升維操作,效果與設置為None一致。





Random是numpy下的一個子包,內置了大量的隨機數方法接口,包括絕大部分概率分布接口,常用的主要還是均勻分布和正態分布:

均勻分布:random、rand、uniform,三者功能具有相似性,其中前兩者均產生指定個數的0-1之間均勻分布,而uniform可通過設置參數實現任意區間的均勻分布;當需要產生整數均勻分布時,可用randint


正態分布:randn,normal,前者生成標準正態分布(均值為0,方差為1),後者產生任意正態分布,接收一個loc參數作為均值,scale參數作為標準差



seed,因為計算機中的隨機數嚴格講都是偽隨機,需要依賴一個隨機數種子來不斷生成新的隨機數,seed可以用於固定這個隨機種子。當指定隨機數種子後,後續的隨機將得到固化





除了隨機數包,numpy下的另一個常用包是線性代數包,常見的矩陣操作均位於此包下。由於點積dot()和向量點積vdot()操作使用較為頻繁,所以全局可用。



由於numpy的基本數據結構是多維數組,很多接口方法均存在維度的問題,按照不同維度執行操作結果往往不同,例如拼接、拆分、聚合統計等,此時一般需要設置一個維度參數,即axis。由於很多教程因為翻譯或語言習慣不同,存在眾說紛紜、口徑不一的問題,有的說axis=0是橫軸,有的說是縱向,所以如何理解axis的含義可能是很多numpy初學者的常見困擾之一,筆者也是如此。


這一問題困擾了好久,直至一次無意間看到了相關源碼中的注釋:


例如,在sort方法中,axis參數的解釋為"Axis along which to sort",翻譯過來就是沿著某一軸執行排序。這裡的沿著一詞用得恰到好處,形象的描述了參數axis的作用,即相關操作是如何與軸向建立聯繫的,在具體解釋之前,先介紹下axis從小到大的順序問題。axis從小到大對應軸的出場順序先後,或者說變化快慢:axis=0對應主軸,沿著行變化的方向,可以理解為在多重for循環中最外面的一層,對應行坐標,數值變化最慢;而axis=1對應次軸,沿著列變化的方向,在多重for循環中變化要快於axis=0的軸向。類似地,如果有更高維度則依次遞增。


至此,再來理解這裡axis沿著的意義。舉個例子,axis=0代表沿著行變化的方向,那麼自然地,切分方法split(axis=0)接口對應vsplit,因為是對行切分,即垂直切分;而split(axis=1)接口則對應hsplit,因為是對列切分,即水平切分;split(axis=2)則對應dsplit。類似的,np.sort(axis=0)必然是沿著行方向排序,也就是分別對每一列執行排序。


想必這樣理解,應該不會存在混淆了。



可能困擾numpy初學者的另一個用法是numpy的一大利器:廣播機制。廣播機制是指執行ufunc方法(即對應位置元素1對1執行標量運算)時,可以確保在數組間形狀不完全相同時也可以自動的通過廣播機制擴散到相同形狀,進而執行相應的ufunc方法。



條件很簡單,即從兩個數組的最後維度開始比較,如果該維度滿足維度相等或者其中一個大小為1,則可以實現廣播。當然,維度相等時相當於未廣播,所以嚴格的說廣播僅適用於某一維度從1廣播到N;如果當前維度滿足廣播要求,則同時前移一個維度繼續比較。


為了直觀理解這個廣播條件,舉個例子,下面的情況均滿足廣播條件:



好吧,以上例子其實都源自numpy官方文檔。具體可參考../numpy/doc/Broadcasting.py文件。另外,doc包下還包括很多說明文檔,對於深刻理解numpy運行機制大有裨益。


再補充一句:這裡或許有人好奇,為什麼必須要1對N才能廣播,N的任意因數(比如N/2、N/3等)不是都可以"合理"廣播到N嗎?對此,個人也曾有此困惑,我的理解是這裡的合理只是數學意義下的合理,但數組表徵值意義下往往不合理,因為缺乏解釋性!比如2可以廣播到12,但此時該怎樣理解這其中的廣播意義呢?奇偶不同?那3廣播到12呢?4廣播到12呢?還是欠缺解釋性。所以numpy限制必須是1廣播到N或者二者相等,才可以廣播。




相關焦點

  • python數據科學系列:numpy入門詳細教程
    平時雖然一直在用,也看過很多教程,但紙上得來終覺淺,還是需要自己系統梳理總結才能印象深刻。本篇先從numpy開始,對numpy常用的方法進行思維導圖式梳理,多數方法僅拉單列表,部分接口輔以解釋說明及代碼案例。最後分享了個人關於axis和廣播機制的理解。
  • Python 繪圖庫 Matplotlib 入門教程
    本文是對它的一個入門教程。運行環境由於這是一個Python語言的軟體包,因此需要你的機器上首先安裝好Python語言的環境。關於這一點,請自行在網絡上搜索獲取方法。關於如何安裝Matplotlib請參見這裡:Matplotlib Installing。
  • 清晰易懂的Numpy進階教程
    推薦閱讀:清晰易懂的Numpy入門教程Numpy是數據分析和科學計算的核心包,上文詳細介紹了Numpy的入門教程,本文將詳細介紹Numpy的高級特性,這些特性對於數據分析和處理非常重要。來源:Machine Learning Plus翻譯:石頭目錄1. 如何獲取滿足條設定件的索引2.
  • 清晰易懂的Numpy入門教程
    翻譯 | 石頭來源 | Machine Learning PlusNumpy是python語言中最基礎和最強大的科學計算和數據處理的工具包,如數據分析工具pandas也是基於numpy構建的,機器學習包scikit-learn也大量使用了numpy方法。本文介紹了Numpy的n維數組在數據處理和分析的所有核心應用。
  • Numpy入門教程:10. 統計相關
    統計相關次序統計numpy.amin(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue])Return the minimum of an array or minimum along an axis.
  • Numpy詳細教程
    注意numpy.array和標準Python庫類array.array並不相同,後者只處理一維數組和提供少量功能。更多重要ndarray對象屬性有:ndarray.ndim: 數組軸的個數,在python的世界中,軸的個數被稱作秩ndarray.shape:數組的維度。這是一個指示數組在每個維度上大小的整數元組。
  • 大數據分析Python NumPy庫使用教程
    大數據分析Python NumPy庫使用教程為數據工程師提供有關NumPy的從零開始的培訓。這意味著您不需要具有NumPy的任何經驗,也不會浪費任何時間學習與數據工程工作無關的東西。 在瀏覽了基礎知識之後,您將快速開始使用NumPy來構建和操作二維和三維數組。
  • 入門|數據科學初學者必知的NumPy基礎知識
    這篇教程介紹了數據科學初學者需要了解的 NumPy 基礎知識,包括如何創建 NumPy 數組、如何使用 NumPy 中的廣播機制、如何獲取值以及如何操作數組。更重要的是,大家可以通過本文了解到 NumPy 在 Python 列表中的優勢:更簡潔、更快速地讀寫項、更方便、更高效。本教程將使用 Jupyter notebook 作為編輯器。讓我們開始吧!
  • 深度學習入門教程:手把手帶你用Numpy實現卷積神經網絡(一)
    本教程由深度學習中文社區(Studydl.com)持續發布與更新, 教程中完整代碼已上傳至github上, 可關注我百家號後發送消息"CNN代碼", 獲得地址.前言Numpy是一個非常好用的python科學計算的庫,CNN是現在視覺領域深度學習的基礎之一。
  • CAD製圖初學入門教程之CAD轉PDF
    但是很多CAD製圖初學入門者對此並不了解,所以今天就來給大家分享一下浩辰CAD看圖王電腦版中CAD轉PDF的CAD製圖初學入門教程吧!以上就是浩辰CAD看圖王電腦版中CAD轉PDF的詳細操作步驟,大家在以後的繪圖工作中如果遇到需要將CAD圖紙轉換成PDF格式文件的時候可以參考本篇CAD製圖初學入門教程來解決哦!還不明白的小夥伴可以給我留言哦~關注我get更多CAD入門學習小技巧!
  • 乾貨分享|使用JAX創建神經網絡的對抗性示例(附詳細代碼)
    在本教程中,我們將看到如何創建使用JAX訓練神經網絡的對抗示例。首先,讓我們看一些定義。有哪些例子?簡而言之,對抗性示例是神經網絡的輸入,這些輸入經過優化以欺騙算法,即導致目標變量分類錯誤。通過向目標變量添加「適當的」噪聲,我們可以對目標變量進行錯誤分類。下圖演示了該概念。本教程的重點是演示如何創建對抗示例。我們將使用快速梯度符號法生成。
  • 教程| Numpy的線性代數運算
    因此,NumPy提供了一個用於矩陣乘法的dot函數(既是一個數組方法也是numpy命名空間中的一個函數):.dot(y)等價於np.dot(x, y):一個二維數組跟一個大小合適的一維數組的矩陣點積運算之後將會得到一個一維數組numpy.linalg中有一組標準的矩陣分解運算以及諸如求逆和行列式之類的東西
  • cad製圖初學入門免費教程視頻!300套行業素材模板直接套用送你
    cad製圖初學入門免費教程視頻 ,這裡送你。各行業AutoCAD素材無水印下載直接套用!先來個300套基礎素材圖模板分享給你,更多的素材,CAD每日一圖可以找得到,具體的圖紙演示效果如下:一、餐廳室內裝潢設計圖、視頻講解非常適合室內裝潢設計新手使用的教程是哦,帶有詳細的步驟操作解說,包括餐廳設計的平面圖,地面裝飾,屋頂平面效果圖這裡都是有的。
  • Mathematica數學入門教程【6】 - 幾何圖形
  • 電腦主板維修,從入門到精通,這樣的教程你是否喜歡呢
    大家好,我是你們的蚯蚓叔叔,蚯蚓電腦,有很多粉絲朋友在後臺跟我留言:能否出一套電腦主板維修的相關教程,通過幾個月的慎重考慮,我決定從零基礎到入門再到精通,而且免費的奉獻給大家;那麼就從今天這篇文章開始:
  • 30分鐘入門 Matplotlib 繪圖
    Matplotlib的官網地址http:MatplotlibAPI的詳細介紹請參考官網地址:http:Windows,Linux,Mac 三種作業系統都可以安裝Matplotlib庫。以Windows為例,進入CMD窗口中,使用pip命令安裝Matplotlib,系統會自動進行安裝。
  • Python學習第117課——numpy中dot的運用舉例
    我們現在入門階段知道有這個概念就行,能解決實際問題就行,後面遇到了問題再去深入。現在我們是為了入門,入門之後,你可以根據自身的底子去選擇發展方向。閒話少敘,我們對numpy中的矩陣相乘做一些舉例說明。我們還是使用上節的兩個矩陣為例。上節我們用手寫推導矩陣相乘過程如下:我們現在用代碼演示一下numpy中的矩陣相乘。
  • 硬體工程師入門培訓教程免費下載
    本文檔的主要內容詳細介紹的是硬體工程師入門培訓教程免費下載包括了:   功率電子器件大量被應用於電源、伺服驅動、變頻器、電機保護器等功率電子設備。這些設備都是自動化系統中必不可少的,因此,我們了解它們是必要的。
  • PyTorch 深度學習官方入門中文教程 pdf 下載|PyTorchChina
    官方教程包含了 PyTorch 介紹,安裝教程;60分鐘快速入門教程,可以迅速從小白階段完成一個分類器模型;計算機視覺常用模型,方便基於自己的數據進行調整,不再需要從頭開始寫;自然語言處理模型,聊天機器人,文本生成等生動有趣的項目。
  • Python入門教程(二):Numpy數組基礎
    import numpy as npnp.random.seed(0)  # 設置隨機種子數,保證程序執行時每次都可以生成同樣的隨機數組x1 = np.random.randint(10, size=6)  # 一維數組x2 = np.random.randint(10, size=(3, 4))  # 二維數組,創建三行四列的數組