圖解NumPy,這是理解數組最形象的一份教程了

2020-12-11 機器之心Pro

選自Jay Alammar Blog

作者:Jay Alammar

機器之心編譯

參與:高璇、路

本文用可視化的方式介紹了 NumPy 的功能和使用示例。

NumPy 軟體包是 Python 生態系統中數據分析、機器學習和科學計算的主力軍。它極大地簡化了向量和矩陣的操作處理。Python 的一些主要軟體包(如 scikit-learn、SciPy、pandas 和 tensorflow)都以 NumPy 作為其架構的基礎部分。除了能對數值數據進行切片(slice)和切塊(dice)之外,使用 NumPy 還能為處理和調試上述庫中的高級實例帶來極大便利。

本文將介紹使用 NumPy 的一些主要方法,以及在將數據送入機器學習模型之前,它如何表示不同類型的數據(表格、圖像、文本等)。

import numpy as np

創建數組

我們可以通過傳遞一個 python 列表並使用 np.array()來創建 NumPy 數組(極大可能是多維數組)。在本例中,python 創建的數組如下圖右所示:

通常我們希望 NumPy 能初始化數組的值,為此 NumPy 提供了 ones()、zeros() 和 random.random() 等方法。我們只需傳遞希望 NumPy 生成的元素數量即可:

一旦創建了數組,我們就可以盡情對它們進行操作。

數組運算

讓我們創建兩個 NumPy 數組來展示數組運算功能。我們將下圖兩個數組稱為 data 和 ones:

將它們按位置相加(即每行對應相加),直接輸入 data + ones 即可:

當我開始學習這些工具時,我發現這樣的抽象讓我不必在循環中編寫類似計算。此類抽象可以使我在更高層面上思考問題。

除了「加」,我們還可以進行如下操作:

通常情況下,我們希望數組和單個數字之間也可以進行運算操作(即向量和標量之間的運算)。比如說,我們的數組表示以英裡為單位的距離,我們希望將其單位轉換為千米。只需輸入 data * 1.6 即可:

看到 NumPy 是如何理解這個運算的了嗎?這個概念叫做廣播機制(broadcasting),它非常有用。

索引

我們可以我們像對 python 列表進行切片一樣,對 NumPy 數組進行任意的索引和切片:

聚合

NumPy 還提供聚合功能:

除了 min、max 和 sum 之外,你還可以使用 mean 得到平均值,使用 prod 得到所有元素的乘積,使用 std 得到標準差等等。

更多維度

上述的例子都在一個維度上處理向量。NumPy 之美的關鍵在於,它能夠將上述所有方法應用到任意數量的維度。

創建矩陣

我們可以傳遞下列形狀的 python 列表,使 NumPy 創建一個矩陣來表示它:

np.array([[1,2],[3,4]])

我們也可以使用上面提到的方法(ones()、zeros() 和 random.random()),只要寫入一個描述我們創建的矩陣維數的元組即可:

矩陣運算

如果兩個矩陣大小相同,我們可以使用算術運算符(+-*/)對矩陣進行加和乘。NumPy 將它們視為 position-wise 運算:

我們也可以對不同大小的兩個矩陣執行此類算術運算,但前提是某一個維度為 1(如矩陣只有一列或一行),在這種情況下,NumPy 使用廣播規則執行算術運算:

點乘

算術運算和矩陣運算的一個關鍵區別是矩陣乘法使用點乘。NumPy 為每個矩陣賦予 dot() 方法,我們可以用它與其他矩陣執行點乘操作:

我在上圖的右下角添加了矩陣維數,來強調這兩個矩陣的臨近邊必須有相同的維數。你可以把上述運算視為:

矩陣索引

當我們處理矩陣時,索引和切片操作變得更加有用:

矩陣聚合

我們可以像聚合向量一樣聚合矩陣:

我們不僅可以聚合矩陣中的所有值,還可以使用 axis 參數執行跨行或跨列聚合:

轉置和重塑

處理矩陣時的一個常見需求是旋轉矩陣。當需要對兩個矩陣執行點乘運算並對齊它們共享的維度時,通常需要進行轉置。NumPy 數組有一個方便的方法 T 來求得矩陣轉置:

在更高級的實例中,你可能需要變換特定矩陣的維度。在機器學習應用中,經常會這樣:某個模型對輸入形狀的要求與你的數據集不同。在這些情況下,NumPy 的 reshape() 方法就可以發揮作用了。只需將矩陣所需的新維度賦值給它即可。可以為維度賦值-1,NumPy 可以根據你的矩陣推斷出正確的維度:

再多維度

NumPy 可以在任意維度實現上述提到的所有內容。其中心數據結構被叫作 ndarray(N 維數組)不是沒道理的。

在很多情況下,處理一個新的維度只需在 NumPy 函數的參數中添加一個逗號:

實際用法

以下是 NumPy 可實現的有用功能的實例演示。

公式

實現可用於矩陣和向量的數學公式是 NumPy 的關鍵用例。這就是 NumPy 是 python 社區寵兒的原因。例如均方差公式,它是監督

機器學習

模型處理回歸問題的核心:

在 NumPy 中實現該公式很容易:

這樣做的好處在於,NumPy 並不關心 predictions 和 labels 包含一個值還是一千個值(只要它們大小相同)。我們可以通過一個示例依次執行上面代碼行中的四個操作:

預測和標籤向量都包含三個值,也就是說 n 的值為 3。減法後,得到的值如下:

然後將向量平方得到:

現在對這些值求和:

得到的結果即為該預測的誤差值和模型質量評分。

數據表示

考慮所有需要處理和構建模型所需的數據類型(電子表格、圖像、音頻等),其中很多都適合在 n 維數組中表示:

表格和電子表格

電子表格或值表是二維矩陣。電子表格中的每個工作表都可以是它自己的變量。python 中最流行的抽象是 pandas 數據幀,它實際上使用了 NumPy 並在其之上構建。

音頻和時間序列

音頻文件是樣本的一維數組。每個樣本都是一個數字,代表音頻信號的一小部分。CD 質量的音頻每秒包含 44,100 個樣本,每個樣本是-65535 到 65536 之間的整數。這意味著如果你有一個 10 秒的 CD 質量 WAVE 文件,你可以將它加載到長度為 10 * 44,100 = 441,000 的 NumPy 數組中。如果想要提取音頻的第一秒,只需將文件加載到 audio 的 NumPy 數組中,然後獲取 audio[:44100]。

以下是一段音頻文件:

時間序列數據也是如此(如股票價格隨時間變化)。

圖像

圖像是尺寸(高度 x 寬度)的像素矩陣。

如果圖像是黑白(即灰度)的,則每個像素都可以用單個數字表示(通常在 0(黑色)和 255(白色)之間)。想要裁剪圖像左上角 10 x 10 的像素嗎?在 NumPy 寫入

即可。

下圖是一個圖像文件的片段:

如果圖像是彩色的,則每個像素由三個數字表示——紅色、綠色和藍色。在這種情況下,我們需要一個三維數組(因為每個單元格只能包含一個數字)。因此彩色圖像由尺寸為(高 x 寬 x3)的 ndarray 表示:

語言

如果我們處理文本,情況就不同了。文本的數字表示需要一個構建詞彙表的步驟(模型知道的唯一字清單)和嵌入步驟。讓我們看看用數字表示以下文字的步驟:

模型需要先查看大量文本,再用數字表示這位詩人的話語。我們可以讓它處理一個小數據集,並用它來構建一個詞彙表(71,290 個單詞):

這個句子可以被分成一個 token 數組(基於通用規則的單詞或單詞的一部分):

然後我們用詞彙表中的 ID 替換每個單詞:

這些 ID 仍然沒有為模型提供太多信息價值。因此,在將這一組單詞輸入到模型之前,我們需要用嵌入替換 token/單詞(在本例中為 50 維 word2vec 嵌入):

可以看到,該 NumPy 數組的維度為 [embedding_dimension x sequence_length]。出於性能原因,深度學習模型傾向於保留批大小的第一維(因為如果並行訓練多個示例,模型訓練速度會加快)。在這種情況下,reshape() 變得非常有用。如像 BERT 這樣的模型期望的輸入形式是:[batch_size,sequence_length,embedding_size]。

現在這是 numeric volume 形式,模型可以處理並執行相應操作。其他行雖然留空,但是它們會被填充其他示例以供模型訓練(或預測)。

相關焦點

  • 圖解 NumPy,這是理解數組最形象的一份教程了
    import numpy as np創建數組我們可以通過傳遞一個 python 列表並使用 np.array()來創建 NumPy 數組(極大可能是多維數組)。在本例中,python 創建的數組如下圖右所示:
  • Numpy入門詳細教程
    numpy入門詳細教程python數據科學基礎庫主要是三劍客:numpy,pandas以及matplotlib,每個庫都集成了大量的方法接口,配合使用功能強大。平時雖然一直在用,也看過很多教程,但紙上得來終覺淺,還是需要自己系統梳理總結才能印象深刻。本篇先從numpy開始,對numpy常用的方法進行思維導圖式梳理,多數方法僅拉單列表,部分接口輔以解釋說明及代碼案例。最後分享了個人關於axis和廣播機制的理解。
  • 最全的NumPy教程
    Try it選項,這會把你帶到在線編譯器。5.subok 默認情況下,返回的數組被強制為基類數組。如果為true,則返回子類。6.ndimin 指定返回數組的最小維數。看看下面的例子來更好地理解。這一章中,我們會討論 NumPy 的多種數組屬性。
  • python:numpy入門詳細教程
    平時雖然一直在用,也看過很多教程,但紙上得來終覺淺,還是需要自己系統梳理總結才能印象深刻。本篇先從numpy開始,對numpy常用的方法進行思維導圖式梳理,多數方法僅拉單列表,部分接口輔以解釋說明及代碼案例。最後分享了個人關於axis和廣播機制的理解。
  • python數據科學系列:numpy入門詳細教程
    平時雖然一直在用,也看過很多教程,但紙上得來終覺淺,還是需要自己系統梳理總結才能印象深刻。本篇先從numpy開始,對numpy常用的方法進行思維導圖式梳理,多數方法僅拉單列表,部分接口輔以解釋說明及代碼案例。最後分享了個人關於axis和廣播機制的理解。本文知識要點一級菜單
  • 圖解NumPy,這一篇就夠了
    教程內容分為向量 (一維數組)、矩陣 (二維數組)、三維與更高維數組3個部分。Numpy數組與Python列表在介紹正式內容之前,先讓我們先來了解一下Numpy數組與Python列表的區別。乍一看,NumPy數組類似於Python列表。
  • 這是我見過最好的NumPy圖解教程
    除了數據切片和數據切塊的功能之外,掌握numpy也使得開發者在使用各數據處理庫調試和處理複雜用例時更具優勢。NumPy對這類運算採用對應位置(position-wise)操作處理:矩陣的切片和聚合索引和切片功能在操作矩陣時變得更加有用。可以在不同維度上使用索引操作來對數據進行切片。
  • Python之numpy數組學習(一)
    Numpy中的多維數組稱為ndarray,它有兩個組成部分。在數組的處理過程中,原始數據不受影響,變化的只是元數據。Numpy數組通常是由相同種類的元素組成,即數組中數據類型必須一致。好處是:數組元素類型相同,可輕鬆確定存儲數組所需的空間大小。同時,numpy可運用向量化運算來處理整個數組。Numpy數組的索引從0開始。
  • Python教程:numpy數組初始化為相同的值
    有時我們需要將numpy數組初始化為相同的值,numpy提供了一些方法幫助我們實現這個目的。 1. np.zeros np.zeros返回來一個給定形狀和類型的用0填充的數組。
  • Python之numpy數組學習(三)
    作者  Airy本文轉自AiryData,轉載需授權前面我們學習了numpy庫的簡單應用和數組的處理,今天來學習下比較重要的如何拆分數組。itemsize屬性可以返回數組中各個元素所佔用的字節數。nbytes屬性存儲整個數組所需的字節數量。這個屬性的值正好是itemsize和size屬性值的積。T屬性的作用和transpose()函數相同。如果數組的秩(rank)小於2,那麼所得只是一個數組的視圖。對於numpy來說,複數用j表示。
  • NumPy ndarray合併數組
    在 NumPy 中,合併數組也是最常見的操作之一,下表列舉了常見的用於數組或向量合併的方法。
  • 數據系列教程之numpy( 三)
    數據分析系列教程之numpy( 一)數據分析系列教程之numpy(二)上周講了數據分析入門的前兩節,numpy
  • 看圖學NumPy:掌握n維數組基礎知識點,看這一篇就夠了
    最近,國外有位程式設計師講NumPy的基本運算以圖解的方式寫下來,讓學習過程變得輕鬆有趣。在Reddit機器學習社區發布不到半天就收穫了500+贊。下面就讓我們跟隨他的教程一起來學習吧!教程內容分為向量 (一維數組)、矩陣 (二維數組)、三維與更高維數組3個部分。
  • 別再說學不會:超棒的Numpy可視化學習教程來了!
    作者 | Jay Alammar譯者 | 蘇南下來源 | 機器會學ML(ID:AI_Learning007)學習 Python,尤其是基於 Python 的學習機器學習算法,最基礎的 NumPy 用法必須得熟悉。
  • NumPy ndarray數組的創建
    這裡介紹生成 ndarray 的幾種方式,包括:從已有數據中創建數組直接對 Python 的基礎數據類型(如列表、元組等)進行轉換來生成 ndarray:1) 將列錶轉換成 ndarray:import numpy as npls1 = [10, 42, 0, -17, 30]nd1 =np.array
  • Python之numpy數組學習(四)——索引和視圖
    在學習ravel()函數的時候,我看到了視圖的概念,這讓我很驚訝,但是注意,這裡的視圖和資料庫中的視圖不是一樣的。在numpy中,視圖不是只讀的。關鍵在於,當前處理的是共享的數組視圖,還是數組數據的副本。舉例來說,可以取數組的一部分來生成視圖,這意味著,如果先將數組的某部分賦值給一個變量,然後修改原數組中相應位置的數據,那麼這個變量的值也會隨之變化。
  • 清晰易懂的Numpy進階教程
    推薦閱讀:清晰易懂的Numpy入門教程Numpy是數據分析和科學計算的核心包,上文詳細介紹了Numpy的入門教程,本文將詳細介紹Numpy的高級特性,這些特性對於數據分析和處理非常重要。來源:Machine Learning Plus翻譯:石頭目錄1. 如何獲取滿足條設定件的索引2.
  • Python使用ctypes模塊調用DLL函數之C語言數組與numpy數組傳遞
    前面兩篇已經講了傳遞數值/指針/字符串參數、傳遞結構體參數的例子,大家可以回看一下,這樣可以更好的理解本次要講的內容。詳細細節請參考:一般情況下,DLL函數中傳遞C語言類型的數組,在接收到Python語言中時,通常將其轉換為numpy庫裡面的數組類型,這樣做的好處是可以藉助於numpy強大的分析處理功能對數據直接作後續處理。這次通過例子演示下C語言數組到numpy數組之間是怎樣傳遞的。
  • 手把手的Numpy教程【一】
    Numpy是做什麼的我們很好理解,但是我們可能更加好奇它更深層次的意義究竟是什麼?關於這個問題我們從淺到深不停地追問,可以得到許多不同的答案。最淺層的回答很簡單,Numpy很方便,計算速度快,可以很方便地進行矩陣運算。
  • Python數據分析之numpy數組全解析
    1 什麼是numpy2 numpy數組創建2.1 基本方法:np.array()2.2 通用方法:np.ones()、np.zeros()、np.eye()2.3 讀取外部數據3 numpy中數組的數據類型4 numpy中數組的形狀5 索引與切片5.1 按索引取值