機器學習中的「維度」是什麼?

2020-12-14 CDA數據分析師

「維度」這個詞在機器學習裡面,應該是一個高頻詞,它經常出現在人們的視野中,比如說隨機森林是通過隨機抽取特徵來建樹,以避免高維計算;再比如說,sklearn中導入特徵矩陣,必須是至少二維;特徵選擇的目的是通過降維來降低算法的計算成本……這些語言都很正常地被我用來使用,直到有一天,一個小夥伴問了我,」維度「到底是什麼?我……

我認真思考之後,總結如下:

1. 對於數組和Series來說

對於數組和Series來說,維度就是功能shape返回的結果,shape中返回了幾個數字,就是幾維。索引以外的數據,不分行列的叫一維(此時shape返回唯一的維度上的數據個數),有行列之分叫二維(shape返回行x列),也稱為表。一張表最多二維,複數的表構成了更高的維度。當一個數組中存在2張3行4列的表時,shape返回的是(更高維,行,列)。當數組中存在2組2張3行4列的表時,數據就是4維,shape返回(2,2,3,4)。

數組中的每一張表,都可以是一個特徵矩陣或一個DataFrame,這些結構永遠只有一張表,所以一定有行列,其中行是樣本,列是特徵。針對每一張表,維度指的是樣本的數量或特徵的數量,一般無特別說明,指的都是特徵的數量。除了索引之外,一個特徵是一維,兩個特徵是二維,n個特徵是n維。

2. 對於圖像來說

對圖像來說,維度就是圖像中特徵向量的數量。特徵向量可以理解為是坐標軸,一個特徵向量定義一條直線,是一維,兩個相互垂直的特徵向量定義一個平面,即一個直角坐標系,就是二維,三個相互垂直的特徵向量定義一個空間,即一個立體直角坐標系,就是三維。三個以上的特徵向量相互垂直,定義人眼無法看見,也無法想像的高維空間。

3. 降維算法中的「降維」

降維算法中的」降維「,指的是降低特徵矩陣中特徵的數量。上周的課中我們說過,降維的目的是為了讓算法運算更快,效果更好,但其實還有另一種需求:數據可視化。從上面的圖我們其實可以看得出,圖像和特徵矩陣的維度是可以相互對應的,即一個特徵對應一個特徵向量,對應一條坐標軸。所以,三維及以下的特徵矩陣,是可以被可視化的,這可以幫助我們很快地理解數據的分布,而三維以上特徵矩陣的則不能被可視化,數據的性質也就比較難理解。

好了,以上就是關於降維的總結啦,如果你有新的見解,歡迎一起探討~

相關焦點

  • 機器學習中的範數究竟是個什麼鬼?
    什麼叫規模,舉個例子,x 和 y 兩個向量分別如下:x:tensor([[1., 1., 1.],[1., 1., 1.],[1., 1., 1.]])y:tensor([0., 0.])  這樣一來,維度很高且各維度上取值都很大的向量指向的點,肯定就比維度低且取值小的點,距離原點更遠些。所以前者的範數更大。那麼在數學上具體是怎麼定義範式的呢?2. 數學定義嚴格來說,範式是一個可以由一個向量映射到一個數值的函數。
  • 機器學習基本概念-維度災難和線性回歸
    上一節機器學習中的基本概念1.4.3 維度災難圖1.17 (a)均值為0、方差為1的高斯pdf,圖由gaussPlotDemo生成。(b)條件密度模型p(y | x,θ) = N(y | w+ wxσ)的可視化。當我們離開回歸線時,密度以指數速度下降。圖由linregWedgeDemo2生成。
  • 機器學習中的分類距離
    生活中,距離通常是用於形容兩個地方或兩個物體之間的遠近。在人工智慧機器學習領域,常使用距離來衡量兩個樣本之間的相似度。「物以類聚」我們知道「物以類聚」通常用於比喻同類的東西經常聚在一起。機器學習中,距離就是遵循物以類聚的思想。
  • 大數據分析與機器學習有什麼區別
    打開APP 大數據分析與機器學習有什麼區別 52sissi 發表於 2020-03-28 16:51:04 如果從更大的角度看,人工智慧也將成為每個增長業務的一部分,越來越多的人熟悉大數據,大數據分析和機器學習等技術術語,並使用它們來解決複雜的分析問題。 通過處理足夠的數據,公司可以使用大數據分析技術來發現,理解和分析資料庫中複雜的原始數據。機器學習是大數據分析的一部分,它使用算法和統計信息來理解提取的數據。
  • Python機器學習10:機器學習中的五種可視化方法(上)
    在機器學習中,通常需要先了解訓練的數據集,才能決定選擇哪種特徵預處理方法、哪種模型,以便獲得問題的最優解法。最有效的了解訓練數據集的方法是可視化訓練數據集,從各種可視化的圖中觀察訓練數據集特徵。本文將介紹如何使用Python機器學習庫Pandas可視化訓練數據集。Pandas是Python中高效的數據加載、數據分析工具,它是基於NumPy實現的,提供了很多有用的函數接口。引言本教程將介紹5中常用的機器學習可視化方法,分別如下所示。
  • 機器學習算法一覽
    2.1 從機器學習問題角度分類我們先從機器學習問題本身分類的角度來看,我們可以分成下列類型的算法:機器學習中有一大部分的問題屬於『監督學習』的範疇,簡單口語化地說明,這類問題中,給定的訓練樣本中,每個樣本的輸入x都對應一個確定的結果y,我們需要訓練出一個模型(數學上看是一個x→y的映射關係
  • 機器學習在馬蜂窩酒店聚合中的應用初探
    為了使酒店聚合更加實時、準確、高效,現在馬蜂窩酒店業務中近 80% 的聚合任務都是由機器自動完成。本文將詳細闡述酒店聚合是什麼,以及時下熱門的機器學習技術在酒店聚合中是如何應用的。如果聚合出現錯誤,就會導致用戶在 App 中看到的酒店不是實際想要預訂的:在上圖中,用戶在 App 中希望打開的是「精途酒店」,但系統可能為用戶訂到了供應商 E 提供的「精品酒店」,對於這類聚合錯誤的酒店我們稱之為 「AB 店」。可以想像,當到店後卻發現沒有訂單,這無疑會給用戶體驗造成災難性的影響。
  • 【入門】機器學習中的線性代數
    數據集和數據文件在機器學習中,你可以在數據集上擬合一個模型。這是表格式的一組數字,其中每行代表一組觀察值,每列代表觀測的一個特徵。該方法通常在機器學習中用於預測較簡單的回歸問題的數值。描述和解決線性回歸問題有很多種方法,即找到一組係數,用這些係數與每個輸入變量相乘並將結果相加,得出最佳的輸出變量預測。如果您使用過機器學習工具或機器學習庫,解決線性回歸問題的最常用方法是通過最小二乘優化,這一方法是使用線性回歸的矩陣分解方法解決的(例如 LU 分解或奇異值分解)。
  • 機器學習中基本的數學符號是什麼?
    在機器學習中,你永遠都繞不過數學符號。通常,只要有一個代數項或一個方程符號看不懂,你就完全看不懂整個過程是怎麼回事了。這種境況非常令人沮喪,尤其是對於那些正在成長中的機器學習初學者來說更是如此。如果你能了解一些基本的數學符號以及相關的小技巧,那你就在看懂機器學習方法的論文或書籍描述上前進了一大步。
  • 機器學習中的正則化到底是什麼意思?
    是否:經常在各種文章或資料中看到正則化,但一直沒有一篇好的文章理清到底什麼是正則化?
  • 機器學習:向量的直觀解釋
    在機器學習中我們經常提到向量,究竟什麼是向量呢?在本文中,我們將首先研究向量的定義,然後對其數學運算進行直觀的解釋。定義向量我們在X、Y數字網格上繪製一個點(1,2),其中X代表水平方向,Y代表垂直方向。我們已經很好地定義了一個向量。
  • 推薦| 機器學習中的這12條經驗,希望對你有所幫助
    機器學習中最大的問題就是「維度災難」除了過擬合,機器學習中最大的問題就是維度災難。這一名詞是由 Bellman 在 1961 年提出的,指的是當輸入維度很高時,許多在低維工作正常的算法將無法正常工作。但是在機器學習中,它的意義更廣。
  • 你真的需要機器學習嗎?
    但對於一家公司、一個部門、一款產品和一位產品經理來說,他們需要一個簡單而重要的答案:我真的需要機器學習嗎?你真的需要機器學習嗎?很多公司和科技博客都在一直鼓吹「人工智慧」代表未來,並提出他們會如何運用「機器學習」來改進科技,在競爭中脫穎而出。但是機器學習到底是什麼,你應該怎麼使用它?又或者它只是2017年的一個時髦熱詞而已?
  • 對話 | 劍橋專家為你揭秘英語測評中的機器學習
    機器學習是什麼?機器學習在英語測評中的應用意義劍橋領思考試研發中寫作評分的機器學習過程劍橋領思考試研發中口語評分的機器學習過程機器學習 (Machine Learning) 是什麼機器學習是一門多領域交叉學科,它基於數學模型,訓練計算機在沒有明確編程的條件下學習、分析以獲取新的知識或技能
  • 科普| 12個關鍵詞,告訴你到底什麼是機器學習
    圖片來源: toptal 編者按:隨著人工智慧(AI)技術對各行各業有越來越深入的影響,我們也更多地在新聞或報告中聽到「機器學習」、「深度學習」、「增強學習 1、  機器學習湯姆·米歇爾教授任職於卡內基梅隴大學計算機學院、機器學習系,根據他在《機器學習》一書中的定義,機器學習是「研究如何打造可以根據經驗自動改善的電腦程式」。機器學習在本質上來說是跨學科的,使用了計算機科學、統計學和人工智慧以及其他學科的知識。機器學習研究的主要產物是算法,可以幫助基於經驗的自動改善。
  • 在機器學習項目中該如何選擇優化器
    本文概述了計算機視覺、自然語言處理和機器學習中常用的優化器。此外,你會找到一個基於三個問題的指導方針,以幫助你的下一個機器學習項目選擇正確的優化器。參考表1並將數據集的屬性與不同優化器的優缺點進行比較。
  • 機器學習中的特徵工程步驟
    特徵工程是機器學習中非常重要的一個步驟,有一種說法是,特徵決定了效果的上限,而不同模型只是以不同的方式或不同的程度來逼近這個上限。
  • [乾貨]漫談:機器學習中距離和相似性度量方法
  • 簡介機器學習中的特徵工程
    要解決一個機器學習問題,我們不能僅僅通過將算法應用到提供的數據上。比如.fit() 。我們首先需要構建一個數據集。將原始數據轉換為數據集的任務稱為特徵工程。例如,預測客戶是否堅持訂閱特定產品。這將有助於進一步提高產品或用戶體驗,還有助於業務增長。
  • 機器學習是什麼?
    而機器學習給予了我們從這些無窮無盡的數據中找出規律並加以利用的可能。在這一系列文章中,我們將一起探秘人工智慧的世界,共同品味藝術、探索科學以及掌握機器學習的工具。一路上,我將為你展現機器學習的魅力並指導你親身體會整個創造的過程。千裡之行,始於足下,我們將從概念開始,逐漸深入到它們背後的技術細節。