機器學習中的「維度」是什麼?

2020-12-03 CDA數據分析師

「維度」這個詞在機器學習裡面,應該是一個高頻詞,它經常出現在人們的視野中,比如說隨機森林是通過隨機抽取特徵來建樹,以避免高維計算;再比如說,sklearn中導入特徵矩陣,必須是至少二維;特徵選擇的目的是通過降維來降低算法的計算成本……這些語言都很正常地被我用來使用,直到有一天,一個小夥伴問了我,」維度「到底是什麼?我……

我認真思考之後,總結如下:

1. 對於數組和Series來說

對於數組和Series來說,維度就是功能shape返回的結果,shape中返回了幾個數字,就是幾維。索引以外的數據,不分行列的叫一維(此時shape返回唯一的維度上的數據個數),有行列之分叫二維(shape返回行x列),也稱為表。一張表最多二維,複數的表構成了更高的維度。當一個數組中存在2張3行4列的表時,shape返回的是(更高維,行,列)。當數組中存在2組2張3行4列的表時,數據就是4維,shape返回(2,2,3,4)。

數組中的每一張表,都可以是一個特徵矩陣或一個DataFrame,這些結構永遠只有一張表,所以一定有行列,其中行是樣本,列是特徵。針對每一張表,維度指的是樣本的數量或特徵的數量,一般無特別說明,指的都是特徵的數量。除了索引之外,一個特徵是一維,兩個特徵是二維,n個特徵是n維。

2. 對於圖像來說

對圖像來說,維度就是圖像中特徵向量的數量。特徵向量可以理解為是坐標軸,一個特徵向量定義一條直線,是一維,兩個相互垂直的特徵向量定義一個平面,即一個直角坐標系,就是二維,三個相互垂直的特徵向量定義一個空間,即一個立體直角坐標系,就是三維。三個以上的特徵向量相互垂直,定義人眼無法看見,也無法想像的高維空間。

3. 降維算法中的「降維」

降維算法中的」降維「,指的是降低特徵矩陣中特徵的數量。上周的課中我們說過,降維的目的是為了讓算法運算更快,效果更好,但其實還有另一種需求:數據可視化。從上面的圖我們其實可以看得出,圖像和特徵矩陣的維度是可以相互對應的,即一個特徵對應一個特徵向量,對應一條坐標軸。所以,三維及以下的特徵矩陣,是可以被可視化的,這可以幫助我們很快地理解數據的分布,而三維以上特徵矩陣的則不能被可視化,數據的性質也就比較難理解。

好了,以上就是關於降維的總結啦,如果你有新的見解,歡迎一起探討~

相關焦點

  • 機器學習中的分類距離
    生活中,距離通常是用於形容兩個地方或兩個物體之間的遠近。在人工智慧機器學習領域,常使用距離來衡量兩個樣本之間的相似度。「物以類聚」我們知道「物以類聚」通常用於比喻同類的東西經常聚在一起。機器學習中,距離就是遵循物以類聚的思想。通過兩個樣本特徵數據進行距離計算後,得到的距離值越小,代表兩者的相似度越高,屬於同一類的可能性就越高。
  • 機器學習是什麼
    講解對象:機器學習是什麼作者:融水公子 rsgz對象:機器學習是什麼英文名:machine learning又稱:預測分析(predictive analytics)或統計學習(statistical learning)實質
  • 機器學習在馬蜂窩酒店聚合中的應用初探
    為了使酒店聚合更加實時、準確、高效,現在馬蜂窩酒店業務中近 80% 的聚合任務都是由機器自動完成。本文將詳細闡述酒店聚合是什麼,以及時下熱門的機器學習技術在酒店聚合中是如何應用的。如果聚合出現錯誤,就會導致用戶在 App 中看到的酒店不是實際想要預訂的:在上圖中,用戶在 App 中希望打開的是「精途酒店」,但系統可能為用戶訂到了供應商 E 提供的「精品酒店」,對於這類聚合錯誤的酒店我們稱之為 「AB 店」。可以想像,當到店後卻發現沒有訂單,這無疑會給用戶體驗造成災難性的影響。
  • 機器學習:Python中的四種機器學習技巧
    機器學習技術與算法眾所周知,機器學習是技術和算法的結合。但在開始關注技術和算法之前,讓我們看看它們是否是同一個東西。技術是解決問題的一種方法,這是一個非常通用的術語。 但是,當我們說我們有一個算法時,意思是我們有一個輸入,並希望從中得到一定的輸出,明確規定了實現目標的步驟。
  • 機器學習:向量的直觀解釋
    在機器學習中我們經常提到向量,究竟什麼是向量呢?在本文中,我們將首先研究向量的定義,然後對其數學運算進行直觀的解釋。定義向量我們在X、Y數字網格上繪製一個點(1,2),其中X代表水平方向,Y代表垂直方向。我們已經很好地定義了一個向量。
  • 機器學習在搜索中的應用:個性化排序
    編輯導語:隨著科技的發展,AI、機器學習等逐漸出現在我們的生活裡,有了這些的出現,我們進行搜索時會變得更加準確和智能;本文作者詳細介紹了機器學習在搜索中的應用,我們一起來看一下。AI、機器學習,是現在媒體的高頻曝光詞,市面上的很多應用都逐漸接入了AI的能力;搜索這樣的『古董』級產品,其實也是應用機器學習技術的先驅。本次從搜索的一個場景——搜索結果排序,來聊聊機器學習在搜索產品中的應用。
  • 科普| 12個關鍵詞,告訴你到底什麼是機器學習
    > 圖片來源: toptal 編者按:隨著人工智慧(AI)技術對各行各業有越來越深入的影響,我們也更多地在新聞或報告中聽到 1、  機器學習湯姆·米歇爾教授任職於卡內基梅隴大學計算機學院、機器學習系,根據他在《機器學習》一書中的定義,機器學習是「研究如何打造可以根據經驗自動改善的電腦程式」。機器學習在本質上來說是跨學科的,使用了計算機科學、統計學和人工智慧以及其他學科的知識。機器學習研究的主要產物是算法,可以幫助基於經驗的自動改善。
  • 數據科學和機器學習面試問題集錦
    在過去的幾個月裡,我面試了許多公司涉及數據科學和機器學習的初級職位。介紹一下我自己,以讓你對我有一定了解。我還有最後幾個月就研究生畢業,我的碩士是機器學習和計算機視覺,我之前的大部分經驗是研究/學術,但在一個早期創業公司待過8個月(與機器學習無關)。這些角色包括數據科學、通用機器學習和專精自然語言處理及計算機視覺。
  • 算法應用|機器學習python應用,簡單機器學習項目實踐
    上一篇文章中介紹了機器學習的簡單知識,還有python中進行機器學習實踐需要的生態環境,接下來將會通過鳶尾花分類這個例子對機器學習做一個簡要的介紹。通過一步一步地實現這個項目來介紹以下內容。導入和使用python中機器學習的各個方面的類庫。導入數據,並通過描述性分析、可視化等對數據進行分析。創建六個模型,並從中選擇準確度最高的模型。
  • 機器學習在生命科學中的應用
    歐洲分子生物學實驗室於4月11日在Nature Reviews Drug Discovery發表了一篇關於機器學習在drug-develop開發中應用的綜述文章,該文章概述了當前機器學習中使用的工具和技術,並概述了迄今為止機器學習在關鍵drug-develop領域中取得的進展。
  • 機器學習中距離和相似性度量方法
    作者 | daniel-D來源 | http://www.cnblogs.com/daniel-D/p/3244718.html在機器學習和數據挖掘中
  • 機器學習 梯度到底是什麼
    梯度,到底是什麼?很容易混淆。站在山底,哪個方向爬坡最快,這個容易想像,但問題是,如果所在的高度是我們優化的目標的話,這個爬坡的方向並不是梯度的方向,這個是我們的目標值(函數值)的變化趨勢。我們先看一下定義:即:梯度是一個向量,而向量就有方向,該方向是方向導數取得最大值的方向,那方向導數是什麼?可見:方向導數是一個數方向指的是函數定義域的內點變化的方向 綜上,自變量沿著該方向變化,使函數值變化最大,機器學習中,函數值就是我們的優化目標。當函數值是損失函數值的時候,我們期望的是最小值,這個時候取梯度的反方向,即梯度下降即可。
  • 五大維度揭秘機器學習技術「附下載...
    機器學習已經成為了當今的熱門話題,但是從機器學習這個概念誕生到機器學習技術的普遍應用經過了漫長的過程。在機器學習發展的歷史長河中,眾多優秀的學者為推動機器學習的發展做出了巨大的貢獻。從 1642 年 Pascal 發明的手搖式計算機,到 1949 年 Donald Hebb 提出的赫布理論——解釋學習過程中大腦神經元所發生的變化,都蘊含著機器學習思想的萌芽。
  • 每個詞會訓練一個單詞向量,直到得到詞向量空間中維度最大的向量
    大數據等高新技術飛速發展的今天,深度學習在計算機視覺、機器學習、自然語言處理等領域取得了突破性進展,nlp領域也取得了很大進展。只有充分理解、掌握深度學習技術,才能在工作中做到用人人工智慧,人人都可以完成機器學習算法的部署,成為一名機器學習工程師。
  • 機器學習與深度學習有什麼區別?
    近年來,隨著科技的快速發展,人工智慧不斷進入我們的視野中。作為人工智慧的核心技術,機器學習和深度學習也變得越來越火。一時間,它們幾乎成為了每個人都在談論的話題。那麼,機器學習和深度學習到底是什麼,它們之間究竟有什麼不同呢? 什麼是機器學習?
  • 資料| 機器學習中的數學
    以下書籍介紹來自豆瓣內容簡介 · · · · · ·《機器學習中的數學》是一本系統介紹機器學習中涉及的數學知識的入門圖書,本書從機器學習中的數學入門開始,以展示數學的友好性為原則,講述了機器學習中的一些常見的數學知識
  • 分享實錄 | 第四範式程曉澄:機器學習在推薦系統中的應用
    主講人:程曉澄 | 第四範式資深算法科學家 屈鑫 整理編輯 量子位 出品 | 公眾號 QbitAI 9月20日晚,量子位邀請到第四範式資深算法科學家程曉澄, 他以「機器學習在推薦系統中的應用」為題,與大家分享了 如何用機器學習來優化推薦系統相關技術問題 。
  • 機器學習中的數學意義
    字幕組雙語原文:機器學習中的數學意義英語原文:Digit Significance in Machine Learning翻譯:雷鋒字幕組(聽風1996)機器學習中的用於聲稱性能的指標標準很少被討論它源於這個簡單的前提,這是我的科學老師從中學開始就灌輸給我的:科學報告的一般規則是,您寫下的每個數字都應為「 真」的,因為「 真」的定義是什麼。    讓我們來研究一下這對測試性能等統計量意味著什麼。當你在科學出版物中寫下以下陳述時:測試準確率為52.34%。
  • 宇宙中存在多個維度,如果人類誤入高維度,會發生什麼?
    談到多維時空,很多人都會感到頭暈目眩,因為,一直以來,大家都認為,自己所處的時空是一種,但是實際上,即使是我們所處的世界,也被分成了多個維度,只是我們不知道,那麼我們的世界又分成了幾個維度?回答是0維,1維,2維,在0-1維空間中,暫時沒有發現有生命的存在,而2維空間中存在有生命的存在,這就是我們常說的蟲蟻,為什麼說它們是二維生命?
  • 什麼是維度空間?
    什麼是維度空間?空間是用來容納物體的容器,物體在空間中具有體積大小,形態各異的兩種特徵。從物體的角度來談論維度,則是指用來描述物體的幾何圖形所需的參數數量,例如一個房子用長、寬、高三個參數,就可以用來描述其房子的幾何圖形。