什麼是機器學習?為什麼它如此重要?

2020-12-14 雷鋒網

導讀:機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與推斷統計學聯繫尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。很多推論問題屬於無程序可循難度,所以部分的機器學習研究是開發容易處理的近似算法。

機器學習已廣泛應用於數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略遊戲和機器人等領域。

什麼是機器學習?

機器學習是一種數據分析方法,它可以自動分析模型的建築。通過使用迭代學習數據的算法,機器學習可以使電腦在沒有被明確編程看哪裡的情況下,發現隱藏的領域。

迭代在機器學習中是非常重要的,由於它的存在,模型在遇到新的數據時,就可以獨立地適應數據。它們可以從先前產生的可靠計算,重複的決定和結果中進行學習。機器學習並不是一個全新的學科-而是獲得新動力的學科。

由於新型計算技術的產生,如今的機器學習與以往大不相同。儘管很多機器學習算法已經存在了很長時間,但自動將複雜的數學計算應用到大數據的能力(一個又一個,越來越快)是最新的進展。下面這些廣泛宣傳的機器學習應用程式的例子,你可能非常熟悉:

·大量的炒作,Google自動駕駛汽車?機器學習的本質。

·像Amazon和Netflix的在線推薦服務?機器學習在日常生活中的應用

·知道客戶在Twutter上說了什麼關於你的事嗎?機器學習與語言規則創造結合。

·欺詐檢測?在我們現今生活中,一個更明顯的,重要的用途。

為什麼越來越多人對機器學習感興趣?

人們在機器學習方面興趣的復興,也是由於同樣的因素,即數據挖掘和貝葉斯分析比以往更受歡迎。在類似數量增長和可用數據這方面,計算處理更實惠,更強大,且負擔得起數據存儲。

以上所有的因素都暗示著:機器學習可以更快且自動的產生模型,以分析更大,更複雜的數據,而且傳輸更加迅速,結果更加精準——甚至是在非常大的規模中。結果是?在現實中無人類幹涉時,高價值( High-value)的預測可以產生更好的決定,和更明智的行為。

自動模型的建立是在現實中生成明智行動的一大關鍵。分析思想領袖Thomas H. Davenport在華爾街日報上寫道,日新月異,不斷增長的數據,"…你需要快速移動的建模流( fast-moving modeling streams)來保持。"而你可以通過機器學習做到這些。他還說道"人類通常一周可以創建一個或兩個好的模型;而機器學習一周就可以創造出成千上萬的模型."

機器學習如今的應用情況如何?

你曾經是否好奇過,一個在線零售商是如何瞬時的為您提供可能感興趣產品的報價嗎?或貸款人如何對你的貸款請求提供近實時的答覆?我們的許多日常活動都是由機器學習算法驅動的,包括:


機器學習中最流行的學習方法有哪些?

被最廣泛採納的兩大機器學習方法是監督學習( supervised learning )和無監督學習(unsupervised learning)。大多數的機器學習(大概70%)是監督學習。無監督學習大概佔10%-20%。有時也會使用半監督和強化學習這兩個技術。

·監督學習 算法利用標籤實例進行訓練,就像已知所需輸出的輸入。例如,一個設備可以有的數據點標記為「F」(失敗)或「R」(運行)。學習算法收到了一系列有著對應正確輸出的輸入,且算法通過對比實際輸出和正確輸出進行學習,以找出錯誤。然後相應的進行模型修改。通過分類,回歸,預測和梯度提高的方法,監督學習使用模式來預測額外的未標記數據的標籤的值。監督學習被普遍應用於用歷史數據預測未來可能發生的事件。例如,它可以預測,什麼時候信用卡交易可能是欺詐性的,或哪個保險客戶可能提出索賠。

·無監督學習使用無歷史標籤的相反數據。系統不會被告知「正確答案」。算法必須搞明白被呈現的是什麼。其目標是探索數據並找到一些內部結構。無監督學習對事務性數據的處理效果很好。例如,它可以識別有相同屬性的顧客群(可以在市場營銷中被一樣對待)。或者它可以找到主要屬性將客戶群彼此區分開。流行的技術包括自組織映射(self-organizing maps),最近鄰映射( nearest-neighbor mapping),k-均值聚類(k-means clustering )和奇異值分解(singular value decomposition)。這些算法也用於段文本主題,推薦項目,和確定數據異常值。

·半監督學習的應用和監督學習相同。但它同時使用了標籤和無標籤數據進行訓練-通常情況下是少量的標記的數據與大量的未標記的數據(因為未標記的數據並不昂貴,且只需要較少的努力就可獲得)。這種類型的學習可以使用的方法,如分類,回歸和預測。當一個完全標記的培訓過程,其相關標籤的成本太高時,就要用到半監督學習。其中早期的例子包括在網絡攝像頭上識別一個人的臉。

·強化學習經常被用於機器人,遊戲和導航。通過強化學習,該算法通過試驗和錯誤發現行動產生的最大回報。這種類型的學習有三個主要組成部分:代理(學習者或決策者),環境(一切的代理交互)和行動(什麼是代理可以做的)。其目標是代理選擇的行動,可以在一個給定的時間內最大化預期獎勵。通過一個好的策略,代理將更快地達到目標。因此,強化學習的目標是學習最好的策略。

數據挖掘、機器學習和深度學習之間的區別是什麼?

機器學習與其它統計和學習方法的不同之處,如數據挖掘,是辯論的另一個熱門話題。簡單來說,雖然機器學習使用了許多與數據挖掘相同的算法和技術,但其中有一個區別在於這兩個學科的預測:

·數據挖掘是發現以前未知的模式和知識。

·機器學習是用來重現已知的模式和知識,自動應用到其他數據,然後自動的將這些結果應用到決策和行動。

目前電腦的能力逐漸增強也刺激著數據挖掘進化用於機器學習。例如神經網絡很長一段時間內被用於數據挖掘應用。隨著計算能力的增加,你可以創建許多層神經網絡。在機器學習語言中,這些被稱為「深度神經網絡」。正是計算能力的提升確保了自動學習快速的處理很多神經網絡層。

進一步說,人工神經網絡(ANN)是簡單的基於我們對大腦理解的一組算法。ANNs可以-在理論上-模擬數據集中任何種類的關係,但在實踐中要從神經網絡得到可靠的結果,是非常棘手的。人工智慧的研究可以追溯到20世紀50年代——被神經網絡的成功和失敗打上了標籤。

如今,一個被稱為「深度學習」的新神經網絡研究領域,在許多過去人工智慧方法失敗的領域,取得了巨大的成功。

深度學習結合了計算能力和特殊類型的神經網絡,在大量的數據中學習複雜的模式。深度學習技術目前在識別圖像中的目標和聲音中的單詞方面效果最好。研究人員現在正在尋找方法,將這些成功的模式識別到更複雜的任務,如自動語言翻譯,醫療診斷和許多其他重要的社會以及商業問題。

機器學習的算法和過程

算法

SAS的圖形用戶界面,可以幫助你建立機器學習模型,並實現一個迭代機器學習的過程。不要求你是一個高級的統計師。我們可以綜合選擇機器學習算法幫助你快速的從大數據中獲取價值,包括許多SAS產品。SAS的機器學習算法,包括:


工具和過程

正如我們現在所知道的,它不僅僅是算法。最終,從你的大數據中獲得最大價值的秘密在於,將最好的算法與手頭的任務配對:


SAS機器學習的經驗和專業知識

SAS不斷尋找和評估新方法。他們在實施統計方法,以最恰解決你面臨的問題方面有著悠久的歷史。他們將統計和數據挖掘方面豐富的,複雜的遺產與最新的,最先進的結構結合,以確保您的模型儘可能快的運行(甚至是在巨大的企業環境中)。

我們明白,快速的時間值不僅意味著快速,自動化模型的性能,還包括在平臺之間數據移動所需要的時間——尤其針於大數據。高性能,分布式的分析技術,受益於結合Hadoop,和所有主要數據基礎的大規模並行處理。您可以快速地循環建模過程的所有步驟——在沒有移動數據的情況下。

via:SAS

PS : 本文由雷鋒網(公眾號:雷鋒網)獨家編譯,未經許可拒絕轉載!


雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 想讓機器學習與商業結合,最重要的是什麼?
    在機器學習方面,企業最常面臨的問題是什麼呢?除了培養機器學習模型,我們還能做什麼?如何準備數據?如何擴大數據集?為什麼特徵工程如此關鍵?如何將模型運用到生產實踐,成為完全可行的系統呢中?如果能從開源軟體中獲取所有的數據科學工具,數據科學平臺還有存在的意義嗎?
  • 機器學習應用的未來是什麼?微型化
    這對機器學習意味著什麼? 如果你接受上面的所有觀點,那麼很明顯,有一個巨大的尚未開發的市場等待著用正確的技術來開啟。我們需要一種能在廉價的微控制器上工作的東西,它只需要很少的能量,它依賴於計算而不是無線電,它能把我們所有浪費的傳感器數據變成有用的東西。這就是機器學習,尤其是深度學習所填補的空白。
  • 為什麼自我概念會如此重要?
    把這些內容揉到一起是什麼? 是我們的小宇宙! 靠逼迫自己去做什麼事的話 是無法堅持的。
  • 為什麼CPU的製造工藝如此重要,它究竟是什麼意思?
    我們經常看到intel CPU的參數列表裡製作工藝14nm,AMD最新Ryzen是12nm,幾乎每一次大的CPU的升級迭代都會帶來製造工藝的升級,那麼為什麼CPU如此看重製造工藝呢?CPU製造工藝又叫做CPU製程,它的先進與否決定了CPU的性能優劣。我們都知道製作CPU非常困難,世界上也只有幾大廠家能生產,這也是我們的晶片技術落後被人控制源頭的原因。而製作工藝也代表了CPU製作的高精尖技術,製作工藝越高級,nm數越低,但是難度就越大。比如intel的10nm工藝遲遲無法推出。
  • 為什麼堅持學習,對我們自己如此重要?
    還有一個更重要的原因是,今天聽所謂的「專業」人士談觀點時,被那種「狹隘」的認識驚到了,如果不表達一下自己的看法,估計沒有辦法安心睡覺。於是,我來了。今天要說的,還是一個老生常談的話題——活到老,學到老。為什麼一直強調堅持學習這個事情呢?
  • 什麼是機器學習?看完就明白了
    半監督學習是最近比較流行的方法。(4)強化學習強化學習是一種比較複雜的機器學習方法,強調系統與外界不斷的交互反饋,它主要是針對流程中不斷需要推理的場景,比如無人汽車駕駛,它更多關注性能。它是機器學習中的熱點學習方法。3.
  • 馬卡龍是什麼 為什麼大家都如此喜愛它
    馬卡龍是什麼?為什麼大家都對它如此青睞?為什麼一些高格調曬照的人總會曬它?為什麼說它是不是甜點的甜點?想知道這些問題的答案?下面這篇文章也許對你有用。馬卡龍是一種主要由杏仁粉、蛋清、糖粉、細砂糖四種材料搭配上其它不同的顏色和味道及餡料的一種法式「甜點」。
  • 深度| 為什麼隨機性對於深度學習如此重要?
    那這些技術有什麼相同的呢?答案是他們都利用了隨機性!所以,隨機性對於一個想輸出多元最優估計的網絡十分重要,而不是一遍遍重複輸出相同的結果。迫使深度神經網絡學到簡潔表示這個隨機性的定義(指「隨機性是不可以被壓縮的量」,譯者注)與隨機性有什麼聯繫呢?隨機性嵌入到深度神經網絡的另一種途徑是直接將噪聲嵌入到網絡本身,這與用深度神經網絡去模擬一個分布不同。這種途徑使得學習任務變得更加困難,因為網絡需要克服這些內在的「擾動」。我們到底為什麼想要在網絡中引入噪聲?
  • 人工智慧之機器學習ML 學習筆記乾貨
    我們經常看到這幾個熱詞: 人工智慧( ArtificialIntelligence )、機器學習( MachineLearning )和深度學習 (DeepLearning) ,但是它們之間究竟有什麼 區別和聯繫呢?
  • 什麼是情商?為什麼它在我們的生活中很重要?
    說到情商,它對於我們的生活確實很重要。情緒智力,即情商,是我們社會中的一個新詞。你可能會或可能不會進行情緒智力測試(或者甚至不知道那是什麼),但這個詞是一個男人和女人,有興趣改善友誼和各種關係,應該了解更多。什麼是情商?
  • 卷積為什麼如此強大?理解深度學習中的卷積
    卷積現在可能是深度學習中最重要的概念。正是靠著卷積和卷積神經網絡,深度學習才超越了幾乎其他所有的機器學習手段。但卷積為什麼如此強大?它的原理是什麼?在這篇文章將講解卷積及相關概念,幫助你徹底地理解它。1.1 什麼是卷積?整篇文章都會探討這個問題,但先把握行文脈絡會很有幫助。那麼粗略來講,什麼是卷積呢?你可以把卷積想像成一種混合信息的手段。
  • 為什麼閱讀是如此重要的英語語言技能?
    為什麼閱讀是如此重要的英語語言技能?閱讀英語是語言學習的一個重要部分,因為它可以幫助你發展其他相關技能,如語法、詞彙和寫作。閱讀可以讓語言學習者探索他們喜歡的話題和吸引他們的故事。Learning English is not just learning vocabulary and grammar.
  • 什麼是機器學習及其應用?我們來進一步討論一下它們的定義!
    多年來,許多行業一直在探索將人工智慧(AI)納入其服務的方法,因為它可以提供競爭優勢。由於它是一項不斷發展的技術,因此對AI的探索帶來了子概念。雲趣科技認為人工智慧是最重要的概念之一,它是機器學習,由亞瑟·塞繆爾在1959年提出,是「使計算機無需明確編程即可學習的能力的研究領域」。
  • 數學的神奇,人工智慧機器為什麼能學習,到底怎麼做的?
    最近這幾年,人工智慧這個領域特別引人注目,它能讓機器自己學習知識並增長其智力,處理視覺圖像信息,並最終輸出人們所需要的結果。這項技術的應用領域十分廣泛,包括醫學圖像分析, 汽車無人駕駛,氣象數據分析與預報,聲音識別交互,農業智能化管理等。機器為什麼能學習? 它究竟是怎麼學的? 這一切都要回歸到數學。
  • 用Python 做機器學習不得不收藏的重要庫
    Shubhi Asthana 翻譯 | 就2 校對 | 就2 整理 | 菠蘿妹 原文連結: https://medium.freecodecamp.org/essential-libraries-for-machine-learning-in-python-82a9ada57aeb 用 Python 做機器學習不得不收藏的重要庫
  • 統計學家範劍青:機器是怎麼學習金融的?
    如今深度學習之所以能如此成功,範劍青認為它是權衡偏差和方差的有效方法,深度網絡使高維函數更加靈活,大數據降低了統計方差,而現在計算技術使大數據深度學習得到有效的實現。 範劍青認為,在經濟金融、生物醫學、管理決策和人文社會中,機器學習有很多挑戰和機遇。由於個體差異大,數據集未知,現在發生的事情與幾年後的變量完全不一樣,難以提取特徵,需要各學科交叉。
  • 為什麼科學對我們如此重要
    科學發展一路浩蕩前進,但如此種種待解疑惑卻也如影隨形。在中國這個地方,對科學的理解是長期缺失的,為什麼中國人會誤解科學、錯失科學,從而影響整個中國科學的發展、社會的發展呢?所以,這一次的西學東漸,才開啟了中國全方位的向西方學習,一直延續到現在。中國人喜歡科學,不情不願、被逼無奈,這是一個基本點。中國人對科學抱著一個三心二意的態度,什麼態度呢?就是第二次西學東漸有個口號叫做「師夷長技以制夷」,夷就是洋人,師就是學習,學習洋人的長技,用有償之技來反制它,這時候我們到現在肯定還是這個想法,我們中國人搞科學是為什麼?我們還是想著要師夷長技以制夷。
  • 如何自學機器學習?
    https://www.bilibili.com/video/av50747658它有19個小時,我看完它用了將近兩個月,我建議你也不要看的太急。當看完這些教程之後,你就對機器學習有了清晰的認知。接下來,你可以感性的認識一下深度學習,我同樣推薦Andrew的課。
  • 王林:兒童閱讀為什麼如此重要
    分享主題: 方面是兒童閱讀,為什麼如此重要;          如何提升孩子的讀寫能力。我認為這個觀點可能對小學生來說就更加的重要。大家都知道母語是學習所有學科的基礎。我們用一個最簡單的辦法來舉例,如果一個孩子語文沒有學好,生字生詞沒有學好,理解能力很差,那麼他讀數學題都讀不懂,看教科書都看不懂,還能談得上什麼基本的學習呢,我想這是一個最普遍的,也最樸素的一個道理。
  • 什麼是 Unix 以及它為什麼這麼重要?
    最初發布的Unix中的一些重要設計因素到如今都還在使用。其中一個設計是「Unix哲學」,建立小的模塊化的應用,只做一件事情並把它做好。如果你對Linux終端很熟悉的話,應該對這個不陌生-系統提供了大量的應用,可以通過管道或其他特性形成不同的組合來完成更複雜的任務。甚至圖形界面程序也經常會在後臺調用更簡單的應用去做比較耗時的任務。