導讀:機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與推斷統計學聯繫尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。很多推論問題屬於無程序可循難度,所以部分的機器學習研究是開發容易處理的近似算法。
機器學習已廣泛應用於數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略遊戲和機器人等領域。
機器學習是一種數據分析方法,它可以自動分析模型的建築。通過使用迭代學習數據的算法,機器學習可以使電腦在沒有被明確編程看哪裡的情況下,發現隱藏的領域。
迭代在機器學習中是非常重要的,由於它的存在,模型在遇到新的數據時,就可以獨立地適應數據。它們可以從先前產生的可靠計算,重複的決定和結果中進行學習。機器學習並不是一個全新的學科-而是獲得新動力的學科。
由於新型計算技術的產生,如今的機器學習與以往大不相同。儘管很多機器學習算法已經存在了很長時間,但自動將複雜的數學計算應用到大數據的能力(一個又一個,越來越快)是最新的進展。下面這些廣泛宣傳的機器學習應用程式的例子,你可能非常熟悉:
·大量的炒作,Google自動駕駛汽車?機器學習的本質。
·像Amazon和Netflix的在線推薦服務?機器學習在日常生活中的應用
·知道客戶在Twutter上說了什麼關於你的事嗎?機器學習與語言規則創造結合。
·欺詐檢測?在我們現今生活中,一個更明顯的,重要的用途。
人們在機器學習方面興趣的復興,也是由於同樣的因素,即數據挖掘和貝葉斯分析比以往更受歡迎。在類似數量增長和可用數據這方面,計算處理更實惠,更強大,且負擔得起數據存儲。
以上所有的因素都暗示著:機器學習可以更快且自動的產生模型,以分析更大,更複雜的數據,而且傳輸更加迅速,結果更加精準——甚至是在非常大的規模中。結果是?在現實中無人類幹涉時,高價值( High-value)的預測可以產生更好的決定,和更明智的行為。
自動模型的建立是在現實中生成明智行動的一大關鍵。分析思想領袖Thomas H. Davenport在華爾街日報上寫道,日新月異,不斷增長的數據,"…你需要快速移動的建模流( fast-moving modeling streams)來保持。"而你可以通過機器學習做到這些。他還說道"人類通常一周可以創建一個或兩個好的模型;而機器學習一周就可以創造出成千上萬的模型."
你曾經是否好奇過,一個在線零售商是如何瞬時的為您提供可能感興趣產品的報價嗎?或貸款人如何對你的貸款請求提供近實時的答覆?我們的許多日常活動都是由機器學習算法驅動的,包括:
被最廣泛採納的兩大機器學習方法是監督學習( supervised learning )和無監督學習(unsupervised learning)。大多數的機器學習(大概70%)是監督學習。無監督學習大概佔10%-20%。有時也會使用半監督和強化學習這兩個技術。
·監督學習 算法利用標籤實例進行訓練,就像已知所需輸出的輸入。例如,一個設備可以有的數據點標記為「F」(失敗)或「R」(運行)。學習算法收到了一系列有著對應正確輸出的輸入,且算法通過對比實際輸出和正確輸出進行學習,以找出錯誤。然後相應的進行模型修改。通過分類,回歸,預測和梯度提高的方法,監督學習使用模式來預測額外的未標記數據的標籤的值。監督學習被普遍應用於用歷史數據預測未來可能發生的事件。例如,它可以預測,什麼時候信用卡交易可能是欺詐性的,或哪個保險客戶可能提出索賠。
·無監督學習使用無歷史標籤的相反數據。系統不會被告知「正確答案」。算法必須搞明白被呈現的是什麼。其目標是探索數據並找到一些內部結構。無監督學習對事務性數據的處理效果很好。例如,它可以識別有相同屬性的顧客群(可以在市場營銷中被一樣對待)。或者它可以找到主要屬性將客戶群彼此區分開。流行的技術包括自組織映射(self-organizing maps),最近鄰映射( nearest-neighbor mapping),k-均值聚類(k-means clustering )和奇異值分解(singular value decomposition)。這些算法也用於段文本主題,推薦項目,和確定數據異常值。
·半監督學習的應用和監督學習相同。但它同時使用了標籤和無標籤數據進行訓練-通常情況下是少量的標記的數據與大量的未標記的數據(因為未標記的數據並不昂貴,且只需要較少的努力就可獲得)。這種類型的學習可以使用的方法,如分類,回歸和預測。當一個完全標記的培訓過程,其相關標籤的成本太高時,就要用到半監督學習。其中早期的例子包括在網絡攝像頭上識別一個人的臉。
·強化學習經常被用於機器人,遊戲和導航。通過強化學習,該算法通過試驗和錯誤發現行動產生的最大回報。這種類型的學習有三個主要組成部分:代理(學習者或決策者),環境(一切的代理交互)和行動(什麼是代理可以做的)。其目標是代理選擇的行動,可以在一個給定的時間內最大化預期獎勵。通過一個好的策略,代理將更快地達到目標。因此,強化學習的目標是學習最好的策略。
機器學習與其它統計和學習方法的不同之處,如數據挖掘,是辯論的另一個熱門話題。簡單來說,雖然機器學習使用了許多與數據挖掘相同的算法和技術,但其中有一個區別在於這兩個學科的預測:
·數據挖掘是發現以前未知的模式和知識。
·機器學習是用來重現已知的模式和知識,自動應用到其他數據,然後自動的將這些結果應用到決策和行動。
目前電腦的能力逐漸增強也刺激著數據挖掘進化用於機器學習。例如神經網絡很長一段時間內被用於數據挖掘應用。隨著計算能力的增加,你可以創建許多層神經網絡。在機器學習語言中,這些被稱為「深度神經網絡」。正是計算能力的提升確保了自動學習快速的處理很多神經網絡層。
進一步說,人工神經網絡(ANN)是簡單的基於我們對大腦理解的一組算法。ANNs可以-在理論上-模擬數據集中任何種類的關係,但在實踐中要從神經網絡得到可靠的結果,是非常棘手的。人工智慧的研究可以追溯到20世紀50年代——被神經網絡的成功和失敗打上了標籤。
如今,一個被稱為「深度學習」的新神經網絡研究領域,在許多過去人工智慧方法失敗的領域,取得了巨大的成功。
深度學習結合了計算能力和特殊類型的神經網絡,在大量的數據中學習複雜的模式。深度學習技術目前在識別圖像中的目標和聲音中的單詞方面效果最好。研究人員現在正在尋找方法,將這些成功的模式識別到更複雜的任務,如自動語言翻譯,醫療診斷和許多其他重要的社會以及商業問題。
算法
SAS的圖形用戶界面,可以幫助你建立機器學習模型,並實現一個迭代機器學習的過程。不要求你是一個高級的統計師。我們可以綜合選擇機器學習算法幫助你快速的從大數據中獲取價值,包括許多SAS產品。SAS的機器學習算法,包括:
工具和過程
正如我們現在所知道的,它不僅僅是算法。最終,從你的大數據中獲得最大價值的秘密在於,將最好的算法與手頭的任務配對:
SAS不斷尋找和評估新方法。他們在實施統計方法,以最恰解決你面臨的問題方面有著悠久的歷史。他們將統計和數據挖掘方面豐富的,複雜的遺產與最新的,最先進的結構結合,以確保您的模型儘可能快的運行(甚至是在巨大的企業環境中)。
我們明白,快速的時間值不僅意味著快速,自動化模型的性能,還包括在平臺之間數據移動所需要的時間——尤其針於大數據。高性能,分布式的分析技術,受益於結合Hadoop,和所有主要數據基礎的大規模並行處理。您可以快速地循環建模過程的所有步驟——在沒有移動數據的情況下。
via:SAS
PS : 本文由雷鋒網(公眾號:雷鋒網)獨家編譯,未經許可拒絕轉載!
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。