簡介: 深度學習、機器學習、人工智慧——這些流行詞皆代表了分析學的未來。在這篇文章中,我們將通過一些真實世界的案例來解釋什麼是機器學習和深度學習。
戳這裡免費開通百種視覺AI能力
深度學習、機器學習、人工智慧——這些流行詞皆代表了分析學的未來。在這篇文章中,我們將通過一些真實世界的案例來解釋什麼是機器學習和深度學習。在以後的文章中,我們將探索垂直用例。這樣做的目的不是要把你變成一個數據科學家,而是讓你更好地理解你可以用機器學習做什麼。開發人員能越來越容易地使用機器學習,數據科學家時常與領域專家、架構師、開發人員和數據工程師一起工作,因此,詳細了解機器學習的可能性對每個人來說都很重要。你的業務產生的每一條信息都有增加價值的潛力。這篇和以後的文章旨在激發你對自己數據的回顧,以發現新的機會。
什麼是人工智慧?
縱觀人工智慧的歷史,其定義被不斷重寫。人工智慧是一個概括性術語(這個概念始於50年代);機器學習是AI的子集,而深度學習又是機器學習的子集。
1985年,當我還是美國國家安全局的實習生時,人工智慧也是一個非常熱門的話題。在美國國家安全局,我甚至上了一節麻省理工關於人工智慧專家系統的視頻課程。專家系統在規則引擎中捕獲專家的知識。規則引擎在金融和醫療保健等行業中有廣泛的應用,最近更是用於事件處理,但是當數據發生變化時,規則的更新和維護會變得異常困難。機器學習的優勢在於從數據中學習,並且可以提供數據驅動的概率預測。
在過去10年裡,分析學發生了怎樣的變化?
根據《哈佛商業評論》的託馬斯•達文波特,分析技術過去十年裡發生了翻天覆地的變化,跨商用伺服器功能更強大、成本更低的分布式計算,流媒體分析、改進的機器學習技術,都使企業能夠存儲和分析更多的、不同類型的數據。
類似Apache Spark這樣的技術使用迭代算法,通過在內存中跨迭代緩存數據並使用更輕量級的線程,進一步加速了分布式數據的並行處理。
圖形處理單元(GPUs)加快了多核伺服器的並行處理速度。GPU擁有一個由數千個更小、更高效的核心組成的大規模並行架構,這些核心專門設計用於同時處理多任務,而CPU由幾個為順序串行處理而優化的核心組成。就潛在的性能而言,從Cray -1進化到如今擁有大量GPU的集群,其性能提升大約是曾經世界上最快計算機的100萬倍,而成本卻只有其極小一部分。
什麼是機器學習?
機器學習使用算法在數據中發現模式,然後使用一個能識別這些模式的模型對新的數據進行預測。
一般來說,機器學習可以分為三種類型:監督型、非監督型、介於兩者之間。監督學習算法使用標記數據,而非監督學習算法在未標記數據中發現模式。半監督學習使用標記數據和未標記數據的混合。強化學習訓練算法在反饋的基礎上最大化獎勵。
監督學習
監督算法使用標記數據,這些數據的輸入和目標的結果或標籤都會提供給算法。
監督學習也被稱為預測建模或預測分析,因為你建立了一個能夠做出預測的模型。預測建模的一些例子是分類和回歸。分類根據已知項的已標記示例(例如,已知是否為欺詐的交易)來識別一個項屬於哪個類別(例如,某交易是否為欺詐)。邏輯回歸預測了一個概率——例如,欺詐的概率。線性回歸預測一個數值——例如,欺詐的數量。
一些分類的例子包括:
信用卡欺詐檢測(欺詐,不是欺詐)。
信用卡申請(良好信用,不良信用)。
垃圾郵件檢測(垃圾郵件,不是垃圾郵件)。
文字情緒分析(快樂,不快樂)。
預測患者風險(高風險患者、低風險患者)。
惡性或非惡性腫瘤的分類。
邏輯回歸(或其他算法)的一些例子包括:
So線性回歸的一些例子包括:
這裡還有其他的監督和非監督學習算法,我們不會一一介紹,但我們會詳細介紹每類中的一個。
分類示例 :借記卡詐騙
分類選用一組具有已知標籤和預先確定特性的數據,並學習如何根據這些信息標記新數據。特性是你問的「是否」問題。標籤就是這些問題的答案。
讓我們看一個借記卡詐騙的示例。
我們想要預測什麼?
你可以用來進行預測的「 是否 」問題或屬性是什麼?
要構建分類器模型,你需要提取對分類最有貢獻的有用特性。
決策樹
決策樹創建一個基於輸入特徵預測類或標籤的模型。它的工作原理在於評估每個節點上包含一個特徵的問題,然後根據答案選擇到下一個節點的分支。預測借記卡欺詐的可能決策樹如下所示。特性問題是節點,答案「是」或「否」是樹中到子節點的分支。(注意,真正的樹會有更多的節點。)
問題一:24小時內的花費是否大於平均?
問題2:今天是否有多筆交易來自高風險的商家?
決策樹很受歡迎,因為它們易於可視化和解釋。將算法與集成方法相結合,可以提高模型的精度。一個集成例子是一個隨機森林算法,它結合了決策樹的多個隨機子集。
無監督學習
無監督學習,有時也被稱為描述分析,沒有預先提供的標記數據。這些算法發現輸入數據中的相似性或規律。無監督學習的一個例子是基於購買數據對相似的客戶進行分組。
聚類
在聚類中,一個算法通過分析輸入實例之間的相似性將它們分類。一些聚類用例包括:
K均值算法將數據分組到K個集群中,每個數據都屬於離其集群中心均值最近的集群。
聚類的一個例子是,一個公司希望細分其客戶,以便更好地定製產品和服務。客戶可以依據比如人口統計和購買歷史記錄等特徵被分組。為了得到更有價值的結果,無監督學習的聚類常常與有監督學習相結合。例如,在這個banking customer 360用例中,首先根據問卷答案對客戶進行細分。接著對客戶群體進行分析,並標上用戶畫像。然後,這些標籤通過客戶ID與帳戶類型和購買內容等特性進行連結。最後,我們在被標籤的客戶身上應用了監督機器學習,允許將調查用戶畫像與他們的銀行行為聯繫起來,以提供深入的見解。
深度學習
深度學習用來稱呼多層神經網絡,它是由輸入和輸出之間的節點「隱含層」組成的網絡。神經網絡有許多變種,你可以在這個神經網絡備忘單上了解更多。改進的算法、GPUs和大規模並行處理(MPP)使得具有數千層的神經網絡成為可能。每個節點接受輸入數據和一個權重,然後向下一層的節點輸出一個置信值,直到到達輸出層,計算出該置信值的誤差。通過在一個叫做梯度下降的過程中進行反向傳播,誤差會再次通過網絡發送回來,並調整權值來改進模型。這個過程重複了數千次,根據產生的誤差調整模型的權值,直到誤差不無法再減少為止。
在此過程中,各層學習模型的最優特徵,其優點是特徵不需要預先確定。然而,這也意味著一個缺點,即模型的決策是不可解釋的。由於解釋決策可能很重要,研究人員正在開發新的方法來理解深度學習這個黑盒子。
原文:https://www.leiphone.com/news/202011/h810txENV9SQUKf1.html