揭開AI、機器學習和深度學習的神秘面紗

2020-11-05 AI前哨站

簡介: 深度學習、機器學習、人工智慧——這些流行詞皆代表了分析學的未來。在這篇文章中,我們將通過一些真實世界的案例來解釋什麼是機器學習和深度學習。


戳這裡免費開通百種視覺AI能力


深度學習、機器學習、人工智慧——這些流行詞皆代表了分析學的未來。在這篇文章中,我們將通過一些真實世界的案例來解釋什麼是機器學習和深度學習。在以後的文章中,我們將探索垂直用例。這樣做的目的不是要把你變成一個數據科學家,而是讓你更好地理解你可以用機器學習做什麼。開發人員能越來越容易地使用機器學習,數據科學家時常與領域專家、架構師、開發人員和數據工程師一起工作,因此,詳細了解機器學習的可能性對每個人來說都很重要。你的業務產生的每一條信息都有增加價值的潛力。這篇和以後的文章旨在激發你對自己數據的回顧,以發現新的機會。

什麼是人工智慧?

縱觀人工智慧的歷史,其定義被不斷重寫。人工智慧是一個概括性術語(這個概念始於50年代);機器學習是AI的子集,而深度學習又是機器學習的子集。

1985年,當我還是美國國家安全局的實習生時,人工智慧也是一個非常熱門的話題。在美國國家安全局,我甚至上了一節麻省理工關於人工智慧專家系統的視頻課程。專家系統在規則引擎中捕獲專家的知識。規則引擎在金融和醫療保健等行業中有廣泛的應用,最近更是用於事件處理,但是當數據發生變化時,規則的更新和維護會變得異常困難。機器學習的優勢在於從數據中學習,並且可以提供數據驅動的概率預測。

在過去10年裡,分析學發生了怎樣的變化?
根據《哈佛商業評論》的託馬斯•達文波特,分析技術過去十年裡發生了翻天覆地的變化,跨商用伺服器功能更強大、成本更低的分布式計算,流媒體分析、改進的機器學習技術,都使企業能夠存儲和分析更多的、不同類型的數據。

類似Apache Spark這樣的技術使用迭代算法,通過在內存中跨迭代緩存數據並使用更輕量級的線程,進一步加速了分布式數據的並行處理。

圖形處理單元(GPUs)加快了多核伺服器的並行處理速度。GPU擁有一個由數千個更小、更高效的核心組成的大規模並行架構,這些核心專門設計用於同時處理多任務,而CPU由幾個為順序串行處理而優化的核心組成。就潛在的性能而言,從Cray -1進化到如今擁有大量GPU的集群,其性能提升大約是曾經世界上最快計算機的100萬倍,而成本卻只有其極小一部分。

什麼是機器學習?
機器學習使用算法在數據中發現模式,然後使用一個能識別這些模式的模型對新的數據進行預測。

一般來說,機器學習可以分為三種類型:監督型、非監督型、介於兩者之間。監督學習算法使用標記數據,而非監督學習算法在未標記數據中發現模式。半監督學習使用標記數據和未標記數據的混合。強化學習訓練算法在反饋的基礎上最大化獎勵。

監督學習
監督算法使用標記數據,這些數據的輸入和目標的結果或標籤都會提供給算法。

監督學習也被稱為預測建模或預測分析,因為你建立了一個能夠做出預測的模型。預測建模的一些例子是分類和回歸。分類根據已知項的已標記示例(例如,已知是否為欺詐的交易)來識別一個項屬於哪個類別(例如,某交易是否為欺詐)。邏輯回歸預測了一個概率——例如,欺詐的概率。線性回歸預測一個數值——例如,欺詐的數量。

一些分類的例子包括:

  信用卡欺詐檢測(欺詐,不是欺詐)。
  信用卡申請(良好信用,不良信用)。
  垃圾郵件檢測(垃圾郵件,不是垃圾郵件)。
  文字情緒分析(快樂,不快樂)。
  預測患者風險(高風險患者、低風險患者)。
  惡性或非惡性腫瘤的分類。

邏輯回歸(或其他算法)的一些例子包括:

  • 根據歷史汽車保險欺詐性索賠以及這些索賠的特徵,例如索賠人的年齡、索賠金額、事故嚴重程度等,預測欺詐發生的概率。
  • 給定患者特徵,預測充血性心力衰竭的概率。

So線性回歸的一些例子包括:

  • 根據歷史汽車保險欺詐性索賠以及這些索賠的特徵,如索賠人的年齡、索賠金額、事故的嚴重程度等,預測欺詐金額。
  • 根據歷史房地產銷售價格和房屋特徵(如平方英尺,臥室數量,位置),預測房子的價格。
  • 根據歷史上的社區犯罪統計,預測犯罪率。

這裡還有其他的監督和非監督學習算法,我們不會一一介紹,但我們會詳細介紹每類中的一個。

分類示例 :借記卡詐騙
分類選用一組具有已知標籤和預先確定特性的數據,並學習如何根據這些信息標記新數據。特性是你問的「是否」問題。標籤就是這些問題的答案。

讓我們看一個借記卡詐騙的示例。

我們想要預測什麼?

  • 某一筆借記卡交易是否為欺詐。
  • 欺詐是標籤(對或錯)。

你可以用來進行預測的「 是否 」問題或屬性是什麼?

  • 今天花費的金額是否大於歷史平均水平?
  • 今天的這些交易是否在多個國家?
  • 今天的交易數量是否大於歷史平均水平?
  • 今天的新商戶類型與過去三個月相比是否較高?
  • 今天是否在多個帶有風險類別代碼的商家處購買?
  • 今天是否有不尋常的籤名與以往使用PIN相比?
  • 與過去三個月相比,是否有新的購買行為?
  • 與過去三個月相比,現在是否有國外購買?

要構建分類器模型,你需要提取對分類最有貢獻的有用特性。

決策樹

決策樹創建一個基於輸入特徵預測類或標籤的模型。它的工作原理在於評估每個節點上包含一個特徵的問題,然後根據答案選擇到下一個節點的分支。預測借記卡欺詐的可能決策樹如下所示。特性問題是節點,答案「是」或「否」是樹中到子節點的分支。(注意,真正的樹會有更多的節點。)

問題一:24小時內的花費是否大於平均?

問題2:今天是否有多筆交易來自高風險的商家?

  • 是欺詐概率 = 90%
  • 非欺詐概率 = 50%

決策樹很受歡迎,因為它們易於可視化和解釋。將算法與集成方法相結合,可以提高模型的精度。一個集成例子是一個隨機森林算法,它結合了決策樹的多個隨機子集。

無監督學習
無監督學習,有時也被稱為描述分析,沒有預先提供的標記數據。這些算法發現輸入數據中的相似性或規律。無監督學習的一個例子是基於購買數據對相似的客戶進行分組。

聚類

在聚類中,一個算法通過分析輸入實例之間的相似性將它們分類。一些聚類用例包括:

  • 搜索結果分組。
  • 分組相似客戶。
  • 分組相似病人。
  • 文本分類。
  • 網絡安全異常檢測(發現不相似之處,集群中的異常值)。

K均值算法將數據分組到K個集群中,每個數據都屬於離其集群中心均值最近的集群。

聚類的一個例子是,一個公司希望細分其客戶,以便更好地定製產品和服務。客戶可以依據比如人口統計和購買歷史記錄等特徵被分組。為了得到更有價值的結果,無監督學習的聚類常常與有監督學習相結合。例如,在這個banking customer 360用例中,首先根據問卷答案對客戶進行細分。接著對客戶群體進行分析,並標上用戶畫像。然後,這些標籤通過客戶ID與帳戶類型和購買內容等特性進行連結。最後,我們在被標籤的客戶身上應用了監督機器學習,允許將調查用戶畫像與他們的銀行行為聯繫起來,以提供深入的見解。

深度學習

深度學習用來稱呼多層神經網絡,它是由輸入和輸出之間的節點「隱含層」組成的網絡。神經網絡有許多變種,你可以在這個神經網絡備忘單上了解更多。改進的算法、GPUs和大規模並行處理(MPP)使得具有數千層的神經網絡成為可能。每個節點接受輸入數據和一個權重,然後向下一層的節點輸出一個置信值,直到到達輸出層,計算出該置信值的誤差。通過在一個叫做梯度下降的過程中進行反向傳播,誤差會再次通過網絡發送回來,並調整權值來改進模型。這個過程重複了數千次,根據產生的誤差調整模型的權值,直到誤差不無法再減少為止。

在此過程中,各層學習模型的最優特徵,其優點是特徵不需要預先確定。然而,這也意味著一個缺點,即模型的決策是不可解釋的。由於解釋決策可能很重要,研究人員正在開發新的方法來理解深度學習這個黑盒子。

原文:https://www.leiphone.com/news/202011/h810txENV9SQUKf1.html

相關焦點

  • AI重新定義機器人:揭開次世代AI機器人的神秘面紗
    重新定義機器人:揭開次世代AI機器人的神秘面紗提到機器人,總有各式各樣天馬行空的想像看來,想要了解現在的技術進步和產業格局,是出乎意料的困難,更不用說要對未來做出預測。藉助這篇文章,我嘗試揭開人工智慧應用於機器的神秘面紗;尤其針對強化深度學習機器人,試圖釐清我們常常聽到,但卻著墨不多、或根本還沒全然理解的主題。首先必須回答的基本問題:什麼是AI機器人(AI-enabled Robotics)?它們又有什麼獨特之處?
  • 人工智慧的機器學習和深度學習
    人工智慧的機器學習和深度學習在機器智能向更大的深度神經網絡發展的過程中,已經有許多開發者在使用keras/tensorflow作為api了。可以利用這些api,像自然語言處理、特徵提取等等。問題所在在於:新的api不能滿足新的研究需求。
  • 吳恩達Coursera推出人工智慧新課程 旨在為企業高管揭開AI的神秘面紗
    吳恩達Coursera推出人工智慧新課程 旨在為企業高管揭開AI的神秘面紗  Emma Chou • 2018-11-14 09:35:01 來源:前瞻網 E1242G0
  • 機器學習,深度學習和AI:有什麼區別?
    今天,機器學習是一個廣泛使用的術語,涵蓋了許多類型的程序,多數在大數據分析和數據挖掘中運行。實際上的應用大多數為預測性計劃(包括垃圾郵件過濾,產品推薦和欺詐檢測)提供的「大腦」就是機器學習算法。▲線性分類算法  數據科學家將熟悉監督機器學習與無監督機器學習之間的差異,以及綜合模型和使用方法技術的組合,以及結合監督和無監督方法的半監督學習。
  • 未來醫療基於MATLAB、信號處理、機器學習和深度學習算法的進步
    驅動力 | 揭開人工智慧和機器學習在醫學應用的神秘面紗經美國食品藥品監督管理局(FDA)批准後,第一批可穿戴式數字健康監測儀目前剛剛上市,併集成在諸如智能手錶之類的消費產品中MATLAB 等工具為領域專家提供了數據分析和高級機器學習功能,使他們能夠更容易地將「數據科學」功能(如高級機器學習功能)應用於他們正在解決的問題,從而專注於特徵工程。在本例中,我們使用先進的小波技術對信號進行處理,以去除數據集中的噪聲和漸變趨勢,如呼吸偽影,並從信號中提取各種需要關注的特徵。
  • 興業證券金工首席集體亮相 揭開量化投資神秘面紗
    原標題:興業證券金工首席集體亮相 揭開量化投資神秘面紗 來源:新浪財經原標題:興·訪談 | 論賣方研究員的自我修養!興證金工首席集體亮相 揭開量化投資神秘面紗來源:興業證券訂閱號在很多投資者眼中,量化投資一直是一個神秘的存在,通過海量的處理數據和高頻次的交易,從股票市場的數據海洋中找到一條通往彼岸的方舟,這看似是一件不可能完成的任務。而在證券分析師中,有這樣一群人,他們通過在計算機上建模編程,對市場進行預測和交易,通過計算機交易來克服人性的弱點。他們就是金融工程分析師。
  • 《到香港讀大學》揭開香港八大院校的神秘面紗
    《到香港讀大學》揭開香港八大院校的神秘面紗 2014-07-01 15:04:09來源:中國新聞網作者:責任編輯:王珊珊 日前,世界知識出版社出版了《到香港讀大學——香港八大院校介紹》,為讀者揭開了香港高校的神秘面紗。  迄今為止,香港高校在內地招生已達十幾個年頭,十幾年來,港校報名高潮迭起,呈現出了「港校熱」的狀況。以2012 年內地高考生報考為例,各港校報考比例較上年均有所增加,個別院校還錄得較大的增幅。  目前,香港十七所可頒授學位的高等院校已全部獲準招收內地本科學生。
  • 機器學習吧面向ai的中文機器學習資源與分享平臺
    關於自動化機器學習的研究很早以前就有過非常系統化的論文和書籍,如果你感興趣我推薦一下孫向祥的機器學習分析,然後是西方機器學習理論,英文版的如果你沒時間翻的話國內有很多人翻譯過譯作,如果你時間多可以看coursera的opendatamlcourse如果你時間有限我推薦你這門early-resolutionmachinelearning
  • 幾度風雨春秋《鬥羅神》揭開唐門神秘的面紗
    幾度風雨春秋《鬥羅神》揭開唐門神秘的面紗 編輯:小G2014-04-08 蜀中唐門,掩藏在天羅地網之下的江湖秘境   蜀中唐門,鑄就了孔雀翎的不朽傳奇   蜀中唐門,憑藉著最為狠毒的暗器與毒藥名震天下
  • 揭開紅外相機的神秘面紗
    今天,筆者將帶大家揭開紅外相機的神秘面紗。·不負眾望,紅外單反誕生  在經歷了失敗和波折之後,筆者終於將佳能400D成功的改裝成了紅外專用相機。首先感謝大家持續的關注和熱情的留言。為了不辜負朋友們的期盼,筆者進行了大量的測試及對比樣張的拍攝,以便讓大家對紅外相機有一個全面的了解。
  • 紹興古城「星夜議事」,揭開未來神秘面紗!
    紹興古城「星夜議事」,揭開未來神秘面紗!
  • AI的聖經——《人工智慧和機器學習》免費下載
    Learning (SAGE Essentials)作者:Was Rahman頁數 : 180 pagesISBN-10 : 9353884411ISBN-13 : 9789353884413出版社 : SAGE Response; First Edition (2020年10月正式出版)語言 : 英語拉赫曼的人工智慧和機器學習實現了一種罕見的平衡
  • 人工智慧、機器學習和深度學習的關係
    但是,在機器學習來說,算法是由機器自己根據輸入和預期結果樣本,自行學習得到的。我們需要的,是一個方法,該方法可以對機器學習得到的算法的效果進行衡量,並能夠對機器作出反饋,以便於機器不斷優化其得到的算法。深度學習 回到問題本身,對於任何一個問題,總是由輸入到輸出的過程。輸入和輸出的本質都是數據。所以,我們可以這樣理解。
  • 機器之心專訪吳恩達,深度學習課程項目Deeplearning.ai正式發布
    吳恩達:Deeplearning.ai 今天的發布會將宣布基於 Coursera 的一系列深度學習課程。在人工智慧領域,我們有機會創造一系列前所未有的系統與產品。但是,即使像谷歌和百度這樣的公司也無法覆蓋這一領域的全部。所以,我認為讓深度學習社區發展壯大的最好方式就是創造更好的深度學習課程,讓越來越多的人接觸深度學習。
  • 五個給機器學習和數據科學入門者的學習建議
    提供代碼和視頻,助你開始第一個 Kaggle 競賽。Daniel Formosso 的基於 scikit-learn 的探索性數據分析筆記 (https://github.com/dformoso/sklearn-classification)—以上資源的更深入版本,附帶了一個實踐上述內容的端到端項目。學習深度學習神經網絡深度學習和神經網絡在沒有太多結構的數據上最有效。
  • 揭開首飾製作的神秘面紗
    每個人都是獨立的個體首飾的誕生是一種情感的表達小編帶大家來揭開神秘面紗12圖稿繪製珠寶設計團隊繪製手繪圖,並以此為藍本進行不斷地細化和調整。3電繪圖確定① 與手繪設計師定稿,確定標準和尺寸② 3D立體建模③ 與客戶進行確認4
  • 揭開機器學習模型的「黑箱」
    ,以XGBoost選股模型為例揭開黑箱  本文介紹六種機器學習模型解釋方法的原理,並以華泰XGBoost選股模型為例,嘗試揭開機器學習模型的「黑箱」。  目前人工智慧算法的本質仍是樣本擬合,直接使用模型結論可能有風險  目前的人工智慧算法,即使是近年來發展迅猛的深度神經網絡,和線性回歸併無本質上的不同,仍是對樣本特徵X和標籤Y進行擬合,區別無非是機器學習模型的非線性擬合能力更強。人工智慧並不具備真正的「智能」。模型只能學習特徵和標籤的相關關係,但無法挖掘其中的因果關係。
  • 揭開華二寶山的神秘面紗
    而這個大區,今年之前只有三所市重點高中——行知中學、吳淞中學和上大附中。好消息是,今年華東師範大學和寶山區政府開展合作,在寶山區建設了一所新的高中——華二寶山。這所學校,一是成立時間短,二是地處偏遠,網上並沒有流傳出太多信息。
  • 使用機器學習和Python揭開DNA測序神秘面紗
    如果您認為基因組(完整的DNA序列)就像一本書,那就是一本由大約60億個「 A」,「 C」,「 G」和「 T」字母組成的書。每個人都有獨特的基因組。儘管如此,科學家發現人類基因組的大部分彼此相似。作為數據驅動的科學,基因組學廣泛地利用機器學習來捕獲數據中的關係並推斷出新的生物學假設。但是,要想擁有從不斷增長的基因組學數據中提取新發現的能力,就需要更強大的機器學習模型。
  • 18億像素照片揭開神秘面紗
    18億像素照片揭開神秘面紗美國航天局近日發布了一張照片,引發了許多討論。原來是火星上的「好奇號」探測器拍攝了18億像素的火星全景,這也是迄今為止拍攝的最清晰的火星照片。這使得網友們看完之後直呼「真美爆了」,引起了熱烈的討論。這是迄今為止最清晰的火星表面全景,在世人的眼前清晰地展現了荒涼的火星表面!