機器學習的奧秘

2020-12-15 騰訊網

  作者來自中科院定量遙感信息技術重點實驗室

  當我們在購物網站買下一件商品之後,是否驚詫於其後續推薦的其他相關的商品?

  當看到Alpha Go 通過不斷學習人類圍棋對戰經驗而戰勝李世石時,是否好奇Deep Mind的研究人員是如何訓練Alpha Go的?

  是否使用過目前的人臉識別解鎖的手機?是否樂此不疲於使用美顏手機給自己的照片增光添彩?是否驚訝於百度翻譯如何能將中文翻譯成流暢的英文?

  事實上,我們對這些功能不再感到陌生和神奇,因為這些智能產品早就進入千家萬戶,服務於廣大群眾。說到這些產品中的相關技術,我們一定會想到「人工智慧」、「機器學習」、「深度學習」等詞彙。毋庸置疑,大數據和人工智慧是當今最為時髦的名詞,這些技術已經並且未來還會為我們的生活帶來深刻的變革。

  為了更好地理解它,讓我們研究一下關於機器學習的what、who、when、how、why,及其應用。本期【微課堂】重點介紹機器學習及其發展歷程。

  1

  什麼是機器學習

  子曰:「學而不思則罔,思而不學則殆。」論語是中國古代關於學習方法的書籍,計算的未來是能說、能聽、能看、能自我學習的電腦。

  機器學習,也稱為統計學習,是關於計算機基於數據構建概率統計模型,並運用模型對數據進行預測和分析的一門學科。機器學習的對象是數據,它從數據出發,提取數據的特徵,抽象出數據的模型,發現數據中的知識,又回到對數據的分析和預測中去。

  假如把機器學習比作一艘火箭,那麼數據就是燃料,智能化是目標,優化方法就是導航系統,火箭的準確地飛抵目標,離不開充足的燃料和精確的導航。因為機器學習中需要數據和優化算法,機器學習大師 Mike Jordan 和 Tom Mitchell 認為機器學習是計算機科學和統計學的交叉,同時是人工智慧和數據科學的核心。通俗地說,機器學習就是從數據裡面挖掘出有用的價值。

  如下圖所示,從本質來說,機器學習的核心思想是建立一個模型,這個模型通過給予的數據集中學習並認知,在犯錯時能夠自動總結經驗教訓並修正自己的認知,通過這樣循環迭代的過程,不斷地提高自己的認知能力,最終得到一個智能化模型,這個模型能對輸入的數據做出智能化的判斷。

  2

  機器學習的發展歷程

  二十世紀五十年代到七十年代,人工智慧的研究處於「推理期」,那時候人們還認為只要賦予機器邏輯推理的能力,機器就能夠具有智能。隨著時代的發展,人們逐漸意識到專家系統面臨的「知識瓶頸」,即由人對知識進行總結,然後再教給機器是相當困難的。於是,一些學者想到讓機器自己學習知識。

  在「推理期」人們基於符號知識表示、通過演繹推理技術取得了很大成就,而在「知識期」人們基於符號知識表示、通過獲取和利用領域知識來建立專家系統取得了大量成果。八十年代,美國卡耐基梅隆大學舉行了第一屆機器學習研討會(IWML)。1986年,第一本機器學習專業期刊Machine Learning創刊,時至今日,IWML已經走過了;1989年,人工智慧領域的權威期刊Artificial Intelligence出版機器學習專輯,刊發了當時比較活躍的研究工作,截至目前,Artificial Intelligence期刊已經走過了30周年的時間。

  九十年代之後,機器學習進入「學習期」。機器學習是作為「突破知識工程瓶頸」之利器而出現的。這是因為在二十世紀九十年代中後期,搜集、存儲、管理、處理數據的能力大幅度提升,這時候迫切需要數據分析的技術,而機器學習恰恰是迎合了這個大時代的需求,因此機器學習逐漸成為熱門。

  二十一世紀初,掀起了以「深度學習」為名的熱潮。所謂深度學習,狹義地說就是「很多層」的神經網絡、在若干測試和競賽上,尤其是涉及語音、圖像等複雜對象的應用中,深度學習技術取得了優越性能,但是深度學習同時對使用者的要求較高,另外深度學習技術涉及的模型複雜度非常高,以至於只要下工夫「調參」把參數調節好,性能往往就好。因此,深度學習雖缺乏嚴格的理論基礎,但它顯著降低了機器學習應用者的門檻,為機器學習技術走向工程實踐帶來了便利。

  但是直到近些年來,深度學習技術才逐漸進入主流視野,這是因為深度學習中,學習模型擁有大量參數,若數據樣本少,則很容易「過擬合」,如此複雜的模型、如此大的數據樣本,若缺乏強力計算設備和大量的數據樣本,根本無法求解。而近些年恰恰是由於人類進入了「大數據時代」,數據儲量與計算設備都有了大發展,才使得連接主義學習技術煥發又一春,這也是為什麼近些年來深度學習如此火熱的原因了。

  那麼,機器學習、深度學習、人工智慧、數據挖掘等這些大火的詞,他們之間是什麼關係呢?近年來,人工智慧的強勢崛起,特別是剛剛過去的AlphaGo和韓國九段棋手的人機大戰,讓我們領略到了人工智慧技術的巨大潛力。

  人工智慧指由人類製造出的機器表現出的智能,這是一個非常大的範圍,長遠目標是讓機器實現類人智能。機器學習是指通過數據訓練出能完成一定功能的模型,是實現人工智慧的手段之一,也是目前最主流的人工智慧實現方法,是現代人工智慧的本質。深度學習是機器學習的一個子集,專注於模仿人類大腦的生物學和過程。

  談到對數據進行分析應用,我們會想到數據挖掘。數據挖掘是從海量數據中發掘知識,這就必然涉及對海量數據的管理和分析。資料庫領域的研究為數據挖掘提供數據管理技術,而機器學習為數據挖掘提供數據分析技術。

  3

  機器學習的分類

  在機器學習領域,根據學習算法可以將機器學習分類,主要有監督學習、非監督學習、半監督學習和強化學習。

  (1)監督學習(Predictive or Supervised learning):

  基於一定數量的類別已知的訓練樣本建立分類器,發現數據屬性和類別屬性之間的關聯模式,並通過利用這些模式用來預測未知數據實例的類別屬性。

  在監督學習中,根據輸入輸出變量的不同類型,對預測任務給予不同的名稱:

  分類問題:輸出變量為有限個離散變量的預測問題。在分類中,機器被訓練成將一個組劃分為特定的類。例如遙感圖像種的地物分類,就是一個典型的應用,根據不同地物在遙感影像(光學/雷達)不同的光譜特徵,訓練一個自動化地物分類模型,就可以自動化的對地表進行分類了。

  回歸問題:輸入和輸出變量均為連續變量的預測問題。回歸用於預測輸入變量(自變量)和輸出變量(應變量)之間的關係,特別是當輸入變量的值變化時,輸出變量的值隨之發生的變化。股票預測就是回歸問題一個常用實例,股票價格是眾多影響因素共同作用的結果,股票價格預測是通過海量股票歷史數據作為訓練集,進行預測從而判斷未來價格。

  標註問題:輸入變量和輸出變量均為變量序列的預測問題,可以看作是分類問題的一個推廣,也是更複雜的結構預測問題的簡單形式,標註問題的輸入是一個觀測序列,輸出的是一個標記序列或狀態序列。在信息抽取、自然語言處理等領域被廣泛應用。例如:模型輸入的是一個句子,輸出是一個標記序列,模型會為每個詞都產生一個標記,目標是構建一個高精度的詞性標註模型。詞性標註問題是自然語言處理中最基礎的問題之一。

  (2)非監督學習(Descriptive or unsupervised learning):

  根據類別未知(沒有被標記)的訓練樣本,發現數據中存在的內在結構解決問題的過程。非監督學習的主要方式是聚類。聚類根據數據屬性,將樣本劃分為若干個通常不相交的「簇」,既可以作為一個單獨過程(用於找尋數據內在的分布結構),也可作為分類等其他學習任務的前驅過程。這類方法中K-means方法則是其典型的代表。

  (3)半監督學習 (Semi-supervised learning):

  訓練集同時包含有標記樣本數據和未標記樣本數據,不需要人工幹預,讓學習器不依賴外界交互、自動地利用未標記樣本來提升學習性能。

  (4)強化學習 (Reinforcement learning):

  強調如何基於環境而行動,以取得最大化的預期利益。其靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。實際中的強化學習例子有很多. 比如近期最有名的 Alpha go,機器人在圍棋場上戰勝人類高手。

  下一期【微課堂】,我們將重點介紹機器學習的主要方法及其應用,重點來看看機器學習在遙感中的應用。敬請期待。

相關焦點

  • 【下載】《機器學習》+《機器學習實戰》
    1.機器學習
  • 機器學習的十大使用案例機器學習
    機器學習是當前科技行業的一大流行詞,原因很充分:它代表著計算機學習方式的一大躍進。福布斯近日盤點了機器學習技術的十大使用案例。
  • 【機器學習】自學機器學習嚮導
    自學機器學習嚮導這裡,你在學習機器學習的過程中,可以做很多的事情。
  • 機器學習入門
    機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯繫尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。
  • 機器學習是什麼?
    而機器學習給予了我們從這些無窮無盡的數據中找出規律並加以利用的可能。在這一系列文章中,我們將一起探秘人工智慧的世界,共同品味藝術、探索科學以及掌握機器學習的工具。一路上,我將為你展現機器學習的魅力並指導你親身體會整個創造的過程。千裡之行,始於足下,我們將從概念開始,逐漸深入到它們背後的技術細節。
  • 無處不在的機器學習
    面部識別背後的核心理念是--你猜對了---機器學習。這是機器學習的一個應用,有利於參與該過程的每個人。我們看到的廣告以類似的方式工作。它們根據您的口味,興趣,特別是您最近的瀏覽或購買歷史而量身定製。如果您是許多數據科學小組的一員,Facebook或LinkedIn的機器學習算法可能會建議機器學習課程。下次使用社交媒體時請注意這一點。這是背後所有機器學習的結果!
  • 機器學習綜述
    作為綜述,我們只打算談談機器學習相關的一些比較寬泛的知識,介紹與說明為何要使用 Python 來作為機器學習的工具的工作則交給下一篇文章來做。而在最後,我們會提供一個簡短易懂的、具有實際意義的例子來給大家提供一個直觀的感受。目錄:人生苦短,我用 Python第一個機器學習樣例「緒論」小結
  • 機器學習實戰
    想快速入門機器學習領域的童鞋還等什麼?!看小編介紹的這個課程就可以啦!!
  • 機器學習實戰 | 機器學習性能指標
    首先,根據機器學習中分類器的預測得分對樣本進行排序 ,接著按照順序逐個把樣本作為正例進行預測,計算出 FPR 和 TPR,最後分別以 FPR、TPR 為橫縱坐標作圖即可得到 ROC 曲線。AUC(Area Under Curve)就是為 ROC 曲線下方的那部分面積的大小。
  • 【機器學習】監督式和非監督式機器學習算法
  • 終極算法:機器學習裡的「牛頓三定律」
    在本書中,全球著名的算法問題專家、機器學習領域的先驅人物佩德羅·多明戈斯(Pedro Domingos)為我們揭開了算法的神秘面紗,讓我們一窺谷歌以及你的智慧型手機背後的機器學習原理。 這本書的名字,顯示著作者試圖在機器學習的各個流派間進行整合,最終提出機器學習裡的「牛頓三定律」的理想。作者在這本書裡,介紹了當前常用的算法的發展歷程,這些算法包括決策樹,遺傳算法,神經網絡,樸素貝葉斯及貝葉斯網絡,隱式馬爾可夫鏈,K最近鄰及支持向量機,作者還介紹了無監督學習的算法。在介紹算法時,作者還介紹了機器學習裡最大的兩個阻礙,過擬合及維度災難。
  • Python機器學習教程
    機器學習的歷史  目前的機器學習  機器學習的特點  機器學習的最佳語言是什麼?  機器學習的類型  監督學習  無監督學習  強化學習  機器學習算法  機器學習步驟  機器學習的優勢  未來的機器學習什麼是機器學習?亞瑟·塞繆爾(Arthur Samuel)在1959年創造了「機器學習」一詞。
  • 機器學習自學指南
    入門書籍:閱讀一些為程式設計師而寫的數據挖掘與機器學習的入門書籍,例如《機器學習:實用案例解析 》、《集體智慧編程》、《數據挖掘:實用機器學習工具和技術》,這些都是很好的入門書籍,推薦一篇進一步討論這個話題的文章:《機器學習的最佳入門學習資源》相關概述視頻:也可以看一些科普性質的機器學習演講。
  • 算法應用|機器學習python應用,初識機器學習是怎樣滴感受?
    本系列文章主要介紹機器學習在實踐中的應用,介紹利用 Python 的生態環境,使用機器學習的算法來解決工程實踐中的問題,而不是介紹算法本身。本系列文章參考了《機器學習Python實踐》,會通過例子一步一步地引導大家使用機器學習來處理和分類與回歸模型相關的問題。
  • 機器學習 | 四大常用機器學習Python庫介紹
    點擊下方公眾號,回復資料,收穫驚喜今天這篇我們介紹下Python中常用的機器學習庫(機器(機器學習、深度學習啥的,小編還是建議使用Python進行建模編寫哈),也算是本公號機器學習的第一篇推文,主要內容如下:深度學習常用四大Python庫這一部分我們簡單介紹下Python中的常用的機器學習庫,算是比較入門的介紹哈,具體包括Scikit-learn、Keras、TensorFlow和PyTorch,下面我們就一一簡單介紹:
  • 機器學習實踐指南
    在這一點上,重要的是要將各種獨立的技術融會貫通,形成整體的結構圖。 首先了解關鍵的概念:監督學習supervised learning和無監督學習unsupervised learning的區別、分類和回歸等。 手動(書面)練習可以派上用場,能幫你了解算法是如何工作的以及如何應用這些算法。 在大學課程裡你經常會找到一些書面練習,可以看看波特蘭州立大學的 ML 課程[28]。
  • 重磅開源 | 機器學習聖經《模式識別與機器學習》中文版PDF!
    2021-01-09 11:14:31 來源: 機器學習與Python社區 舉報
  • 黑奧秘發哥:所有的脫髮白髮,黑奧秘都有辦法
    黑奧秘頭髮理療商業模式2.0發布會發布會現場,黑奧秘品牌創始人說:「作為頭髮理療品類的開創者,14億中國人的脫髮白髮問題,我們有能力,也有義務去解決。黑奧秘創始人吳慶輝(發哥)因為疫情,大量皮膚科專家未能到現場,但是也都對黑奧秘品牌及本次大會做了點評,四川大學高分子學院的聯合研發中心以及東京頭皮環境與毛髮再生研究中心的首席科學家們表示將還會繼續深度研究脫髮白髮領域。
  • 機器學習入門線路
    基本要求如下:基本要求其實很簡短,但其實並不是大家想的那麼簡單,注意這裡有幾個隱含的內容。這也是機器學習初學者最容易忽略的幾個點,只有把這幾個點全都能掌握,才算是真正稱得上是「會」。補充目標,這個是補充目標,但是非常關鍵——知道自己為什麼要學機器學習,根據自己的目標來進一步確定學習策略。
  • kdb+自動機器學習
    編譯一篇文章,作者為Conor McCarthy,是Kx機器學習團隊負責人。