一文就讀懂機器學習及其在遙感中的應用

2021-01-15 IT168

  【IT168 資訊】一直以來,從遙感數據進行信息提取是一個長期的遙感科學難題。遙感圖像分類是遙感圖像信息處理中最基本的問題之一,其分類技術是遙感應用系統中的關鍵技術,遙感圖像分類方法的精度直接影響著遙感技術的應用發展。許多研究者一直在嘗試、改進,探索新的方法,以不斷提高遙感圖像自動分類算法的精度和速度。

  本文基於機器學習,細細研讀了其在遙感中的應用。

  1 .工作介紹

  機器允許我們在短時間內進行複雜的計算。這導致出現了一個完全不同的研究領域,這個領域沒有被探索:教學機器通過觀察模式來預測可能的產生的結果。機器學習正在被用來解決各種各樣的問題,從股票市場預測到醫療配方的合成。

  現在有很多著名的機器學習算法,每隔一天就會出現新的算法。一些廣為人知的算法是:

  支持向量機

  神經網絡

  隨機森林

  再鄰居

  決策樹

  K最近鄰算法

  主成分分析

  不同的重要步驟是讓機器預測可靠並產生可靠的數據。

  2.遙感機器學習

  遙感機器學習的根源可以追溯到上世紀90年代。它最初被引入作為一種自動化知識基礎建設的遠程感知的方法。在他們的論文中,黃和延森(1997)討論了如何利用人類專家的最低輸入來建立一個知識基礎,然後創建決策樹來從專家系統的人工輸入中推斷規則。生成的規則被用於薩凡納河上的一個研究地點。結論詳細說明了與當時的傳統方法相比,機器學習輔助專家系統方法的準確度是最高的。在類似的發展之後,機器學習很快成為遙感社區的一個重要工具。現在它被用於各種各樣的項目,從無監督的衛星圖像場景分類(Li,et al. 2016)到澳大利亞本土森林的分類(Shang & Chisholm,2014)。現在我們來看看典型的機器學習工作流。

  3 .項目機器學習工作流程

  讓自己熟悉所涉及的工作流是很重要的。機器學習也有一個工作流,這在所有基於機器學習的項目中都是常見的。

  收集數據

  清理數據

  模型構建&選擇正確的算法

  從結果中獲得真知灼見

  可視化的數據

  在遙感技術中,人們主要利用衛星或無人機採集數據。數據清理是在我們的數據集不完整或缺少值的時候出現的,而算法的選擇涉及到要了解其中一個要解決的問題(稍後再討論)。如果一個人只是為了預測而做模型,而不是為了獲得真知灼見,那麼這個工作流就會在這裡結束,一個人開始在生產中實現訓練的模型。然而,如果一個人正在寫一篇研究論文,或者想要獲得真知灼見,那麼你就可以用圖形庫繪製出結果,並從圖表數據中得出真知灼見。我們將對數據清洗和模型構建部分進行分析。

  3.1數據清理

  這個過程包括清理文本或基於圖像的數據,並使數據易於管理(有時可能涉及減少與記錄相關的變量的數量)。

  3.1.1文本數據

  通常情況下,可能會在數據集中遇到丟失的值。一個人必須決定是否嘗試使用鄰近的數據「猜測」丟失的數據,或者完全刪除這個特定的記錄。刪除記錄似乎是一個可行的選擇,但如果數據集已經很小,那麼它可能不可行。因此,人們不得不求助於填充不完整的數據單元。有多種方法可以做到這一點,但最簡單的方法是取相鄰的值並計算平均值。

  3.1.2圖像數據

  數據清理還涉及操縱圖像,這些圖像可能包含一些可能干擾一個人的分類算法的工件。Nath et al .(2010)在他們的論文中關於水體區域的提取解決了這個問題。它們所包含的圖像可以很容易地與水體混淆。他們通過計算圖像的熵來部分地解決了這個問題,然後用它來分割圖像。熵指的隨機性。與周圍環境相比,水體的隨機性較小,因此可以根據像素顏色的差異來分割圖像,從而提取水體面積。在其他實例中,圖像數據集可能包含一些模糊的圖像,這些圖像會嚴重影響訓練階段算法的準確性。需要在數據清理步驟中去掉這些圖像。

  3.1.3多個特性

  當人們在遙感領域記錄數據時,基本上是記錄多光譜或高光譜數據(商,et al. 2014)。這意味著每個記錄將有很多變量。如果一個人試圖繪製數據集,你可能無法理解它,因為如果一個人繪製了過多的變量,就會有很多成對的相關性。為了更有意義地解釋數據,我們需要一些方法來減少變量的數量。這就是主成分分析(PCA)出現的地方——它將把變量的數量減少到幾個可解釋的線性的數據組合。每一個線性組合都對應一個主成分。有許多可用的工具可以幫助PCA。如果使用著名的scikit-學習庫,就可以使用PCA功能。

  3.2機器學習算法的類型

  機器學習算法有三大類。一是監督機器學習,二是無監督機器學習,三是加強學習。監督和非監督的區別在於使用監督算法,有一個數據集包含的輸出列而在使用無監督算法,一個只有一個巨大的數據集,它的職責是集群算法基於關係數據集到各種不同的類之間已經確定不同的記錄。強化學習略有不同。在強化學習中,一個提供環境的算法,算法在該環境中做出決策。它不斷改進自己的每一個決定,根據它最後決定 反饋。我們現在將討論在遙感中使用的三種著名算法。

  3.2.1隨機森林

  由於其分類的準確性,隨機森林算法在遙感社區(比利時,et al. 2016)越來越受歡迎。這些是集成分類器,基本上意味著他們利用下面的多個決策樹。RF分類器受歡迎的一個主要原因是它們有助於緩解高維問題。它們提供了一個可變的重要性(VI),可以減少高光譜數據的維數。變量的重要性本質上是衡量一個特定輸入的變化對輸出的影響。

  3.2.2支持向量機

  SVMs是監督學習模型,可用於回歸和分類問題。它們主要用於分類問題。他們的工作方式是在一個n維空間(特徵)中繪製的點(特徵),然後用一個超平面來劃分這些點。從森林分類(商,X & Chisholm,2014)到多光譜遙感圖像分割(Mitra,et al. 2004),在遙感中幾乎所有類型的分類問題都使用SVMs。就像其他算法一樣,他們的成功取決於問題的性質,一個人必須分別測試每個算法,然後根據每個算法的性能做出決定。

  3.2.3人工神經網絡

  神經網絡是一種機器學習算法,它試圖模仿我們大腦工作的方式。神經網絡(NN)在遙感上的第一個應用於1988年完成(Kanellopoulos和Wilkinson 1997)。人工神經網絡是一種神經網絡。ANNs是在計算機上進行的生物激發的模擬,在計算機上執行某些特定的任務,如模式識別、聚類、分類等。由於人工神經網絡技術上的進步,它們的受歡迎程度增加了很多,一個例子是AlphaGo擊敗了世界圍棋冠軍。這是以前從未做過的,而且被認為是一個偉大的壯舉。精確的土地覆蓋分類主要是由統計分類器來完成的,但現在人工神經網絡已經取代了它們的位置,因為它提供了一種準確的方法來對土地覆蓋和地球物理特徵進行分類,而不必依賴於統計假設或程序。人工神經網絡以最少的輸入集「學習」不同的圖像模式。它們也被稱為黑盒算法,因為通常很難弄清楚人工神經網絡是如何計算輸出的。

  4.過度擬合和偏見

  大多數時候,當你在開發一個模型來預測、分類圖像時,你有一個大數據集來訓練和測試你的算法。我們將數據集分成大約75:25的比例,其中75%的數據用於培訓,25%用於評估模型經過培訓後的性能。75:25不是硬比;您可以使用任何其他數據集來實現您的想像。您需要注意的惟一問題是,數據集的訓練部分應該對整個數據集有一個不帶偏見的表示,並且與數據集的測試部分相比,它不應該太小。無偏見意味著它不應該只有一種類型的記錄從數據集,而且應該有幾乎所有類型的記錄,這是數據集的一部分,這樣模型就會接受不同類型的輸入。如果訓練數據集太小,那麼您可能無法得到可靠的預測,因為模型並沒有針對每種不同類型的輸入進行培訓。

  過度擬合是另一個你需要注意的問題。過度擬合模型通常需要建立一個過於複雜的模型來解釋研究數據中的特性和異常值。這意味著,如果你使用相同類型的數據(它的數據類型已經訓練)評估模型,你會得到一個非常高的預測、分類精度。然而,如果你只是修改一些輸入,(這模型沒有見過),那麼,預測、分類精度就會下降。你可以通過使用更大的數據集來修復過度擬合,並適當地分割數據集。此外,減少模型定義的複雜性是有益的,這樣就不會對所有極端的邊界情況進行分類。

  5.哪個算法是最好的?

  這個問題的答案取決於一個人想要解決的問題。在某些情況下,當您有多個維度但記錄有限時,SVM可能會更好地工作。如果你有很多的記錄,但很少的維度(特性),神經網絡(NN)可能產生更好的預測/分類精度。人們經常需要在你的數據集上測試多種算法,然後選擇最有效的算法。通常,需要為不同的算法調整各種參數(i)。對射頻、隱藏層數、神經網絡神經元的數量以及對SVMs的「決策函數形狀」等進行了研究。很多時候,將多個算法組合在一起可以獲得更好的準確性,這就是所謂的合奏。還可以將SVM和神經網絡、SVM和RF(可能性無窮)組合起來,以提高預測精度。再次,須測試多個合奏以選擇最好的合奏。

  同樣重要的是要注意,預測精度可能會改變根據特定功能試圖使用分類、預測的目的而改變。例如,Shang和Chisholm(2014)討論了如何將澳大利亞本土森林物種分類,他們決定使用最先進的遙感算法。在樹葉、樹冠和社區層面對樹木進行分類。他們測試了各種算法(SVM、AdaBoost和Random Forest),並發現每種算法在不同級別上都優於其他算法。在葉級,隨機森林獲得了最佳分類精度(94.7%),支持向量機在冠層(84.5%)和社區水平(75.5%)的表現優於其他算法。

  另一個影響算法選擇的因素是數據是否線性可分。例如,線性分類算法(SVM,logistic回歸等)期望數據可以被線性空間中的直線分割。假設數據是線性可分的,可能適用於大多數情況,但在某些場景下是正確的,並會降低預測/分類精度。因此,我們需要確保使用的算法能夠處理可用的數據。

  不可能只看一種算法,從理論上決定它是否會為你的數據集產生最好的結果,因為很多機器學習算法都是黑盒算法。這意味著很難看出算法是如何達到特定的結果的。因此,首先根據問題的類型來縮小算法選擇的範圍,然後在數據集的一部分應用縮小算法,看看哪一種性能最好。

  6.結論

 

  在本文中,我們研究了機器學習是什麼,它是如何首先被引入到遠程感知的世界,典型的工作流是什麼樣的,以及如何使用機器學習來解決什麼樣的問題。機器學習有著光明的未來,因為越來越多的人正在學習機器學習的基本知識,並將其應用於日常工作和研究中。新的算法每隔一天就會出現,分類的準確率也隨之提高。這些問題在遙感(測繪地皮)中似乎很困難,有時甚至是不可能的,但每天都被新出現的算法解決。在不久的將來,世界上大多數的分析工作將由機器學習算法完成。

相關焦點

  • 一文讀懂三相電原理及其接法大全!
    打開APP 一文讀懂三相電原理及其接法大全!文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴
  • 一文讀懂磁傳感器(必須收藏)
    我們常見的這類金屬有鐵、鈷、鎳及其合金等。 【點擊藍色標題,獲取文章】 >、一文讀懂接近傳感器 3、一文讀懂磁傳感器 4、一文讀懂流量傳感器
  • 一文讀懂MEMS傳感器(必須收藏)
    近十年來,中國MEMS傳感器產業生態系統也正逐步完善,從研發、設計、代工、封測到應用,完整產業鏈已基本形成,國家對MEMS傳感器行業也給予了前所未有的政策支持。我國MEMS產業發展面臨了重大的機遇,特別是移動網際網路和物聯網的快速發展,將對MEMS產業產生深遠的影響,並將催生大量新的產品、新的應用,帶動MEMS產品在日常生活及工業生產中的普及化。
  • 全國空間科學及其應用和全國遙感技術標準化技術委員會在京成立
    7月2日上午,由國家標準化委員會主辦,中國科學院光電研究院承辦的全國空間科學及其應用標準化技術委員會和全國遙感技術標準化技術委員會成立大會在北京舉行。中國科學院陰和俊副院長、高技術局董永初副局長,國標委方向總工程師、戴紅副主任以及歐陽自遠、胡文瑞、顧逸東等院士出席了大會。
  • 一文讀懂霍爾電壓傳感器原理及應用
    一文讀懂霍爾電壓傳感器原理及應用 佚名 發表於 2017-12-07 09:57:25       霍爾電壓傳感器相對電磁式電壓互感器而言
  • 一文讀懂電容傳感器
    藍色標題,獲取文章】 10、一文讀懂光纖傳感器 11、一文讀懂溫溼度傳感器 12
  • 一文讀懂開關電源中的X和Y電容的作用
    打開APP 一文讀懂開關電源中的X和Y電容的作用 發表於 2017-10-31 10:22:37   開關電源中電容的技術參數主要有電容量、耐壓、損耗角、穩定性等。
  • 一文解析機器視覺系統現狀及發展前景
    一文解析機器視覺系統現狀及發展前景 中國電氣傳動網 發表於 2020-12-04 11:37:01   機器視覺系統集成是一門學科,隨著新成像技術的不斷發展,這門學科的發展勢頭依然強勁
  • 遙感圖像處理中的深度學習專題 《中國科學:信息科學》英文版
    在對地觀測領域, 由大量在軌衛星獲取的海量遙感數據, 使其成為數據驅動應用的典範. 過去幾年來, 遙感圖像處理相關的深度學習研究快速增長, 包括高光譜遙感圖像、合成孔徑雷達(SAR)圖像等處理、分類、參數反演及目標檢測識別.
  • 一文讀懂:人工智慧與人類智能有何區別?
    由於它的聲音幾乎與人類一模一樣,所以在整個過程中可以瞞過其對話夥伴,使之認為自己是人類。   此外,谷歌子公司DeepMind開發了一款人工智慧,在最複雜的棋盤遊戲中擊敗了世界冠軍。而最近,人工智慧又被證明它可以像訓練有素的醫生一樣準確診斷眼疾……還有很多的事件可以表明,在不久的將來,機器人有可能會讓人類身處失業的狀態。
  • 增材製造中應用機器學習的現狀與展望(一)
    1.2機器學習  ML是一種人工智慧技術,可以允許機器或者系統從資料庫中進行自動學習,並作出決策或者預測,而不需要進行複雜地編程。在研究領域,ML在醫療診斷、材料性能預測、智能製造、自動駕駛、自然語言處理和目標識別中應用較普遍。ML算法通常分為三大類,即監督、無人監督和強化學習。
  • 一文帶你讀懂計算機視覺
    一個卷積層利用圖像的2D結構在神經網絡的下一層中生成有用信息。歷史方法解決該任務的歷史方法是將特徵工程應用於標準機器學習(例如svm),或把深度學習方法應用於目標識別實現這一目標有兩種方法。首先是使用雲服務,比如google cloud或者aws。第二種方法是自己組裝一臺帶有GPU的計算機。只需1000美元,就可以組裝一臺相當好的機器來訓練深度學習模型。
  • 【新書推薦】《機器學習及R應用》目錄
    編者薦語:  《機器學習及R應用》終於上市啦!不少讀者想知道《機器學習及R應用》的目錄。這裡附上詳細的二、三級目錄清單,讓我們先睹為快!  以下文章來源於計量經濟學及Stata應用,作者愛計量。  陳強老師的《機器學習及R應用》終於上市啦!目前已經開始在高等教育出版社的官方微店預售。掃描(或識別)下方二維碼,即可前往售書頁面。
  • 遙感應用中的本徵光譜感知簡介
    遙感應用中的光譜感知,就像是給無人機、衛星等遙感平臺裝上了一雙具有光譜探測功能的眼睛。高光譜遙感的核心思想是每種物質均有自己獨特的「光譜指紋」。早在19世紀初,人們在研究太陽光譜時,發現太陽內部發出的強光經過溫度比較低的太陽大氣層時,部分特定波長的電磁波會被大氣吸收。通過對太陽光的光譜進行分析,科研人員估算出太陽大氣層中含有氫、氦、氮等幾十種元素。
  • 駱劍承:遙感智能計算與地理精準應用的思考與探索
    所以,我們特別希望通過這一本書對遙感智能計算框架的系統提出以及相關實踐工作的整理,初步回答如何基於遙感開展精準地理應用的「大」問題。也正是在香港求學期間結識了同在梁教授門下訪問的西安交通大學張文修教授、徐宗本教授和他們的一眾弟子。應該說,後來支撐我們研究的主要方法基本都取經於這個群體的老師們,如向吳偉志教授、米據生教授學習了粒計算思想與概念格方法;向馬江洪教授、梅長林教授學習了統計分析方法;向張講社教授學習了尺度空間理論;向張豔寧教授、曹飛龍教授、邵明文教授請教了支撐向量機、人工神經網絡和深度學習方法與技術;等等。
  • 一文讀懂雲計算和海計算
    打開APP 一文讀懂雲計算和海計算 發表於 2017-10-18 16:03:11   如今的我們生活在雲計算的時代裡
  • 一文讀懂電阻和電容的不同
    打開APP 一文讀懂電阻和電容的不同 發表於 2017-11-12 10:23:24   電阻在電路中的作用:電阻主要作用就是阻礙電流流過,應用於限流、分流、降壓、分壓、負載與電容配合作濾波器及阻匹配等。
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    機器之心整理參與:機器之心編輯部機器學習日益廣為人知,越來越多的計算機科學家和工程師投身其中。不幸的是,理論、算法、應用、論文、書籍、視頻等信息如此之多,很容易讓初學者迷失其中,不清楚如何才能提升技能。本文作者依據自身經驗給出了一套快速上手的可行方法及學習資源的分類匯總,機器之心在其基礎上做了增益,希望對讀者有所幫助。
  • 3S遙感技術在戰疫中的應用?
    GPS與GIS的集成與應用。利用GIS中的電子地圖和GPS接收機的實時差分定位技術,可以組成GPS+GIS的各種自動電子導航系統,用於交通指揮調度、公安偵破、車船自動駕駛、農田作業管理、漁船捕魚等多方面。也可以利用GPS的方法對GIS進行實時更新。RS與GIS的集成與應用。
  • 讀懂地球:遙感大數據驅動下的地球系統科學研究—新聞—科學網
    張兵解釋,當今地球系統科學研究中涉及的大氣、海洋、陸地、生態等要素的大尺度觀測幾乎都離不開遙感技術,多譜段、多尺度、多角度、多時相的遙感數據結合機器學習手段,使得遙感信息提取技術從統計模型、物理模型逐漸進入到數據模型階段,也就是遙感大數據時代。