2020「水下目標檢測算法賽」賽題解析——聲學圖像

2020-12-14 雷鋒網

當下,由於水下惡劣危險的環境,海洋產業在發展中面臨著迫切的產業智能化升級需求。為了解決該類問題,將光學技術、聲學技術和 AI 算法更好的融入到海洋產業中,近期,一場由國家自然基金委、鵬城實驗室和湛江市人民政府聯合主辦的線上比賽「水下目標檢測算法賽」拉開了帷幕。

聲學圖像在水下目標檢測中探程遠、實用性強,針對「聲學圖像目標檢測」賽項,鵬城實驗室專門開設了 2 期在線直播課程,先後請到上海達華測繪有限公司專家李太春老師和河海大學、水下信息感知技術研究中心副主任霍冠英老師,為參賽者和算法愛好人士提供深入淺出的專業講座。


課程內容涵蓋面廣、知識乾貨豐富,其中重點講解了聲納硬體與圖像組成、聲納圖像分類、聲納圖像檢測具體算法等技術,並從解讀了海洋產業的發展與前景,現雷鋒網將課程內容整理如下,並附上課程回放地址。

《2020「水下目標檢測算法賽」——聲納設備及其圖像判讀應用》:

http://www.mooc.ai/open/course/760  

《2020「水下目標檢測算法賽」 ——水下聲納圖像目標識別研究》:

http://www.mooc.ai/open/course/774

聲納概述與技術分類

在海水中,由於介質的改變,光波和無線電波衰減嚴重,傳播距離十分有限。而聲波在水中的傳播性能要好得多,可以覆蓋更廣闊的海洋領域,這也使得聲納圖像通常可以更好的用於海洋探測及產業中。

聲納本身是英文 sonar 一詞的音譯,而 sonar 則是 sound navigation and ranging 的字頭組成,意思是聲學導航與測距。因此,聲納的也是利用聲波對水下物體進行探測和定位識別,而海洋聲納技術即用於對海洋物理參數與過程的探測和對海洋各種特定目標特性的探測。

圖 1 應用於海洋檢測的聲納技術 

聲納從工作原理上,可劃分為聲納目標主動探測技術和上哪目標被動探測技術;從目標能否成像上,可劃分為成像聲納技術和非成像聲納技術;而從工作流程與功能上,可劃分為聲納目標檢測技術、聲納目標跟蹤技術、聲納目標識別技術和聲納目標定位技術。

本次比賽的數據集是由鵬城實驗室推出的當前業內最大、最具廣泛性的聲學圖像數據集。其中所用到的聲納技術均為成像聲納技術,側掃聲納和前視聲納為採集圖像的主要設備。兩種設備主要用於探測水下靜止目標物,並給出目標的距離、方位、高度和圖像。

圖 2 聲吶硬體的基本組成主要包括:換能器(TRANSDUCER)、拖纜、信號處理器、採集終端 

其中,側掃聲吶主要應用於大面積的海底地形地貌調查,包括水下位置未知目標物的搜索等。在工作時,側掃聲吶聲波的發射基陣以一定的俯仰角和左右兩個扇面向兩側的水體中發射聲波脈衝信號,工作原理如圖 3 所示。

目前,在海洋工程、海洋地質調查、海洋地質科學研究及海道測量中,側掃聲吶已經得到了廣泛應用,並成為目前海洋測量及調查研究必不可少的重要手段。

圖 3 側掃聲吶工作時,聲波的發射基陣以一定的俯仰角和左右兩個扇面向兩側的水體中發射聲波脈衝信號,同時接受基陣接受回波信號並根據回波到達的時間及其強度繪製海洋環境的聲吶圖像 

而前視聲納與側掃聲納工作原理類似。最大的區別在於前視聲納的聲波發射基陣,一般以一個扇面向前或者向垂直方向(向上、向下)發射脈衝信號,工作原理如圖 4 所示。因此,前視聲吶主要應用於水下航行器的導航避碰,特定目標物的掃描檢測等。

圖 4 前視聲吶工作原理圖與成像示例,聲波發射基陣以扇面發射脈衝信號

聲納圖像組成與目標檢測

通常情況下,聲納圖像主要由 7 部分組成,包括:聲波發射源、水面反射波、水體雜波、海底反射波、水柱、目標物、陰影;除此之外,聲納圖像還可能包括一些處理得到的標記。圖 5 展示了一個經典的聲納圖像基本組成圖示:

 
圖 5 聲納圖像基本組成的經典解析圖示;其中,A 是觸發脈衝,B 是第一表面返回波,C 是水體中雜波,D 是第一海底返回波,E 是水柱(即盲區),F 是沉沒的漁船,G 是陰影, H 是數字通道, I 是系統操作設置,J 是距離標記。

而聲納設備形成圖像的過程一般分為以下幾步:設備換能器陣發出聲脈衝,並且收聽返回的回聲信號,返回的聲波由聲能轉換成電能,並且通過拖曳電纜向上傳送到海面上船的記錄顯示單元。

然後在船上顯示記錄單元,信號被處理成所需要的形式,然後發送到監視器和記錄儀上,形成一幅記錄圖像,圖 6 則展示了該過程。

圖 6 聲納設備成像的過程;其中,圖(左)為形成的聲納圖像,圖(右)為對應的聲波圖像

如果要通過聲納圖像辨別其中的目標物,可以結合聲學陰影進行檢測。

通常情況下,深色(高亮)的回聲和白色(黑色)的陰影斑紋,表現出海底底床上目標的凸起和凹陷。其中:

圖 7 通過黑色陰影,可以辨別出目標物為駱駝

除此之外,結合一些基本的聲納圖像知識,也可以有助於準確識別目標物。其中包括:

  • 硬質、粗糙、凸起的水底回波較強,軟質、平滑、凹陷的水底回波較弱。

  • 被遮擋的水底不產生回波;距離越遠回波越弱。

  • 天然地形產生的聲學表現通常是不規則形狀的圖像變化,圖像邊緣過度相對平緩,人工目標物通常表現為相對規則的圖像變化,圖像邊緣過度相對明顯。

  • 合理運用聲納圖像的幾何關係,判斷目標物的大小、高度等特徵。

  • 結合聲吶設備的位置、姿態、航向等信息,可以對圖像聲吶反映出來的特徵進行量測和計算。

圖 8 使用基礎聲納圖像知識進行目標物識別,通過聲納圖像的波形判別目標物的特性

聲納圖像的智能檢測及算法推薦

目前,聲吶的工作性能除了受自身技術參數的限制之外,還受環境因素影響很大,如:聲速-深度分布、波浪、海底底質、水深、海流等。這將導致聲波的折射、擴散、吸收、噪聲等問題。

這也導致在對聲納圖像左準確智能檢測時,將面臨噪聲幹擾、灰度畸變、幾何畸變、形態多樣、樣本稀缺、混疊失真等問題。

圖 9 為同一架飛機的聲納圖像,具有形態多樣的特性

針對其中一些關於圖像去噪、圖像增強、目標分割、目標分類等問題,課程提供了相應的算法思路,可幫助實現改善目標檢測結果的精度:

非局部均值聲納圖像去噪

圖像去噪聲在 OCR、機器人視覺與機器視覺領域應用開發中是重要的圖像預處理手段之一,對圖像二值化與二值分析很有幫助。

但通常進行局部去噪時,往往我們會忽視邊緣處的去噪效果,而近年提出的一種新型去噪技術可以很好的解決該問題。非局部均值去噪可以採用:NL-means、BM3D、SAR-BM3D 等方法。

其中,非局部均值(NL-means)方法的基本思想是:當前像素的估計值由圖像中與它具有相似鄰域結構的像素加權平均得到,在去噪的同時,可以最大程度地保持圖像的細節特徵。

其中,非局部均值迭代聲吶圖像的去噪流程為:

  1. 第一次基於含噪塊的均值約束,第二次基於第一次得到的去噪塊的結構相似度;

  2. 兩次塊匹配濾波權值採用不同距離,第一次依據瑞麗噪聲統計假設,第二次計算假設真值已知。

 

圖 10 非局部均值聲納圖像去噪示意圖

仿人眼視覺聲納圖像增強

通常,圖像增強的方法包括了:線性拉伸、Gamma 校正、直方圖據恆華、Retinex 處理、小波變換域增強等,但此類方法除了可能放大噪聲之外,還有一個局限在於參數選取部分,要求開發者有較成熟的經驗。

因此,基於這一問題,可以使用人眼視覺方法進行處理,包括:多解析度、多方向性、局部化、稀疏表示、對數調節等。

而恰好 Curvelet 變換能夠很好的處理多尺度、多方向、局部化等問題,因此在圖像增強部分的處理思路可以採取:

  1. Curvelet 變換-->人眼視覺的多通道結構

  2. 自適應非線性映射-->人眼對數調節

  3. Curvelet 重構

圖 11 圖像增強處理,從左到右分布為直方圖均衡化、Retinex 處理及仿人眼視覺圖像增強結果,可以看到第三種處理方式在圖像細節上效果更好

邊緣約束的聲納圖像目標精準分割

在聲納圖像目標檢測分割方法中,邊緣檢測法(sobel、Canny、小波模極大等)、閾值分割(Otsu、屬性直方圖等)、聚類分割(k-means、依賴分布)、MRF 模型、活動輪廓模型都是可以參考的方法。

但每個方法也都具有各自的局限,如:完整性較弱、鄰域一致性處理較差、邊緣精確性低、收斂慢等。

因此,在這個階段,可以考慮這樣的思路,如圖 12所示:

  1. 綜合邊緣信息、區域特徵、平滑閱讀構造活動輪廓模型泛函,以同時提高檢測結果的準確性和魯棒性。

  2. 初始分割、局部匹配、邊緣誘導,從而加快收斂過程。

圖 12 邊緣約束的聲納圖像目標精確檢測示意圖

遷移學習下的聲納圖像目標分類識別

在目標識別部分,通常分為特徵提取和分類器兩部分。目前最具區分能力的特徵包括:傅立葉描繪子、鏈碼、Hu 不變矩、灰度共生矩陣、Haar 特徵、Gabor 特徵、LBP 特徵、HOG 特徵、SIFT 特徵、SURF 特徵等。

而對於特定的識別任務,往往篩選及調整特徵及其耗時,一旦換一個識別任務之後,一切可能將需要全部重新設計。

因此,能否由機器直接從數據中學習來表示本身呢?就像人的大腦可視皮層的分級那樣,具備抽象和迭代的功能,從而對聲納圖像中的目標及其陰影,具有發現同類目標中深層次共性特徵的能力。

由此可以考慮將深度神經網絡運用到檢測算法中來,通過其多次迭代組合底層的分布式特徵形成更抽象的高層表示,解決表示學習的核心問題。

然後再結合人臉識別時 CNN 的思想,將深度卷積神經網絡運用到目標分類識別算法中,推薦的思路如圖 13所示。

圖 13 遷移學習下的聲納圖像目標分類識別

其它比賽資源

除了在線講座課程之外,為了更好的幫助參賽者理解水下聲吶圖像目標識別,賽方還提供了多樣的聲學圖像檢測學習資料,包括:模型代碼、baseline、優質論文以及經典的學習資源。(其中,相關資源已同步至官網首頁,http://uodac.pcl.ac.cn/ 

同時,考慮到本次算法賽參與的開發者覆蓋群體非常廣泛,大家所關注的問題也較為分散,大賽詳情頁面也設置了討論區,參賽者可以通過該加入討論群有針對性的答疑解惑。

圖 14 比賽詳情頁面,可由此進入討論區

目前,賽方也給出了一個《常見問題解答》的文檔,在遇到問題時,也可先參考文檔給出的一些解決方案。文檔地址為:https://shimo.im/docs/dQkEVzmKLVUKFnAw/read 。

AI 海洋產業蘊含的無限潛力

值得一提的是,早在黨的「十八大」時,我國就作出了「建設海洋強國」的重大部署;這之後,十九大則在此基礎上提出了全面加快海洋強國建設的目標。近年來,習近平總書記也多次在重要場合提到海洋發展。

在 2017 年 7 月,國務院發布《關於印發新一代人工智慧發展規劃的通知》,並在海洋產業領域提出「研製和推廣海洋機器人「的意見,這也正貼合了海洋產業升級的迫切需求。

在人工智慧的幫助下,海洋產業得以應對水下作業危險係數高、捕撈成本大、體能要求強以及環境不可控等難題,因此該產業也具備更高的開發潛力。

圖 15 海洋開發多樣化技術展示

由前文所介紹的多樣化技術也可以看出,在國家的大力支持下,海洋建設在技術方面也已經取得了可喜的成果。可這當然遠遠不夠,海洋開發與建設還需要更多 AI 技術領域開發者的加入。

而本次加入「聲學圖像目標檢測賽」恰好提供了這樣的平臺。這不止是一個展示個人技術的舞臺,也是緊跟時代建設的敲門磚。如果在比賽中獲得較好的名次,該比賽所提供的高達 72 萬元的獎金池,以及進入鵬城實驗室、騰訊科技的招聘面試綠色通道,也將通通拿走!

目前,該賽項已經吸引了眾多來自哈爾濱⼯程⼤學、中⼭⼤學、中國科學院⼤學、浙江大學等高校學生,以及名企的算法愛好者,比賽正在如火如荼的進行中。

所以,假如你也正好從事算法工作,你也有志於在目標檢測識別、機器人、人工智慧和海洋建設領域嶄露頭角,請抓住這個難得的好機會,初賽截至 4 月 11 日。

水下目標檢測算法賽(聲學圖像賽項)報名地址:

https://www.kesci.com/home/competition/5e532ac62537a0002ca859a6  

雷鋒網(公眾號:雷鋒網)   雷鋒網 

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 開拓水下圖像新領域,大華股份AI喜獲殊榮
    大華股份自主研發的水下圖像智能分析技術,在近期的2020全國水下機器人大賽中,憑藉創新的技術能力,榮獲水下目標檢測算法賽光學圖像賽團隊二等獎和三等獎,並在檢測精度榜上排名第三。該競賽由國家自然科學基金委、鵬城實驗室和湛江市人民政府主辦,旨在深化和拓寬水下機器人和水下目標檢測領域的相關研究,推進算法技術向實際產業應用進行賦能,吸引了來自國內外頂尖高校學府、科研機構及AI名企的二千餘支團隊參加角逐。大華股份從中脫穎而出,喜獲殊榮,充分彰顯了大華在水下圖像前沿技術領域的開拓創新能力。
  • 今日Paper|TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測解決...
    目錄REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正 解決背景重校準損失下的缺失標註目標檢測問題 論文名稱:Solving Missing-Annotation Object Detection with Background Recalibration Loss作者:Zhang Han /Chen Fangyi /Shen
  • 今日Paper | TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測...
    REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正/Lukasiewicz Thomas發表時間:2020/2/12論文連結:https://paper.yanxishe.com/review/11541?
  • 水下聲學滑翔機研究進展及關鍵技術
    圖4 Xray和Zray水下聲學滑翔器  ZRay的兩機翼前緣中安裝了1個27元水聽器陣列,水聽器工作頻帶10Hz~15kHz,陣列信號輸出到1個實時檢測/定位和記錄系統;該水下聲學滑翔機同時搭載有矢量水聽器
  • 報名|產業AI實踐中,如何有效提升圖像識別精度 實現極小目標檢測
    目前,各個企業行業在AI落地應用中,常常會遇到極小目標檢測問題。如工業質檢場景中對軸承、噴油嘴等精密金屬部件的細微缺陷檢測;電力巡檢場景在無人機航拍圖片中識別絕緣子並進行瑕疵檢測;以及零售快消場景在大面積貨架陳列中檢測小體積商品等。
  • 增加檢測類別?這是一份目標檢測的一般指南
    這個類別標籤用來表徵整個圖像的內容,或者至少是圖像最主要的可見內容。例如,上面的圖 1 中,給定輸入圖像(左),我們的 CNN 給它的標籤是「比格犬」。所以我們可以認為圖像分類具有以下特點:一張圖像輸入一個類別標籤輸出無論是通過深度學習還是其他計算機視覺技術的目標檢測,都是基於圖像分類構建的,只不過需要精確定位每個對象在圖像中出現的位置。
  • 做目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點
    CVPR 2020 會議上,有哪些目標檢測論文值得關注?目標檢測是計算機視覺中的經典問題之一。憑藉大量可用數據、更快的 GPU 和更好的算法,現在我們可以輕鬆訓練計算機以高精度檢測出圖像中的多個對象。前不久結束的 CVPR 2020 會議在推動目標檢測領域發展方面做出了一些貢獻,本文就為大家推薦其中 6 篇有價值的目標檢測論文。
  • ...第二版發布:吸引業界「目光」的史上最完整的目標檢測工具箱
    概述本文中,我們介紹了一個目標檢測工具箱 MMDetection,它包含了豐富的目標檢測和實例分割方法以及相關的組件和模塊。MMDetection 新功能目標檢測和實例分割都是基本的計算機視覺任務。檢測流程通常比分類任務更複雜,並且不同的實現環境可能導致截然不同的結果。為了提供高質量的代碼庫和統一的基準測試,我們使用 PyTorch 構建了一個目標檢測和實例分段代碼庫 MMDetection。
  • 用技術杜絕劇透,2020 新賽事「IMDB 影評劇透檢測」上線!
    正因如此,AI 研習社的大賽管理員們想出了全新的應對策略,何不利用現有的技術來做出識別劇透類影評的初步 demo——「劇透判別器」呢?文字識別與檢測算法從上面的介紹來看,文字識別與圖像識別其實大同小異,都需要先抓取對象,再進行判斷識別。具體而言,給定一張圖像,我們需要找出這張圖中文字出現的位置,再對位置框中文字類型進行分類。
  • 用技術杜絕劇透,2020 新賽事「IMDB 影評劇透檢測」上線
    正因如此,AI 研習社的大賽管理員們想出了全新的應對策略,何不利用現有的技術來做出識別劇透類影評的初步 demo——「劇透判別器」呢?文字識別與檢測算法從上面的介紹來看,文字識別與圖像識別其實大同小異,都需要先抓取對象,再進行判斷識別。具體而言,給定一張圖像,我們需要找出這張圖中文字出現的位置,再對位置框中文字類型進行分類。
  • 首個基於Transformer的目標檢測模型上線,大目標檢測超越Faster R...
    研究員聲稱這種方法簡化了目標檢測模型的創建,並減少了對手工組件的需求。   Facebook AI Research的六名成員研究了近期非常流行的Transformer神經網絡架構,創建了一個端到端的目標檢測AI。研究員聲稱這種方法簡化了目標檢測模型的創建,並減少了對手工組件的需求。
  • 目標檢測之公開圖像數據集
    在PASCALVOC中是多任務的,包括圖像分類,目標檢測,語義分割和行為檢測。在目標檢測中有兩個Pascal-VOC版本:VOC07和VOC12,其中前者有5k張圖像和27k個被標註目標,後者則有11k張圖像和27k個被標註的目標。
  • 英偉達開源「Imaginaire」:九大圖像及視頻合成方法
    近日,英偉達又開源了一個新的 PyTorch 庫「Imaginaire」,共包含 9 種英偉達開發的圖像及視頻合成方法。在這篇論文中,英偉達的研究者提出一種 Few-shot 無監督圖像到圖像轉換(FUNIT)框架。該框架旨在學習一種新穎的圖像到圖像轉換模型,從而利用目標類的少量圖像將源類圖像映射到目標類圖像。也就是說,該模型在訓練階段從未看過目標類圖像,卻被要求在測試時生成一些目標類圖像。
  • 自監督式特徵增強在大圖像目標檢測中的應用
    Date of publication May 14, 2020; date of current version July 6, 2020.在這些測試中,典型的圖像大小為 480×640。然而,在某些應用領域,輸入圖像的解析度非常高。由於限制,高解析度圖像不能作為目標檢測框架的輸入。為了處理上述問題,我們將輸入圖像降採樣到小尺度。我們將高解析度圖像下採樣到不同的比例,然後將圖像從最小增加到對應的不同比例。通過下採樣獲得的圖像稱為高解析度圖像,而通過上採樣獲得的圖像稱為低解析度圖像。然後,我們使用上述每組圖像訓練深度神經網絡。
  • Anchor Boxes——目標檢測質量的關鍵
    那麼如何提高目標檢測的質量?Anders Christiansen 認為,正確地調整 Anchor Boxes 可以大大提高模型檢測某些未知大小和形狀的對象的能力。下面是他的觀點, 雷鋒網 AI 科技評論編譯整理。在學習用於目標檢測的卷積神經網絡時,Anchor Boxes 是最難掌握的概念之一。它還是你在提高數據集的性能的時候,能夠調優的最重要的參數之一。
  • 圖像目標檢測算法——總結
    傳統目標檢測方法Selective SearchDeformable Part Model基於CNN 的目標檢測1. Two-stage 方法所謂Two-stage 的方法,指的是先通過某種方式生成一些備選框,然後對備選框裡的內容進行分類,並修正備選框的位置的方法。
  • 資源| 1460萬個目標檢測邊界框:谷歌開源Open Images V4數據集
    這些數據比 ILSVRC 和 COCO 目標檢測挑戰賽的數據類別範圍更大,包括「fedora」和「snowman」等新對象。表 2:邊界框。對於訓練集,我們在 174 萬張經過人類驗證的帶有正類圖像級別標籤的圖像上標註了邊界框。我們關注的是最具體的標籤。
  • 能看到聲音的法器——聲學相機
    像書裡讀到「五彩斑斕的嘰喳聲」,「白花花的銀子聲」這樣文學性的語言可以直接在你眼前呈現。魔法一般的效果就靠聲學相機!正式揭秘之前,我們先來複習兩個知識點:聲學相機——又名聲相(像)儀,是利用聲傳感器陣列測量一定範圍內的聲場分布的專用設備。可用於測量物體發出的聲音的位置和聲音輻射的狀態,將採集的聲音以彩色等高線圖譜的方式可視化呈現在屏幕上,有效地測量聲場分布,聲場圖與可見光的視頻圖像完美疊加,形成類似於熱影像儀對物體溫度的探測。
  • 每周AI應用方案精選:水下蛇形機器人;智能 AI 機頂盒等
    可以永久性地部署在水下已有或新建的作業區域,根據計劃或即時需求可完成的常規任務包括遠程檢查、清潔以及調節閥門或油嘴。這種蛇形機器人採用仿生設計,細長靈活的結構特點可在水中靈活遊動,可以在大型設備無法到達的區域進行工作,可以輕鬆地圍繞目標建築物進行檢查,並可以自如的通過限制區域。並能夠自動返回基站充電,充滿後繼續執行任務。
  • 2020入坑圖像分割,我該從哪兒入手?
    初識圖像分割顧名思義,圖像分割就是指將圖像分割成多個部分。在這個過程中,圖像的每個像素點都和目標的種類相關聯。圖像分割方法主要可分為兩種類型:語義分割和實例分割。語義分割會使用相同的類標籤標註同一類目標(下圖左),而在實例分割中,相似的目標也會使用不同標籤進行標註(下圖右)。