2020「水下目標檢測算法賽」賽題解析——聲學圖像

2020-12-14 雷鋒網

當下，由於水下惡劣危險的環境，海洋產業在發展中面臨著迫切的產業智能化升級需求。為了解決該類問題，將光學技術、聲學技術和 AI 算法更好的融入到海洋產業中，近期，一場由國家自然基金委、鵬城實驗室和湛江市人民政府聯合主辦的線上比賽「水下目標檢測算法賽」拉開了帷幕。

聲學圖像在水下目標檢測中探程遠、實用性強，針對「聲學圖像目標檢測」賽項，鵬城實驗室專門開設了 2 期在線直播課程，先後請到上海達華測繪有限公司專家李太春老師和河海大學、水下信息感知技術研究中心副主任霍冠英老師，為參賽者和算法愛好人士提供深入淺出的專業講座。

課程內容涵蓋面廣、知識乾貨豐富，其中重點講解了聲納硬體與圖像組成、聲納圖像分類、聲納圖像檢測具體算法等技術，並從解讀了海洋產業的發展與前景，現雷鋒網將課程內容整理如下，並附上課程回放地址。

《2020「水下目標檢測算法賽」——聲納設備及其圖像判讀應用》：
http://www.mooc.ai/open/course/760
《2020「水下目標檢測算法賽」 ——水下聲納圖像目標識別研究》：
http://www.mooc.ai/open/course/774

聲納概述與技術分類

在海水中，由於介質的改變，光波和無線電波衰減嚴重，傳播距離十分有限。而聲波在水中的傳播性能要好得多，可以覆蓋更廣闊的海洋領域，這也使得聲納圖像通常可以更好的用於海洋探測及產業中。

聲納本身是英文 sonar 一詞的音譯，而 sonar 則是 sound navigation and ranging 的字頭組成，意思是聲學導航與測距。因此，聲納的也是利用聲波對水下物體進行探測和定位識別，而海洋聲納技術即用於對海洋物理參數與過程的探測和對海洋各種特定目標特性的探測。

圖 1 應用於海洋檢測的聲納技術

聲納從工作原理上，可劃分為聲納目標主動探測技術和上哪目標被動探測技術；從目標能否成像上，可劃分為成像聲納技術和非成像聲納技術；而從工作流程與功能上，可劃分為聲納目標檢測技術、聲納目標跟蹤技術、聲納目標識別技術和聲納目標定位技術。

本次比賽的數據集是由鵬城實驗室推出的當前業內最大、最具廣泛性的聲學圖像數據集。其中所用到的聲納技術均為成像聲納技術，側掃聲納和前視聲納為採集圖像的主要設備。兩種設備主要用於探測水下靜止目標物，並給出目標的距離、方位、高度和圖像。

圖 2 聲吶硬體的基本組成主要包括：換能器（TRANSDUCER）、拖纜、信號處理器、採集終端

其中，側掃聲吶主要應用於大面積的海底地形地貌調查，包括水下位置未知目標物的搜索等。在工作時，側掃聲吶聲波的發射基陣以一定的俯仰角和左右兩個扇面向兩側的水體中發射聲波脈衝信號，工作原理如圖 3 所示。

目前，在海洋工程、海洋地質調查、海洋地質科學研究及海道測量中，側掃聲吶已經得到了廣泛應用，並成為目前海洋測量及調查研究必不可少的重要手段。

圖 3 側掃聲吶工作時，聲波的發射基陣以一定的俯仰角和左右兩個扇面向兩側的水體中發射聲波脈衝信號，同時接受基陣接受回波信號並根據回波到達的時間及其強度繪製海洋環境的聲吶圖像

而前視聲納與側掃聲納工作原理類似。最大的區別在於前視聲納的聲波發射基陣，一般以一個扇面向前或者向垂直方向（向上、向下）發射脈衝信號，工作原理如圖 4 所示。因此，前視聲吶主要應用於水下航行器的導航避碰，特定目標物的掃描檢測等。

圖 4 前視聲吶工作原理圖與成像示例，聲波發射基陣以扇面發射脈衝信號

聲納圖像組成與目標檢測

通常情況下，聲納圖像主要由 7 部分組成，包括：聲波發射源、水面反射波、水體雜波、海底反射波、水柱、目標物、陰影；除此之外，聲納圖像還可能包括一些處理得到的標記。圖 5 展示了一個經典的聲納圖像基本組成圖示：

圖 5 聲納圖像基本組成的經典解析圖示；其中，A 是觸發脈衝，B 是第一表面返回波，C 是水體中雜波，D 是第一海底返回波，E 是水柱（即盲區），F 是沉沒的漁船，G 是陰影， H 是數字通道， I 是系統操作設置，J 是距離標記。

而聲納設備形成圖像的過程一般分為以下幾步：設備換能器陣發出聲脈衝，並且收聽返回的回聲信號，返回的聲波由聲能轉換成電能，並且通過拖曳電纜向上傳送到海面上船的記錄顯示單元。

然後在船上顯示記錄單元，信號被處理成所需要的形式，然後發送到監視器和記錄儀上，形成一幅記錄圖像，圖 6 則展示了該過程。

圖 6 聲納設備成像的過程；其中，圖（左）為形成的聲納圖像，圖（右）為對應的聲波圖像

如果要通過聲納圖像辨別其中的目標物，可以結合聲學陰影進行檢測。

通常情況下，深色（高亮）的回聲和白色（黑色）的陰影斑紋，表現出海底底床上目標的凸起和凹陷。其中：

圖 7 通過黑色陰影，可以辨別出目標物為駱駝

除此之外，結合一些基本的聲納圖像知識，也可以有助於準確識別目標物。其中包括：

硬質、粗糙、凸起的水底回波較強，軟質、平滑、凹陷的水底回波較弱。
被遮擋的水底不產生回波；距離越遠回波越弱。
天然地形產生的聲學表現通常是不規則形狀的圖像變化，圖像邊緣過度相對平緩，人工目標物通常表現為相對規則的圖像變化，圖像邊緣過度相對明顯。
合理運用聲納圖像的幾何關係，判斷目標物的大小、高度等特徵。
結合聲吶設備的位置、姿態、航向等信息，可以對圖像聲吶反映出來的特徵進行量測和計算。

圖 8 使用基礎聲納圖像知識進行目標物識別，通過聲納圖像的波形判別目標物的特性

聲納圖像的智能檢測及算法推薦

目前，聲吶的工作性能除了受自身技術參數的限制之外，還受環境因素影響很大，如：聲速-深度分布、波浪、海底底質、水深、海流等。這將導致聲波的折射、擴散、吸收、噪聲等問題。

這也導致在對聲納圖像左準確智能檢測時，將面臨噪聲幹擾、灰度畸變、幾何畸變、形態多樣、樣本稀缺、混疊失真等問題。

圖 9 為同一架飛機的聲納圖像，具有形態多樣的特性

針對其中一些關於圖像去噪、圖像增強、目標分割、目標分類等問題，課程提供了相應的算法思路，可幫助實現改善目標檢測結果的精度：

非局部均值聲納圖像去噪

圖像去噪聲在 OCR、機器人視覺與機器視覺領域應用開發中是重要的圖像預處理手段之一，對圖像二值化與二值分析很有幫助。

但通常進行局部去噪時，往往我們會忽視邊緣處的去噪效果，而近年提出的一種新型去噪技術可以很好的解決該問題。非局部均值去噪可以採用：NL-means、BM3D、SAR-BM3D 等方法。

其中，非局部均值（NL-means）方法的基本思想是：當前像素的估計值由圖像中與它具有相似鄰域結構的像素加權平均得到，在去噪的同時，可以最大程度地保持圖像的細節特徵。

其中，非局部均值迭代聲吶圖像的去噪流程為:

第一次基於含噪塊的均值約束，第二次基於第一次得到的去噪塊的結構相似度；
兩次塊匹配濾波權值採用不同距離，第一次依據瑞麗噪聲統計假設，第二次計算假設真值已知。

圖 10 非局部均值聲納圖像去噪示意圖

仿人眼視覺聲納圖像增強

通常，圖像增強的方法包括了：線性拉伸、Gamma 校正、直方圖據恆華、Retinex 處理、小波變換域增強等，但此類方法除了可能放大噪聲之外，還有一個局限在於參數選取部分，要求開發者有較成熟的經驗。

因此，基於這一問題，可以使用人眼視覺方法進行處理，包括：多解析度、多方向性、局部化、稀疏表示、對數調節等。

而恰好 Curvelet 變換能夠很好的處理多尺度、多方向、局部化等問題，因此在圖像增強部分的處理思路可以採取：

Curvelet 變換-->人眼視覺的多通道結構
自適應非線性映射-->人眼對數調節
Curvelet 重構

圖 11 圖像增強處理，從左到右分布為直方圖均衡化、Retinex 處理及仿人眼視覺圖像增強結果，可以看到第三種處理方式在圖像細節上效果更好

邊緣約束的聲納圖像目標精準分割

在聲納圖像目標檢測分割方法中，邊緣檢測法（sobel、Canny、小波模極大等）、閾值分割（Otsu、屬性直方圖等）、聚類分割（k-means、依賴分布）、MRF 模型、活動輪廓模型都是可以參考的方法。

但每個方法也都具有各自的局限，如：完整性較弱、鄰域一致性處理較差、邊緣精確性低、收斂慢等。

因此，在這個階段，可以考慮這樣的思路，如圖 12所示：

綜合邊緣信息、區域特徵、平滑閱讀構造活動輪廓模型泛函，以同時提高檢測結果的準確性和魯棒性。
初始分割、局部匹配、邊緣誘導，從而加快收斂過程。

圖 12 邊緣約束的聲納圖像目標精確檢測示意圖

遷移學習下的聲納圖像目標分類識別

在目標識別部分，通常分為特徵提取和分類器兩部分。目前最具區分能力的特徵包括：傅立葉描繪子、鏈碼、Hu 不變矩、灰度共生矩陣、Haar 特徵、Gabor 特徵、LBP 特徵、HOG 特徵、SIFT 特徵、SURF 特徵等。

而對於特定的識別任務，往往篩選及調整特徵及其耗時，一旦換一個識別任務之後，一切可能將需要全部重新設計。

因此，能否由機器直接從數據中學習來表示本身呢？就像人的大腦可視皮層的分級那樣，具備抽象和迭代的功能，從而對聲納圖像中的目標及其陰影，具有發現同類目標中深層次共性特徵的能力。

由此可以考慮將深度神經網絡運用到檢測算法中來，通過其多次迭代組合底層的分布式特徵形成更抽象的高層表示，解決表示學習的核心問題。

然後再結合人臉識別時 CNN 的思想，將深度卷積神經網絡運用到目標分類識別算法中，推薦的思路如圖 13所示。

圖 13 遷移學習下的聲納圖像目標分類識別

其它比賽資源

除了在線講座課程之外，為了更好的幫助參賽者理解水下聲吶圖像目標識別，賽方還提供了多樣的聲學圖像檢測學習資料，包括：模型代碼、baseline、優質論文以及經典的學習資源。（其中，相關資源已同步至官網首頁，http://uodac.pcl.ac.cn/ ）

同時，考慮到本次算法賽參與的開發者覆蓋群體非常廣泛，大家所關注的問題也較為分散，大賽詳情頁面也設置了討論區，參賽者可以通過該加入討論群有針對性的答疑解惑。

圖 14 比賽詳情頁面，可由此進入討論區

目前，賽方也給出了一個《常見問題解答》的文檔，在遇到問題時，也可先參考文檔給出的一些解決方案。文檔地址為：https://shimo.im/docs/dQkEVzmKLVUKFnAw/read 。

AI 海洋產業蘊含的無限潛力

值得一提的是，早在黨的「十八大」時，我國就作出了「建設海洋強國」的重大部署；這之後，十九大則在此基礎上提出了全面加快海洋強國建設的目標。近年來，習近平總書記也多次在重要場合提到海洋發展。

在 2017 年 7 月，國務院發布《關於印發新一代人工智慧發展規劃的通知》，並在海洋產業領域提出「研製和推廣海洋機器人「的意見，這也正貼合了海洋產業升級的迫切需求。

在人工智慧的幫助下，海洋產業得以應對水下作業危險係數高、捕撈成本大、體能要求強以及環境不可控等難題，因此該產業也具備更高的開發潛力。

圖 15 海洋開發多樣化技術展示

由前文所介紹的多樣化技術也可以看出，在國家的大力支持下，海洋建設在技術方面也已經取得了可喜的成果。可這當然遠遠不夠，海洋開發與建設還需要更多 AI 技術領域開發者的加入。

而本次加入「聲學圖像目標檢測賽」恰好提供了這樣的平臺。這不止是一個展示個人技術的舞臺，也是緊跟時代建設的敲門磚。如果在比賽中獲得較好的名次，該比賽所提供的高達 72 萬元的獎金池，以及進入鵬城實驗室、騰訊科技的招聘面試綠色通道，也將通通拿走！

目前，該賽項已經吸引了眾多來自哈爾濱⼯程⼤學、中⼭⼤學、中國科學院⼤學、浙江大學等高校學生，以及名企的算法愛好者，比賽正在如火如荼的進行中。

所以，假如你也正好從事算法工作，你也有志於在目標檢測識別、機器人、人工智慧和海洋建設領域嶄露頭角，請抓住這個難得的好機會，初賽截至 4 月 11 日。

水下目標檢測算法賽（聲學圖像賽項）報名地址：
https://www.kesci.com/home/competition/5e532ac62537a0002ca859a6

雷鋒網(公眾號：雷鋒網) 雷鋒網

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

2020「水下目標檢測算法賽」賽題解析——聲學圖像

聲納概述與技術分類

聲納圖像組成與目標檢測

聲納圖像的智能檢測及算法推薦

其它比賽資源

AI 海洋產業蘊含的無限潛力

相關焦點

開拓水下圖像新領域，大華股份AI喜獲殊榮

今日Paper|TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測解決...

今日Paper | TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測...

水下聲學滑翔機研究進展及關鍵技術

報名|產業AI實踐中,如何有效提升圖像識別精度實現極小目標檢測

增加檢測類別?這是一份目標檢測的一般指南

做目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點

...第二版發布:吸引業界「目光」的史上最完整的目標檢測工具箱

用技術杜絕劇透,2020 新賽事「IMDB 影評劇透檢測」上線!

用技術杜絕劇透,2020 新賽事「IMDB 影評劇透檢測」上線

首個基於Transformer的目標檢測模型上線,大目標檢測超越Faster R...

目標檢測之公開圖像數據集

英偉達開源「Imaginaire」：九大圖像及視頻合成方法

自監督式特徵增強在大圖像目標檢測中的應用

Anchor Boxes——目標檢測質量的關鍵

圖像目標檢測算法——總結

資源| 1460萬個目標檢測邊界框:谷歌開源Open Images V4數據集

能看到聲音的法器——聲學相機

每周AI應用方案精選:水下蛇形機器人;智能 AI 機頂盒等

2020入坑圖像分割,我該從哪兒入手?

2020「水下目標檢測算法賽」賽題解析——聲學圖像

聲納概述與技術分類

聲納圖像組成與目標檢測

聲納圖像的智能檢測及算法推薦

其它比賽資源

AI 海洋產業蘊含的無限潛力

相關焦點

開拓水下圖像新領域，大華股份AI喜獲殊榮

今日Paper|TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測解決...

今日Paper | TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測...

水下聲學滑翔機研究進展及關鍵技術

報名|產業AI實踐中,如何有效提升圖像識別精度 實現極小目標檢測

增加檢測類別?這是一份目標檢測的一般指南

做目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點

...第二版發布:吸引業界「目光」的史上最完整的目標檢測工具箱

用技術杜絕劇透,2020 新賽事「IMDB 影評劇透檢測」上線!

用技術杜絕劇透,2020 新賽事「IMDB 影評劇透檢測」上線

首個基於Transformer的目標檢測模型上線,大目標檢測超越Faster R...

目標檢測之公開圖像數據集

英偉達開源「Imaginaire」：九大圖像及視頻合成方法

自監督式特徵增強在大圖像目標檢測中的應用

Anchor Boxes——目標檢測質量的關鍵

圖像目標檢測算法——總結

資源| 1460萬個目標檢測邊界框:谷歌開源Open Images V4數據集

能看到聲音的法器——聲學相機

每周AI應用方案精選:水下蛇形機器人;智能 AI 機頂盒等

2020入坑圖像分割,我該從哪兒入手?

報名|產業AI實踐中,如何有效提升圖像識別精度實現極小目標檢測