2020「水下目標檢測算法賽」賽題解析——聲學圖像

2020-11-20 雷鋒網

當下,由於水下惡劣危險的環境,海洋產業在發展中面臨著迫切的產業智能化升級需求。為了解決該類問題,將光學技術、聲學技術和 AI 算法更好的融入到海洋產業中,近期,一場由國家自然基金委、鵬城實驗室和湛江市人民政府聯合主辦的線上比賽「水下目標檢測算法賽」拉開了帷幕。

聲學圖像在水下目標檢測中探程遠、實用性強,針對「聲學圖像目標檢測」賽項,鵬城實驗室專門開設了 2 期在線直播課程,先後請到上海達華測繪有限公司專家李太春老師和河海大學、水下信息感知技術研究中心副主任霍冠英老師,為參賽者和算法愛好人士提供深入淺出的專業講座。


課程內容涵蓋面廣、知識乾貨豐富,其中重點講解了聲納硬體與圖像組成、聲納圖像分類、聲納圖像檢測具體算法等技術,並從解讀了海洋產業的發展與前景,現雷鋒網將課程內容整理如下,並附上課程回放地址。

《2020「水下目標檢測算法賽」——聲納設備及其圖像判讀應用》:

http://www.mooc.ai/open/course/760  

《2020「水下目標檢測算法賽」 ——水下聲納圖像目標識別研究》:

http://www.mooc.ai/open/course/774

聲納概述與技術分類

在海水中,由於介質的改變,光波和無線電波衰減嚴重,傳播距離十分有限。而聲波在水中的傳播性能要好得多,可以覆蓋更廣闊的海洋領域,這也使得聲納圖像通常可以更好的用於海洋探測及產業中。

聲納本身是英文 sonar 一詞的音譯,而 sonar 則是 sound navigation and ranging 的字頭組成,意思是聲學導航與測距。因此,聲納的也是利用聲波對水下物體進行探測和定位識別,而海洋聲納技術即用於對海洋物理參數與過程的探測和對海洋各種特定目標特性的探測。

圖 1 應用於海洋檢測的聲納技術 

聲納從工作原理上,可劃分為聲納目標主動探測技術和上哪目標被動探測技術;從目標能否成像上,可劃分為成像聲納技術和非成像聲納技術;而從工作流程與功能上,可劃分為聲納目標檢測技術、聲納目標跟蹤技術、聲納目標識別技術和聲納目標定位技術。

本次比賽的數據集是由鵬城實驗室推出的當前業內最大、最具廣泛性的聲學圖像數據集。其中所用到的聲納技術均為成像聲納技術,側掃聲納和前視聲納為採集圖像的主要設備。兩種設備主要用於探測水下靜止目標物,並給出目標的距離、方位、高度和圖像。

圖 2 聲吶硬體的基本組成主要包括:換能器(TRANSDUCER)、拖纜、信號處理器、採集終端 

其中,側掃聲吶主要應用於大面積的海底地形地貌調查,包括水下位置未知目標物的搜索等。在工作時,側掃聲吶聲波的發射基陣以一定的俯仰角和左右兩個扇面向兩側的水體中發射聲波脈衝信號,工作原理如圖 3 所示。

目前,在海洋工程、海洋地質調查、海洋地質科學研究及海道測量中,側掃聲吶已經得到了廣泛應用,並成為目前海洋測量及調查研究必不可少的重要手段。

圖 3 側掃聲吶工作時,聲波的發射基陣以一定的俯仰角和左右兩個扇面向兩側的水體中發射聲波脈衝信號,同時接受基陣接受回波信號並根據回波到達的時間及其強度繪製海洋環境的聲吶圖像 

而前視聲納與側掃聲納工作原理類似。最大的區別在於前視聲納的聲波發射基陣,一般以一個扇面向前或者向垂直方向(向上、向下)發射脈衝信號,工作原理如圖 4 所示。因此,前視聲吶主要應用於水下航行器的導航避碰,特定目標物的掃描檢測等。

圖 4 前視聲吶工作原理圖與成像示例,聲波發射基陣以扇面發射脈衝信號

聲納圖像組成與目標檢測

通常情況下,聲納圖像主要由 7 部分組成,包括:聲波發射源、水面反射波、水體雜波、海底反射波、水柱、目標物、陰影;除此之外,聲納圖像還可能包括一些處理得到的標記。圖 5 展示了一個經典的聲納圖像基本組成圖示:

 
圖 5 聲納圖像基本組成的經典解析圖示;其中,A 是觸發脈衝,B 是第一表面返回波,C 是水體中雜波,D 是第一海底返回波,E 是水柱(即盲區),F 是沉沒的漁船,G 是陰影, H 是數字通道, I 是系統操作設置,J 是距離標記。

而聲納設備形成圖像的過程一般分為以下幾步:設備換能器陣發出聲脈衝,並且收聽返回的回聲信號,返回的聲波由聲能轉換成電能,並且通過拖曳電纜向上傳送到海面上船的記錄顯示單元。

然後在船上顯示記錄單元,信號被處理成所需要的形式,然後發送到監視器和記錄儀上,形成一幅記錄圖像,圖 6 則展示了該過程。

圖 6 聲納設備成像的過程;其中,圖(左)為形成的聲納圖像,圖(右)為對應的聲波圖像

如果要通過聲納圖像辨別其中的目標物,可以結合聲學陰影進行檢測。

通常情況下,深色(高亮)的回聲和白色(黑色)的陰影斑紋,表現出海底底床上目標的凸起和凹陷。其中:

圖 7 通過黑色陰影,可以辨別出目標物為駱駝

除此之外,結合一些基本的聲納圖像知識,也可以有助於準確識別目標物。其中包括:

  • 硬質、粗糙、凸起的水底回波較強,軟質、平滑、凹陷的水底回波較弱。

  • 被遮擋的水底不產生回波;距離越遠回波越弱。

  • 天然地形產生的聲學表現通常是不規則形狀的圖像變化,圖像邊緣過度相對平緩,人工目標物通常表現為相對規則的圖像變化,圖像邊緣過度相對明顯。

  • 合理運用聲納圖像的幾何關係,判斷目標物的大小、高度等特徵。

  • 結合聲吶設備的位置、姿態、航向等信息,可以對圖像聲吶反映出來的特徵進行量測和計算。

圖 8 使用基礎聲納圖像知識進行目標物識別,通過聲納圖像的波形判別目標物的特性

聲納圖像的智能檢測及算法推薦

目前,聲吶的工作性能除了受自身技術參數的限制之外,還受環境因素影響很大,如:聲速-深度分布、波浪、海底底質、水深、海流等。這將導致聲波的折射、擴散、吸收、噪聲等問題。

這也導致在對聲納圖像左準確智能檢測時,將面臨噪聲幹擾、灰度畸變、幾何畸變、形態多樣、樣本稀缺、混疊失真等問題。

圖 9 為同一架飛機的聲納圖像,具有形態多樣的特性

針對其中一些關於圖像去噪、圖像增強、目標分割、目標分類等問題,課程提供了相應的算法思路,可幫助實現改善目標檢測結果的精度:

非局部均值聲納圖像去噪

圖像去噪聲在 OCR、機器人視覺與機器視覺領域應用開發中是重要的圖像預處理手段之一,對圖像二值化與二值分析很有幫助。

但通常進行局部去噪時,往往我們會忽視邊緣處的去噪效果,而近年提出的一種新型去噪技術可以很好的解決該問題。非局部均值去噪可以採用:NL-means、BM3D、SAR-BM3D 等方法。

其中,非局部均值(NL-means)方法的基本思想是:當前像素的估計值由圖像中與它具有相似鄰域結構的像素加權平均得到,在去噪的同時,可以最大程度地保持圖像的細節特徵。

其中,非局部均值迭代聲吶圖像的去噪流程為:

  1. 第一次基於含噪塊的均值約束,第二次基於第一次得到的去噪塊的結構相似度;

  2. 兩次塊匹配濾波權值採用不同距離,第一次依據瑞麗噪聲統計假設,第二次計算假設真值已知。

 

圖 10 非局部均值聲納圖像去噪示意圖

仿人眼視覺聲納圖像增強

通常,圖像增強的方法包括了:線性拉伸、Gamma 校正、直方圖據恆華、Retinex 處理、小波變換域增強等,但此類方法除了可能放大噪聲之外,還有一個局限在於參數選取部分,要求開發者有較成熟的經驗。

因此,基於這一問題,可以使用人眼視覺方法進行處理,包括:多解析度、多方向性、局部化、稀疏表示、對數調節等。

而恰好 Curvelet 變換能夠很好的處理多尺度、多方向、局部化等問題,因此在圖像增強部分的處理思路可以採取:

  1. Curvelet 變換-->人眼視覺的多通道結構

  2. 自適應非線性映射-->人眼對數調節

  3. Curvelet 重構

圖 11 圖像增強處理,從左到右分布為直方圖均衡化、Retinex 處理及仿人眼視覺圖像增強結果,可以看到第三種處理方式在圖像細節上效果更好

邊緣約束的聲納圖像目標精準分割

在聲納圖像目標檢測分割方法中,邊緣檢測法(sobel、Canny、小波模極大等)、閾值分割(Otsu、屬性直方圖等)、聚類分割(k-means、依賴分布)、MRF 模型、活動輪廓模型都是可以參考的方法。

但每個方法也都具有各自的局限,如:完整性較弱、鄰域一致性處理較差、邊緣精確性低、收斂慢等。

因此,在這個階段,可以考慮這樣的思路,如圖 12所示:

  1. 綜合邊緣信息、區域特徵、平滑閱讀構造活動輪廓模型泛函,以同時提高檢測結果的準確性和魯棒性。

  2. 初始分割、局部匹配、邊緣誘導,從而加快收斂過程。

圖 12 邊緣約束的聲納圖像目標精確檢測示意圖

遷移學習下的聲納圖像目標分類識別

在目標識別部分,通常分為特徵提取和分類器兩部分。目前最具區分能力的特徵包括:傅立葉描繪子、鏈碼、Hu 不變矩、灰度共生矩陣、Haar 特徵、Gabor 特徵、LBP 特徵、HOG 特徵、SIFT 特徵、SURF 特徵等。

而對於特定的識別任務,往往篩選及調整特徵及其耗時,一旦換一個識別任務之後,一切可能將需要全部重新設計。

因此,能否由機器直接從數據中學習來表示本身呢?就像人的大腦可視皮層的分級那樣,具備抽象和迭代的功能,從而對聲納圖像中的目標及其陰影,具有發現同類目標中深層次共性特徵的能力。

由此可以考慮將深度神經網絡運用到檢測算法中來,通過其多次迭代組合底層的分布式特徵形成更抽象的高層表示,解決表示學習的核心問題。

然後再結合人臉識別時 CNN 的思想,將深度卷積神經網絡運用到目標分類識別算法中,推薦的思路如圖 13所示。

圖 13 遷移學習下的聲納圖像目標分類識別

其它比賽資源

除了在線講座課程之外,為了更好的幫助參賽者理解水下聲吶圖像目標識別,賽方還提供了多樣的聲學圖像檢測學習資料,包括:模型代碼、baseline、優質論文以及經典的學習資源。(其中,相關資源已同步至官網首頁,http://uodac.pcl.ac.cn/ 

同時,考慮到本次算法賽參與的開發者覆蓋群體非常廣泛,大家所關注的問題也較為分散,大賽詳情頁面也設置了討論區,參賽者可以通過該加入討論群有針對性的答疑解惑。

圖 14 比賽詳情頁面,可由此進入討論區

目前,賽方也給出了一個《常見問題解答》的文檔,在遇到問題時,也可先參考文檔給出的一些解決方案。文檔地址為:https://shimo.im/docs/dQkEVzmKLVUKFnAw/read 。

AI 海洋產業蘊含的無限潛力

值得一提的是,早在黨的「十八大」時,我國就作出了「建設海洋強國」的重大部署;這之後,十九大則在此基礎上提出了全面加快海洋強國建設的目標。近年來,習近平總書記也多次在重要場合提到海洋發展。

在 2017 年 7 月,國務院發布《關於印發新一代人工智慧發展規劃的通知》,並在海洋產業領域提出「研製和推廣海洋機器人「的意見,這也正貼合了海洋產業升級的迫切需求。

在人工智慧的幫助下,海洋產業得以應對水下作業危險係數高、捕撈成本大、體能要求強以及環境不可控等難題,因此該產業也具備更高的開發潛力。

圖 15 海洋開發多樣化技術展示

由前文所介紹的多樣化技術也可以看出,在國家的大力支持下,海洋建設在技術方面也已經取得了可喜的成果。可這當然遠遠不夠,海洋開發與建設還需要更多 AI 技術領域開發者的加入。

而本次加入「聲學圖像目標檢測賽」恰好提供了這樣的平臺。這不止是一個展示個人技術的舞臺,也是緊跟時代建設的敲門磚。如果在比賽中獲得較好的名次,該比賽所提供的高達 72 萬元的獎金池,以及進入鵬城實驗室、騰訊科技的招聘面試綠色通道,也將通通拿走!

目前,該賽項已經吸引了眾多來自哈爾濱⼯程⼤學、中⼭⼤學、中國科學院⼤學、浙江大學等高校學生,以及名企的算法愛好者,比賽正在如火如荼的進行中。

所以,假如你也正好從事算法工作,你也有志於在目標檢測識別、機器人、人工智慧和海洋建設領域嶄露頭角,請抓住這個難得的好機會,初賽截至 4 月 11 日。

水下目標檢測算法賽(聲學圖像賽項)報名地址:

https://www.kesci.com/home/competition/5e532ac62537a0002ca859a6  

雷鋒網   雷鋒網(公眾號:雷鋒網) 

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 今日Paper | TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測...
    REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正/Lukasiewicz Thomas發表時間:2020/2/12論文連結:https://paper.yanxishe.com/review/11541?
  • 做目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點
    CVPR 2020 會議上,有哪些目標檢測論文值得關注?目標檢測是計算機視覺中的經典問題之一。憑藉大量可用數據、更快的 GPU 和更好的算法,現在我們可以輕鬆訓練計算機以高精度檢測出圖像中的多個對象。前不久結束的 CVPR 2020 會議在推動目標檢測領域發展方面做出了一些貢獻,本文就為大家推薦其中 6 篇有價值的目標檢測論文。
  • 圖像目標檢測算法——總結
    傳統目標檢測方法Selective SearchDeformable Part Model基於CNN 的目標檢測1.最開始的CNN 目標檢測就是兩階段的。R-CNNR-CNN 是最早利用CNN 實現目標檢測任務的方法,由rbg(Ross Girshick)等人提出。
  • Anchor Boxes——目標檢測質量的關鍵
    那麼如何提高目標檢測的質量?Anders Christiansen 認為,正確地調整 Anchor Boxes 可以大大提高模型檢測某些未知大小和形狀的對象的能力。下面是他的觀點, 雷鋒網 AI 科技評論編譯整理。在學習用於目標檢測的卷積神經網絡時,Anchor Boxes 是最難掌握的概念之一。它還是你在提高數據集的性能的時候,能夠調優的最重要的參數之一。
  • NeurIPS 2020最佳論文;全卷積網絡實現E2E目標檢測
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要研究包括 NeurIPS 2020最佳論文以及拋棄 Transformer 使用全卷積網絡來實現端到端目標檢測的探索。
  • SONY 發布全新空間聲學格式 「360 Reality Audio」
    SONY 今年年初發表的「360 Reality Audio」空間聲學格式,確定在 2019 年秋季登場,官方表示「360 Reality
  • 照片隨便拍,「光影」任意調,MIT谷歌新研究:NLT
    畢竟大師們攝影作品,大多都是對「光」和「影」的拿捏。NLT模型:「查詢」、「觀測」兩步走NLT 的模型網絡主要由2條路徑構成,分別是查詢路徑 (Query Path)和觀測路徑 (Observation Path)。
  • Python|運動目標檢測
    常用的運動目標檢測方法——幀差法幀差法將鄰近幀圖像相減濾除圖像中的靜止景物得到運動區域,其對環境的光線變化不敏感並可快速檢測出運動目標,但對於運動物體速度太慢的情況則產生不完整的「空洞」現象,太快又易於生成「拖尾」現象,其之後的補償處理比較複雜。
  • 機器人懂點「常識」,找東西快多了:CMU打造新型語義導航機器人
    項目已被ECCV 2020收錄,並獲得了居住地目標導航挑戰賽的第一名。訓練的核心目的,是讓系統基於對語義的「理解」來確定目標物體的最優位置,換而言之,就是讓機器人「學點常識」。舉個例子,通過理解冰箱和洗手間的差異,機器人就能搞懂目標物體和房間布局的關係,並計算出最容易找到某個物體的房間。
  • 一鍵360°全景相機「RICOH THETA SC2」新上市
    THETA SC2」。「RICOH THETA」自2013年發布一鍵拍攝360°全景相機以來,在多種類影像領域不斷被利用。年初發布的「RICOH THETA Z1」正是應對了用戶希望得到高畫質及在商業用途上的要求,得到了全景影像用戶、商業合作夥伴的廣泛關注和鼎力支持。新型RICOH THETA SC2是SC系列的入門型號,它使任何人都可以通過簡單的操作輕鬆拍攝高質量的全景圖像。
  • 最大作業深度超200米,「禹龍」號大壩深水檢測載人潛水器來了!
    突破100米級深水大壩安全保障技術壁壘,研製一款小型化載人潛水作業平臺為大壩做水下「體檢」,是國家重點研發計劃「重大水利工程大壩深水檢測及突發事件監測預警與應急處置」項目的目標之一。「多年來,我一直有個夢想,希望能有載人潛水設備搭載大壩工程師去大壩水下進行現場診斷,這將極大有助於相關問題的解決。經過現場觀摩,我們看到『禹龍』號實現了在大壩深水環境下載人潛水檢測的目標,這對大壩檢測來說無疑是一個重大的跨越,為行業打造了一項重器。」張秀麗說。
  • 從數據集到2D和3D方法,一文概覽目標檢測領域進展
    近日,來自阿爾伯塔大學的研究者對目標檢測領域的近期發展進行了綜述,涵蓋常見數據格式和數據集、2D 目標檢測方法和 3D 目標檢測方法。目標檢測任務的目標是找到圖像中的所有感興趣區域,並確定這些區域的位置和類別。由於目標具有許多不同的外觀、形狀和姿態,再加上光線、遮擋和成像過程中其它因素的幹擾,目標檢測一直以來都是計算機視覺領域中一大挑戰性難題。
  • 微軟北大聯合提出換臉 AI 和臉部偽造檢測器,演繹現實版「矛與盾」?
    前者可以極大提高換臉的高保真度,而後者則用於檢測出複雜偽造人臉圖像。一個致力於造假,一個專注於打假;光是聽起來,就不禁讓人聯想到「矛」與「盾」的故事。那到底哪個更勝一籌呢?VB 發布了的相關內容介紹了這兩個成果,雷鋒網 AI 開發者將其整理及編譯如下。
  • 國內網劇AI換臉術首秀:「五毛特效」引吐槽,大型「車禍」的鍋誰來背?
    去年,Facebook 還聯合微軟、麻省理工大學等業界和學界的夥伴共同置辦「Deepfake 檢測挑戰賽」(DFDC),旨在找到一款能檢測視頻是否被換過臉的工具,並且它能被每個人便捷操作。技術本身並無好壞之分,關鍵在於我們如何使用,就影視行業而言,AI 換臉是有一定助力作用的,《三千鴉殺》本應該是這一技術正確使用的例子,但相比用戶自製的「完美無缺」的視頻,為什麼《三千鴉殺》呈現出來的結果非常粗糙?Al 換臉顧名思義就是在圖像或視頻中把一張臉替換成另一張臉。首先需要做的就是數據準備,也就是收集原始人臉的圖像和目標人臉的圖像。
  • 黑白照片修復亦可「如假包換」,華人學者提出實例感知著色新方法
    在這篇 CVPR 2020 論文中,研究者提出了一種全新的圖像著色方法,通過檢測出灰度圖像中的不同目標,再對圖像進行著色,使預測出的彩色圖片更加接近真實色彩。給黑白圖像自動上色一直是個很有趣的話題,這方面的技術可廣泛應用於舊照片和舊視頻的修復,使百年舊照重新煥發生機。我們也會經常看到一些黑白照片修復成品,即使是上個世紀早期的舊照片,經過著色以後效果也十分驚豔。
  • 數據科學工具包:手把手用YOLO做目標檢測
    其中,目標檢測是計算機視覺領域常見的問題之一,如何平衡檢測的質量和算法的速度很重要。對於這個問題,計算機視覺工程師、VirtusLab 創始人 Piotr Skalski 發表了自己的心得,分享了關於他最喜歡的計算機視覺算法 YOLO 的實踐資料。以下便是他的全文。
  • 「醫學圖像處理」X-ray 圖像質量
    Image contrast圖像對比度或射線照相對比度是圖像上相鄰區域之間的密度差。數字探測器有幾件事會影響數字檢測器的解析度:探測器光圈該信號在檢測器元件區域內平均。如果對象的細節遠小於元素的大小,則它們將不可見,除非它們具有足夠的對比度以對平均信號產生顯著影響。
  • 推出可以「懸停」的水下機器人,「潛水俠」獲千萬元級天使輪融資
    36氪獲悉,水下綜合解決方案商「潛水俠」於今年4月獲得千萬元級天使輪融資,投資方為中國電子信息產業集團(簡稱中國電子)旗下的零度資本,資金主要用於產品研發、供應鏈建設和團隊擴張等。 潛水俠是一家成立於2015年的科技公司,面向消費級市場和行業應用市場,提供水下綜合解決方案。
  • 百度大腦成為CVPR 2020大贏家 連奪八冠大秀中國AI水平
    受到全球疫情影響,CVPR 2020改為6月14-19日舉行線上大會;讓人喜出望外的是,華人學者及團隊大放異彩,組成「中國軍團」向全球展示AI實力。  作為「中國AI頭雁」,百度已多年連續出徵CVPR,驕人成績一如既往。
  • 這是一套檢測「精子活躍度」的利器
    日本 Recruit Lifestyle 公司開發了一個 Seem 工具包,其中主要的核心就是「Seem kit」這個概念,非常簡單的讓男士在家就可以自行檢測精子的活性和數量。所以呢,這個 App 才是整個「 Seem 工具包」的核心, 通過顯微鏡鏡頭來收集精子圖像,然後對精子作相關解析。(注意!! App 可以在文章結尾下載)