基於百度EasyDL定製化圖像識別平臺的海洋魚類識別方法

2020-12-19 雷鋒網

本文作者:範偉亞

【目的】魚類識別對漁業資源的開發利用有著重要的意義。針對海底環境惡劣、拍攝環境亮度低、場景模糊的實際情況導致海底觀測視頻品質差,視頻中的魚類識別難的問題以及現有魚類識別方法存在的魚類標註數據集過少導致訓練的深度模型準確度不高的問題。

【方法】本文提出了一種基於百度EasyDL定製化圖像識別平臺的海底魚類識別方法。首先使用伽馬校正法和暗通道先驗算法對圖片數據進行預處理,提高圖片亮度和清晰度,接著利用百度EasyDL定製化圖像識別平臺構建初魚類識別模型,再使用數據增強等方法對模型進行調優,提高模型識別能力。

【結果】實驗結果表明,與其他識別方法相比,該方法可以有效提高魚類識別的準確率。

1 引言

魚類不但有一定的食用價值,而且還有很高的藥用價值,所以世界各國對魚類資源的開發和利用都非常重視,在對魚類資源開發過程中,必須對魚類進行識別,了解其分布情況,但魚的種類繁多,形狀大小相似,識別起來較為困難。因此研究魚類識別的方法,對我國漁業資源的開發利用具有重要的學術價值和經濟價值,對於魚類的分布情況,傳統的研究方法以出海捕撈為主,使用延繩釣探捕、拖網探捕等常用捕撈技術。這種傳統調研方式固然有效,但是對於相關科研人員來說,由於調研過程周期長,耗費資源太多,而且結果存在一定的延遲性,大大影響研究人員研究成果的質量。還有基於聲吶系統的方法,對魚體回波信號進行處理分析,從聲學信號中提取適於分類的特徵進行識別,但是由於聲吶系統會對魚類造成一定的傷害,所以也不能頻繁實施,針對上述問題,國家於「十二五」期間提出將全面推動國家海底觀測平臺的建設,其中就包括通過部署水下攝像器材來實時監控關鍵海洋生物的重要務,這樣就可以通過分析觀測視頻來代替出海調研,而且保證了獲得數據的實時性,能夠極大地提高科研人員的研究效率。

傳統的機器學習方法用於魚類識別的實現過程為:獲取魚圖像、提取特徵、構建分類器,將特徵向量輸入分類器以實現種類識別。如:Phenoix等人[1]採用貝葉斯和高斯核混合模型對魚類特徵進行分層分類的方法來實現魚的分類識別;杜偉東等人[2]提出了一種提取多方位聲散射數據的小波包係數奇異值、時域質心及離散餘弦變換係數特徵,並進行特徵融合,最後用支持向量機分類的魚識別方法;雖然這些方法都可以實現魚類識別,但是這些方法這類方法已不適用於當前的視頻或圖片數據,並且方法嚴重依賴於人工選擇特徵,而人工選擇特徵往往只能選擇表層特徵,很難挖掘出有鑑別力的特徵。

和傳統機器學習方法相比,近年來崛起的深度學習方法以數據為驅動,能夠從大量數據中通過卷積等操作自動學習特徵表示,很好的解決了人工選擇特徵的問題。Abdelouahid等人[3]和顧鄭平等人[4]都提出了採用深度網絡模型進行魚類識別的方法,雖然這些方法在識別性能上都取得了引人矚目的效果,但是依然存在以下問題:模型識別性能的提高需要大量的魚類標註數據集用於學習訓練,而標註數據工作費時且昂貴,故在實際應用中難以滿足。

為此,針對以問題,本文提出了一種基於百度EasyDL定製化圖像識別平臺的海底魚類識別方法。利用百度EasyDL定製化圖像識別平臺解決目標數據集訓練數據過小和數據分布差異問題,而且通過引入伽馬校正法和暗通道先驗算法對數據進行預處理,使數據特徵具有更好的辨別能力,同時使用數據增強方法對模型進行調優,使得訓練得到的模型的泛化性更強。

2 相關工作

2.1 海洋魚類識別系統

圖 1 海底觀測平臺

海底觀測平臺的系統結構如圖1所示,位於海面以下的水下接駁器統一接收來自各個傳感器的採集數據,包括水下攝像器材採集的視頻數據,然後將數據傳輸至位於陸地上的岸基站。岸基站接收並緩存所有來自海底的數據,按約定的協議和規則轉發給大數據中心。大數據中心由多個子系統構成,負責對不同類型數據的轉化、存儲、處理、分析,其中包括本文將要研究的海洋魚類識別系統,負責對海底觀測視頻的處理分析。本文採用開源計算機視覺工具軟體OpenCV來讀取視頻數據,將視頻分解為圖片幀,同時使用背景差分算法過濾無用幀後,針對每一幀進行預處理和識別分析。

2.2 數據預處理

由於海底圖像對各種噪聲和幹擾是比較敏感的,在不同光照條件下,懸浮物等都對最終成像和識別有很大的影響。而且從圖像的形成過程考慮,圖像採集是將一個三維目標映射成為一幅二維圖像,不可避免會有信息的丟失,所以本質上圖像就具有一種模糊性。另一方面由於海水的能見度低, 透明度只有空氣的千分之一,使得採集到的圖像信噪比較低、紋理模糊。再次由於海洋中各種懸浮物的存在, 也會對光波(也就是電磁波)產生散射和吸收作用 ,導致採集到的海底圖像產生嚴重的灰白效應。再加上海流的影響以及攝像機鏡頭的抖動等因素, 造成圖像部分失真現象等因素都會影響最終識別的效果。

下面是幾幅比較典型的海底魚類圖像,我們可以看到,採集的圖像的對比度都較低,圖像較為模糊:

圖1 海底魚類圖像圖

因此,本文先使用提高亮度、提高清晰度對數據進行預處理的方法,儘可能消除亮度低和模糊帶來的影響。對於提高亮度的方法,本文選擇伽馬校正法[5],使用指數函數調整每個灰度單元,計算公式如下:

(1)

亮度的變化由參數γ來控制:當γ<1時,pi,j[k]的值會變小,亮度會提高。反之,則pi,j[k]的值會變大,亮度會降低。

對於提高清晰度的方法,通過參考基於暗通道先驗算法去霧的研究[6]。該研究認為霧天拍攝圖片的模糊是由空氣中的雜質對光的散射造成的。而海底拍攝圖片的模糊也恰好是由水中的雜質對光的散射造成的,於是可以將其適用於海底拍攝圖片,所以在該研究的基礎上,針對海底環境的特點作了改進,對每個灰度單元進行優化,計算公式如下:

(2)

綜合上述提高亮度和清晰度的過程,預處理的步驟如下:

圖3所示展示預處理方法對圖片品質的提升效果:

a原始圖 b預處理後圖片

圖2 預處理效果對比圖

從圖3中可以看出,本文提出的預處理方法可以比較有效地提高圖片的亮度以及清晰度。但是面對品質極差的圖片,預處理方法也顯露出了局限性,無法將其品質提高到魚類各項關鍵特徵都清晰的程度。

2.3 模型構建及訓練

本文以臺灣電力公司、臺灣海洋研究所和墾丁國家公園在2010年10月1日至2013年9月30日期間,在臺灣南灣海峽、蘭嶼島和胡比湖的水下觀景臺收集的魚類圖像數據集合--Fish4Knowledge(F4K)數據集[7]作為實驗數據。該數據集包括23類魚種,共27370張魚的圖像,數據集如圖4所示。

圖3 Fish4Knowledge(F4K)數據集

將實驗數據上傳至百度EasyDL數據中心,如圖4所示,採用百度EasyDL定製化圖像識別平臺構建魚類圖像識別模型,由於魚類形狀大小相似,品種差異小,可辨識性較小,故選擇AutoDL Transfer算法進行模型訓練,AutoDL Transfer模型是百度研發的AutoDL技術之一,結合模型網絡結構搜索、遷移學習技術、並針對用戶數據進行自動優化的模型,與通用算法相比,雖然訓練時間較長,但更適用於細分類場景。如圖5所示。

圖4 數據上傳

圖5 模型構建

2.3 預處理有效性實驗

為了證明本文所提預處理方法的有效性,本文在F4K數據集上做了原始的數據和基於預處理的方法的數據模型性能對比實驗,實驗在參數相同的條件下,使用百度EasyDL定製化圖像識別平臺對數據進行訓練,評估對比結果如表1所示:

表2性能對比

表1的結果顯示,在魚類識別上本文所提的預處理方法比使用原始數據有更好的識別性能,準確率及召回率等各項指標都要遠遠好於使用原始數據訓練的模型。

2.4 模型進一步調優

為了更好的提高模型識別的準確率,本文採用數據增強的方法對數據進行擴充,增加數據的規模,提高模型的泛化性能。以前,若想對訓練數據進行數據增強的操作,需要手動調整圖片來對模型訓練樣本進行擴展,例如旋轉、移動、縮放、翻轉圖片等方式,過程如圖6所示。

圖6 數據增強處理

如今,EasyDL的圖像分類模型訓練中,可以通過平臺提供的調參功能來自動執行上述增強操作,優化數據豐富度,開發者再也不用手工重複處理原始數據啦!

表3 數據增強後數據集大小

表4 數據增強後性能對比

2.5 模型對比實驗

為了進一步證明本文模型的優勢,將本文模型與其他模型,包括目前流行的深度網絡模型VGGnet16、VGGnet19以及文獻[3]中的PreCNN-SVM魚類識別方法和文獻[4]中Alex-FT-SVM魚類識別方法,在F4K數據集上進行性能評估和比較,實驗對比結果如表2所示。

表5不同方法的魚類識別性能比較

表2的各種方法對比結果來看,本文的方法相對於其他方法識別準確率有較大提升,獲得了99.6%的魚類識別精度。本方法充分利用百度EasyDL定製化圖像識別平臺優勢,可以很好地解決魚類識別任務訓練數據不足的問題,同時通過引入伽馬校正法和暗通道先驗算法對數據進行預處理,使數據特徵具有更好的辨別能力,使用數據增強方法對模型進行調優,進一步提高了模型識別的準確率。

3 結束語

海底觀測環境亮度低、場景模糊,導致採集的視頻品質差,直接識別視頻中的海洋魚類效果不好。本文提出了預處理方法提高圖片品質、百度EasyDL定製化圖像識別等方法,實現對較差品質圖片的準確識別。針對亮度低和場景模糊的問題,在預處理時首先使用伽馬校正法提高了圖片的亮度,然後參考基於暗通道先驗算法的去霧研究針對海底環境的特點作了改進,提高了圖片的清晰度。由於目前還沒有大量標記數據,本文使用百度EasyDL定製化圖像識別及AutoDL Transfer算法,解決了訓練數據少導致模型效果差的問題。從實驗結果可以看出,本文所提方法可以以高達99.6%的準確率識別海底魚類的圖片,驗證了方法的有效性。然而,本文的方法還存在不足,其中的關鍵在於海底環境的特殊性,提高圖片品質的預處理方法還沒有完全結合海底環境的特點,提高圖片品質的能力有限。下一步的研究工作將是深入分析、挖掘海底環境的特點,提出針對性更強的、更有效的預處理方法。

參考文獻:

[1]Huang, Phoenix X., Bastiaan J. Boom, and Robert B. Fisher. "Hierarchical classification with reject option for live fish recognition." Machine Vision and Applications 2015,26(1): 89-102.

[2]杜偉東, 李海森, 魏玉闊, 等. 基於 SVM 的多方位聲散射數據協作融合魚分類與識別[J]. 農業機械學報, 2015,61(3):39-43.

[3]Tamou A B, Benzinou A, Nasreddine K, et al. Underwater Live Fish Recognition by Deep Learning[C]//International Conference on Image and Signal Processing. Springer, Cham, 2018,171(6): 275-283.

[4]顧鄭平,朱敏.基於深度學習的魚類分類算法研究[J].計算機應用與軟體,2018,35(1):200-205.

[5]蔣明敏.基於FPGA的LCD伽馬校正研究[D].南京,南京林業大學,2016:25-27.(JIANG M M.Research on LCD Gamma Correction Based on FPGA[D].Nanjing,NanjingForestryUniversity,2016:25-28.)

[6]HE K, SUN J, TANG X. Single image haze removal using dark channel prior[J]. IEEE transactions on pattern analysis and machine intelligence, 2011, 33(12): 2341-2353.

[7]B J, Huang P X, He J, etal. Supporting ground-truth annotation of image datasets using clustering[C]//ICPR. 2012,21(1): 1542-1545.

相關焦點

  • 基於深度學習的圖像識別進展
    【視覺機器人:個人認為先驗知識對於做產品很重要,所以要做好某方面的產品,必須成為這個領域的專家】2 基於深度學習的圖像分類和物體檢測算法在物體檢測方面,如圖2 所示,目前主流的算法大都採用掃描窗或是候選窗方法。
  • 百度大腦產品上新&技術升級:圖像處理、智能寫作平臺、語音識別
    百度大腦一月一次的最新技術&產品盤點來了。在這裡,與百度大腦一起成長,見證 AI 的力量。您可以從 PC 端訪問百度 AI 開放平臺(ai.baidu.com)申請邀測,或使用最新產品。新開放 AI 技術能力語音識別語音識別極速版支持60秒內音頻使用 REST API 方式進行調用,簡單易用。
  • 基於GIS和圖像識別的城市空間形態識別研究
    本文以城市空間形態為主要研究對象,利用GIS(地理信息系統)與圖像識別技術,以地球圖像信息為載體,分別用無監督識別和半監督識別的方法,實現了對城市多種空間形態的識別與自動分類,並對無監督與半監督的分類結果進行了比較分析。
  • 圖像識別 | 基於Amazon Rekognition的圖像識別應用
    今天我們就來藉由亞馬遜開發出的Amazon Rekognition看一看,人工智慧深度學習在圖像識別方面有哪些實際性的應用。深度學習大致上基於大腦中的信息處理和通信模型,使用從大量的注釋數據中學到的特徵代替人工編寫的特徵。在目前的深度學習發展中,卷積深度神經網絡 (CNN)、遞歸神經網絡等幾種深度學習架構已經在計算機視覺、語音識別、自然語言處理和音頻識別中得到了應用。
  • 乾貨:Python+百度圖像識別進行圖像審查
    圖像識別在做平臺類應用的時候,我們經常要對用戶上傳的內容進行審核,包括圖片、視頻的內容中是否涉黃、暴力、血腥等等不合格內容的審核,過去這類工作只能靠人工審查。代碼實現截圖AipImageCensor(APP_ID, API_KEY, SECRET_KEY)# 讀取圖片def get_file_content(filePath):with open(filePath, 'rb') as fp: return fp.read()img = get_file_content('E://work//baiduaudio//zhengzhi1.jpg')# 調用圖像審核接口
  • 基於機器學習實現圖像識別探索
    在這個AR/VR技術的變革中,圖像識別技術依舊是關鍵。現在隨著機器學習圖像識別技術不斷進步,圖像識別技術將賦予超瞳大兵眼鏡「眼睛」,這標誌著大兵讀圖時代正式到來,並且將引領我們進入更加智能的未來。這個過程就可以分為兩個步驟:首先要先對新事物進行學習:AR眼鏡/智慧型手機通過攝像頭捕捉物體信息、雲端機器學習集群對物體信息進行訓練、形成圖像數據模型;之後通過AR眼鏡/智慧型手機圖像識別軟體進行物體識別:當本地程序需要時,下載雲端圖像數據模型進行本地學習、掃描該物體對信息進行分析並返回結果。
  • 百度雲首創圖像搜索 支持人臉識別和檢索
    首創雲端圖像搜索基於用戶上傳到百度雲的圖片提供智能分類、人臉搜索等方式……        近日,百度雲在時光軸、足跡等原有圖片預覽功能基礎上全面升級,結合百度深度學習研究院提供的人臉識別及檢索技術
  • 以AI應援,粉絲用EasyDL打造TFBOYS照片識別AI模型
    粉絲借著AI服務平臺——EasyDL,搭建了一款能識別「3小隻」不同發展階段的TFBOYS六年在線照片庫的H5應用。2019年是TFBOYS成團的第六年,六年間團員不同時期的圖片數量十分龐大,就算是追星多年的粉絲,也難免會弄混他們不同時期的圖片。因此,這個EasyDL做出的識別圖片「外掛」發布後,就吸引了眾多粉絲試用。
  • 基於TensorFlow和Keras的圖像識別
    其設計原則旨在用戶友好和模塊化,儘可能地簡化TensorFlow的強大功能,在Python下使用無需過多的修改和配置圖像識別(分類)圖像識別是指將圖像作為輸入傳入神經網絡並輸出該圖像的某類標籤。該標籤對應一個預定義的類。圖像可以標記為多個類或一個類。如果只有一個類,則應使用術語「識別」,而多類識別的任務通常稱為「分類」。
  • 人臉識別碰壁,百度如何「破圈」?
    基於這一發現,通過採用基於空間位置的注意力機制特徵學習方法,充分獲取戴口罩人臉的身份信息。基於空間位置的注意力機制特徵學習其次,針對缺乏戴口罩訓練數據的問題,百度算法團隊通過人工生成的方式來解決。傳統直接在人臉上疊加口罩圖片的方法,由於人臉姿態變化和不同場景採集圖像的分布差異等問題,無法真實模擬實際場景中的戴口罩人臉圖片,實驗結果表明效果提升非常有限。
  • 用於海洋搜救的多片DSP圖像處理識別系統
    根據海洋搜救的性質,該系統應具備以下基本能力:  ·較高的可疑目標檢測能力;  ·較高的海洋背景抗幹擾能力;  ·具有一定的目標識別和跟蹤能力。  基於以上考慮,本文設計了由二片TMS320F2812和八片TMS320C6416T構成的圖像處理系統。
  • AI讓在線語言學習事半功倍 EasyDL零門檻定製開發模型助攻
    從技術來看,自適應應用或產品多基於諸如圖像處理技等,輔助性地應用在學習過程中的各個環節。截至目前,自適應學習大多是通過 " 搜集數據並分析——構建學習模型——匹配教學內容 " 三個基本步驟實現,且多數應用在 K12領域和語言學習領域。 那麼自適應技術是什麼呢?
  • 百度雲推出雲端圖像搜索 支持人臉識別和檢索
    百度雲推出雲端圖像搜索支持人臉識別和檢索  中新網9月15日電近日,百度雲在時光軸、足跡等原有圖片預覽功能基礎上全面升級,結合百度深度學習研究院提供的人臉識別及檢索技術更新升級之後,百度雲不僅能實現圖片智能分類、自動去重等功能,還能以圖搜圖,在海量圖片中精準定位目標。此次圖像人臉識別技術首次接入雲端,不僅意味著技術創新成為百度雲升級的核心驅動力,也引領了雲存儲圖片在線預覽和管理的新方向。   據了解,百度雲中圖片存儲佔用戶總存儲數據的40%,圖片的備份、預覽和管理成為用戶雲存儲最普遍的需求。
  • 深度學習與圖像識別
    經典的人臉識別算法Eigenface [6] 在這個測試集上只有60%的識別率。在非深度學習的算法中,最好的識別率是96.33% [7]。目前深度學習可以達到99.47%的識別率[8]。在學術界收到廣泛關注的同時,深度學習也在工業界產生了巨大的影響。在Hinton的科研小組贏得ImageNet比賽之後6個月,谷歌和百度發都布了新的基於圖像內容的搜尋引擎。
  • 圖像識別與檢測挑戰賽冠軍方案出爐,基於偏旁部首識別 Duang 字
    基於這一痛點,阿里巴巴「圖像和美」團隊推出 MTWI 數據集,這是阿里首個公開的 OCR 數據集,也是現有難度最大、內容最豐富的網絡圖片 OCR 數據集。基於該數據集,阿里巴巴「圖像和美」團隊聯合華南理工大學共同舉辦 ICPR MTWI 2018 挑戰賽,這場比賽共分為三個獨立賽道,一是識別單文本行(列)圖片中的文字,二是檢測並定位圖像中的文字行位置,三是識別整圖中的文字內容。三場賽道各自獨立,每場賽道都吸引了超過一千支隊伍參賽。
  • 手機百度5.5技術解讀:人工智慧+圖像識別打造的拍照搜索
    (手機百度5.5版啟動界面)圖像識別、圖像搜索技術一直是國際巨頭們比肩的核心領域,尤其是隨著智慧型手機的滲透和普及,對新型的語音、圖像交互技術出現了強烈的需求,無論是街頭的海報、朋友的衣服、超市裡的水果等,拍照進行搜索不僅體驗更有趣,還能創造更為豐富的使用場景。
  • 疫情加速百度人臉識別變革:戴口罩也能準確識別,迅速上線
    一個傳統的辦法,就是在現有的人臉圖像上「貼」上口罩。但這樣處理後的實驗效果並不明顯,原因是在真實場景中,人臉姿態會有變化,並且不同場景採集的圖像存在一定的差異性。針對這個問題,百度視覺採用了基於人臉關鍵點的3D圖像融合技術。
  • 基於慣性導航、RFID 及圖像識別的 AGV 融合導航系統
    汪思迪 曹小華 周 勇武漢理工大學物流工程學院 武漢 430063摘要:提出一種新型的AGV 定位導航方案,通過RFID 與圖像識別解決慣性導航誤差累計的缺陷,以STM32為主控制器實現對平臺的數據採集和姿態計算,由傳感器得到平臺的加速度、角速度,採用四元數法作為平臺的姿態更新算法,經濾波後得到平臺的姿態角。
  • 圖像識別 百度翻譯App隨手拍照就能翻譯
    如其所說,百度翻譯App最新推出3.0版本加入了百度獨有的圖像識別技術,這使得用戶只要打開百度翻譯App實物翻譯功能,對著物體拍張照,就能迅速識別並翻譯成英文。有意思的是,從不同角度,勾劃不同部分,還能得出各種結果。網友感嘆:屌絲生活變土豪,百度翻譯歡樂多!」
  • 基於機器視覺的零件圖像採集及識別的研究
    機器視覺藉助於計算機軟體對圖像進行定量的分析,其處理的速度與被處理圖像的複雜程度有關。它具有快速、可靠、一致性高的優點,對於大批量的生產有很好的經濟效益。本課題採用先進的圖像採集系統對零件的輪廓進行採集,通過vc++.net作為開發平臺,結合圖像處理相關的算法,對零件的輪廓邊緣特徵進行識別提取。