「品覽AI論技」精度和速度的極佳平衡——EfficientDet做到了

2020-12-10 品覽Pinlan

往期的文章裡,我們介紹了分類模型EfficientNet 【AI論技】EfficientNet的原理和應用

由谷歌大腦實驗室提出的目標檢測網絡EfficientDet也非常優秀。該模型是以EfficientNet為骨架網絡,並沿用了其compound scaling方法,在目標檢測任務中實現了精度和速度的極佳平衡。

本文作者Eddie

品覽視覺算法研究員

密西根大學安娜堡分校碩士

兩年AI算法經驗

EfficientDet概述

說到新一代的高性能目標檢測網絡,除了Yolo系列外,谷歌大腦實驗室提出的EfficientDet模型[1]也非常優秀。該模型是以分類模型EfficientNet為骨架網絡,並沿用了其compound scaling方法[10],在目標檢測任務中實現了精度和速度的極佳平衡。由於模型不包含RoI(Region of Interest)推理模塊,EfficientDet仍然屬於one-stage檢測器。相比two-stage檢測器(比如Fast-RCNN系列),one-stage檢測器結構簡單,推理速度快。在模型設計上,EfficientDet仍然採取了「特徵抽取backbone + 多尺度feature融合 + box/class預測」的架構,這種架構與RetinaNet和Yolo等主流one-stage檢測模型是相似的。

圖1. EfficientDet的模型架構[1]。使用了EfficientNet作為特徵抽取backbone,然後用BiFPN網路把不同尺寸的特徵加權融合,最後通過輸出層預測物體的box和class。

EfficientDet系列包含D1~D7七個模型,序號越大表示模型的算力消耗和參數量越大,但精確度越高。EfficientDet-D7在COCO數據集上取得了53.7的mAP(論文發表時的mAP是52.2,後來被研究者又提升到了53.7,見官方源碼[7]),在COCO數據集的精確度排行榜上穩居前三。在耗時上,EfficientDet的性價比也很高。最輕的EfficientDet-D0的精確度略高於YoloV3,但是FLOPS(floating point operations per second, 用來衡量計算量的參數)只有YoloV3的二十八分之一。

此外,EfficientDet具有的簡潔漂亮的模型結構,獨具特色的特徵融合方法,系統高效的模型擴增方法等眾多可圈可點之處,給這個系列帶來了長足的潛力。

圖2. EfficientDet與其他檢測模型的性能對比[1]。這裡沒有包括YoloV4, DetecoRS等2020年中旬才提出的最新檢測模型。

多尺度特徵融合

目標檢測的一大難點就是克服不同物體的尺寸差異。比如COCO數據集中物體的尺寸就非常不平衡,而且包含大量小尺寸物體,為高精度的目標檢測帶來了很大的難度。因此早期的目標檢測任務中,對輸入圖片採用了圖像金字塔採樣的方法,確保模型可以較好地識別出不同尺寸的物體(FPN的論文[2]中有相應的回顧)。然而這個方法大幅增加了推理耗時,也沒有用到CNN模型天然的特徵多尺度性(深層feature map比淺層feature map的長寬要小,但通道數更多)。

為了利用到CNN中的多尺度特徵,SSD模型[3]通過skip-layer-architecture,將骨架網絡VGG中最後幾個block的輸出feature map各自取出分別預測物體的box和class,再把每個尺度feature map的物體檢測結果stack在一起。這使得SSD取得了超過YoloV1的精度和速度。

進一步提高模型的精度不單單需要用到多尺度特徵,還需要將不同尺度的特徵高效融合。FAIR實驗室於2017年提出的FPN網絡(Feature Pyramid Network),將從backbone網絡取出的不同尺寸特徵圖,用包含cross-scale connection的CNN網絡進行重組。具體的做法是把用1x1卷積和上採樣把兩個feature map的通道數和長寬轉化為相同後,再把兩個feature map相加。FPN在COCO數據集上將Faster-RCNN模型的mAP提升了8個點。之後沿用到RetinaNet[4]中也取得了很好的效果。自此以後,FPN及其衍生出的結構成為了目標檢測模型中的一大常用結構。

圖3. FPN結構圖[3]

BiFPN結構

FPN中只有top-down流向的信息通路,即把深層的小尺寸特徵圖上採樣後與淺層的大尺寸特徵圖融合。PA-Net[5]和NAS-FPN[6]加入了把淺層大尺寸特徵下採樣後與深層小尺寸特徵進行融合的bottom-up通路,進一步提升了精度。EfficientDet借鑑了PA-Net的思路,提出了獨具特色的BiFPN結構。

圖4. BiFPN與其他特徵融合網絡的結構對比[1]

具體做法是在PA-Net中的第一層中只保留輸入邊和輸出邊個數都為2的節點,在第二層中的每個節點增加一條來自相同層級的原始特徵圖的輸入邊。相比PA-Net, BiFPN的結構更加緊湊,特徵融合效率更高。同時,研究者對每個特徵圖的融合權重做了快速正則化(Fast normalized fusion),增加了融合過程中穩定性(這裡推薦看一下原始論文)。

模型擴展

研究者基於啟發式(heuristic)的參數,決定了EfficientDet中輕型模型和重型模型在圖片解析度,通道數和模型深度方面的遞增關係。

圖5. EfficientDet D0~D7的解析度,模型寬度,模型深度的遞增關係[1]

這種方法通過均勻地增大解析度,模型寬度和模型深度,使得模型儘可能以最小的FLOPs增加帶來最大的精度提升。從EfficientDet D0~D6上模型每升一級,FLOPS大約增加一倍,但是精度提升明顯。比如D2~D3,FLOPS從11 billion增加大25 billion提升了2.27倍(近似2倍),但COCO測試集上的mAP提升了2.8個點。

圖6. EfficientDet D0~D7的性能對比[1]

最輕的EfficientDet-D0的mAP與YoloV3相當,但FLOPs只有不到二十分之一。最深的EfficientDet-D7的mAP可以達到52.2(目前這一mAP已被提高到53.7)。

總結

根據谷歌在efficientDet開源實現上給出的數據[7],在tesla-v100上,EfficentDet-D0的單張推理速度可以達到97FPS,EfficientDet-D4的單張推理速度可以達到24FPS(且COCO測試集上的mAP高達49.4)。

在這個基於深度學習的檢測模型百花齊放的年代, EfficientDet也遇到了的大量對手。2020年中旬提出的DetectoRS模型[8],目前在COCO數據集上佔據榜首(mAP高達54.7);2020年4月提出的YoloV4模型[9],在COCO數據集上的mAP達到43.5,而FPS高達65。值得注意的是,YoloV4中仍然採取了PA-Net進行多尺度特徵融合,可提升之處還是很大的。

總體而言,EfficientDet系列結構簡潔,模型拓展高效,具備很高的性能和發展潛力。

參考文獻:

[1]. Mingxing Tan Ruoming Pang Quoc V. Le, EffificientDet: Scalable and Effiicient Object Detection

[2]. Tsung-Yi Lin, Piotr Dollar , Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie, Feature Pyramid Networks for Object Detection

[3]. W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed., SSD: Single shot multibox detector

[4]. Tsung-Yi, Lin Priya Goyal, Ross Girshick, Kaiming He , and Piotr Dollar, Focal Loss for Dense Object Detection

[5]. Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia., Path aggregation network for instance segmentation.

[6]. Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, and Quoc V. Le. Nas-fpn, Learning scalable feature pyramid architecture for object detection.

[7]. 谷歌基於tensorflow的efficientDet的開源實現:

https://github.com/google/automl/tree/master/efficientdet

[8]. Siyuan Qiao, Liang-Chieh Chen, Alan Yuille, DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution

[9]. Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao, YOLOv4: Optimal Speed and Accuracy of Object Detection

[10]. Mingxing Tan, Quoc V. Le, EffificientNet: Rethinking Model Scaling for Convolutional Neural Networks

品覽Pinlan是AI物品識別專家,我們的產品結合了AI的認知識別能力,Cloud的強勁算力,IoT的邊緣支持。我們的使命是讓物品識別能力無處不在,賦能星球上的每一個企業與個體。在AI應用領域,團隊服務過欣和集團、上汽集團、頂新集團(味全)、Farfetch、自如、英德知、河南中煙等客戶。我們同全球頂級合作夥伴微軟,企業微信,百度AI大腦等一起為企業客戶提供AI巡店通,AI億覽通,小覽機器人以及品識-AI商品識別平臺產品服務。

相關焦點

  • PyTorch版EfficientDet比官方TF快25倍?這個項目數天狂攬千星
    最近,有開發者在 GitHub 上開源了「PyTorch 版本的 EfficientDet」。該版本的性能接近原版,但速度是官方 TensorFlow 實現的近 26 倍!目前,該項目在 GitHub 上獲得了 957 顆星,最近一天的收藏量接近 300。
  • 「品覽AI論技」RetinaNet在貨架商品盤點中的應用
    品覽面向快消零售行業提供AI物品識別服務,利用計算機視覺智能識別海量SKU,從零售貨架圖像中解析準確有效且完備的數據。在計算機視覺諸多目標檢測模型中,RetinaNet作為經典模型之一,在檢測精度和檢測速度兩方面都有優異的表現。選擇RetinaNet模型框架並調優應用在貨架商品檢測場景,深受客戶好評。
  • ...5G+AI賦能傳統製造;武漢理工博士開發基於回聲的人類活動識別系統
    ,做到不用視頻也可以觀察,不獲取聲音也可以監聽,通過超聲波分析你的狀態,它不會捕捉視頻或音頻。實驗表明,在相同設備下正面人臉檢測網絡的平均精度(AP)度量和移動GPU推理時間方面都有所提高。連結:評論:更輕量、快速的人臉檢測算法將有效推動移動端實時人臉識別計算的發展,快創更多應用場景可能性。意念實時轉語音!
  • 騰訊「雲深智藥」用AI持續助力藥物發現
    通過騰訊自研的提升蛋白質結構預測精度的新方法,聯合研究團隊首次解析了II型5a還原酶(SRD5A2)的三維結構,揭示了治療脫髮和前列腺增生的藥物分子「非那雄胺」對於該酶的抑制機制,這將有助於深化研究相關疾病的病理學機制及藥物優化。
  • 精度延遲兩不誤,移動端性能新SOTA,谷歌TF開源輕量級EfficientNet...
    項目地址:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/lite即便是 EfficientNet-Lite4 這個計算量最大的版本,在 ImageNet top-1 上達到 80.4% 分類精度的同時,也能夠實時(30ms
  • 提升PyTorch訓練速度,小哥哥總結了17種方法!
    學習率 schedule 的選擇對模型的收斂速度和泛化能力有很大的影響。Leslie N.之後,fast.ai 的 Jeremy Howard 和 Sylvain Gugger 對其進行了推廣。下圖是 1Cycle 學習率 schedule 的圖示:
  • AI可以為生態平衡做些什麼?他們給出了一份答案
    「保護亞洲象」已見成效,但隨之而來的,是大象逐漸走出雨林,來到人類生活區,造成「人象衝突」事件。於是,人與象如何在雨林家園內和諧相處成為了當地的新難題。為了解決這一難題,浪潮與西雙版納國家級自然保護區管護局攜手,開發了一款亞洲象生態保護系統,這也是全球首個針對亞洲象的AI保護應用。
  • 本氣和精度.
    本氣和精度,對於第一次看到這兩個詞彙的大家來說,估計有點摸不著頭腦。這兩個詞彙是原本是日語裡的「本気」、「精度」,原諒我照葫蘆畫瓢,直接把日語漢字譯成中文漢字展現給大家。今天下班途中突發奇想,除了個人的思考感悟,創建一個日本文化的標題在我看來也是可行的。作為日語專業出身的我,對語言這塊有興趣。
  • 「 兒童體能」之「平衡訓練」
    如:坐位、站立位等在一定時間範圍內對身體姿勢平衡的維持動態平衡能力:是指在運動狀態下,對人體重心和姿勢的調整和控制能力。如:走、跑、跳運動中維持身體的平衡。最終各方面的信息傳導中樞神經系統,進行綜合分析,再經錐體束髮出隨意運動的衝動指揮肌肉-骨骼系統以隨時糾正身體的偏移、穩定平衡。當人體進行直線運動和旋轉加速度運動時,對感受身體變化情況起著重要作用。
  • 回顧:Drive.ai 、文遠知行WeRide、51VR,三大視角解讀自動駕駛仿真
    為讓有志者更加了解自動駕駛仿真行業現狀與技術乾貨,「AI投研邦」特在11月開展智能駕駛·仿真專場,Drive.ai 、文遠知行WeRide、51VR三大公司站臺,近千位智能駕駛從業者參與聆聽。智能駕駛·仿真專場中,Drive.ai 技術專家孫慶、文遠知行WeRide仿真與雲計算執行總監譚偉華、51VR 自動駕駛事業部研發負責人鮑世強為新智駕會員詳解了他們眼中的自動駕駛仿真系統的現狀與挑戰。「AI投研邦」會員可進入「AI投研邦」頁面查看三場Live完整實錄。孫慶:開環+閉環模擬仿真系統,助力Drive.ai自動駕駛研發
  • 來自GPT-3的七夕問候:溫哥華小哥的AI「哲學家」告訴你什麼是愛
    ……一個人也可以在社交環境中體驗愛情,「愛」一詞可以用於描述溫柔和親切的感覺,也可以表達被愛時的情感狀態。雖然柏拉圖式的戀愛缺乏浪漫……但不一定是感情不深。但 reddit 上從來不乏「好事」的網友,他測試了幾次後,發現「哲學家」傾向於回答「陳詞濫調」的哲學問題,但是拒絕包含潛在的荒謬、有爭議、冒犯性的問題。然而,「哲學家」並不是刻意迴避問題,對問題進行微妙的重新措辭,可以打開他的「話匣子」。網友:狗狗會上天堂嗎?
  • 品覽Pinlan李一帆:從此拒絕人工計數,AI物品識別助力降本提效
    3.大部分生產、物流、零售企業的業務痛點在於效率低、易出錯、成本高,通過AI物品識別就可以做到降本提效。以下為演講實錄:今天將為大家分享4個關鍵詞:AI、SaaS、數據和物品識別,這其中融合了品覽Pinlan的介紹,也包括了我對最近所做事情的思考。大約在2015年左右,我在移動網際網路時代的尾聲加入了創業浪潮。
  • 一行代碼讓訓練速度提升2倍,飛槳自動混合精度技術詳解
    隨著生活節奏的加快,「等待」已經越來越成為人們希望遠離的事情。但是在深度學習領域,模型的參數、數據集的規模等等動輒就是以億為單位,甚至更大,因此當模型訓練成功之時,放一首張靚穎的「終於等到你」作為背景音樂實在是太應景了。那如果現在向你推薦一款神器,可以實現訓練速度翻倍,訪存效率翻倍,你心動嗎?
  • 對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?
    ai的核心問題是如何「產生」,不管是imagenet還是svd,都是一種「訓練」過程,這種練習的價值基於特徵提取完成後對目標的預測。那麼這些特徵能不能「產生」呢?根據經驗,是的。舉個簡單的例子,微博上一般都是這樣子對話的:這種對話很好「產生」,因為人的語言翻譯一般很難做出來,從整體上描述了人對話過程,這樣就完成了對話的設計和「模仿」。當然,單這麼說也不嚴謹,可能有的翻譯有點細節交流上的錯誤。另外,比如歌詞有時也可以通過一些對比的對話(bingquery)自動生成,原因在於歌詞是「不可編碼」的。這麼理解,也就沒問題了。
  • 以ai為基礎的其他知識和技能有可能被ai取代嗎
    人工智慧時代的到來,讓各大公司在招聘時要求掌握相關知識和技能,利用人工智慧技術提高招聘效率,一旦ai在日常工作中運用該技術,那麼我們的工作會面臨被取代的危險。那麼,要如何做才能讓自己的職業發展不被取代呢?以ai為基礎的其他知識和技能有可能被ai取代嗎?ai為基礎的其他知識和技能人類在識字母的過程中獲得聲、形兩種形態的可能的表示方法,也就是字母的組合。
  • 叫板Quest 2,奇遇VR的底牌「追光」與「哥倫布計劃」
    隨著「追光」的發布以及「哥倫布計劃」的啟動,愛奇藝奇遇VR面向遊戲領域的硬體、軟體和生態布局已經全面鋪開。首款搭載「追光」視覺交互技術方案的VR一體機——奇遇3,將定位於「發燒級遊戲大作」,在2021年第二季度正式發布並開售,劍指業界公認標杆Oculus Quest 2,挑戰其霸主地位。
  • 「電」的速度和光速相比哪個更快·電驅汽車究竟有什麼優勢
    內容概述:光速與電流速度的差距,在汽車領域「電」的應用。知識點1:光速標準為299792458m/s(一般認定為30萬公裡每秒),這是以目前人類科技等級絕對無法超越的速度。不過同樣被認定為非常快的音速已經被超越,然而在是標準大氣壓的環境中音速僅僅為【340m/s】秒而已;那麼除了因素以外還有其他速度可以超越嗎?比如「電」的速度?理論上奔跑的速度都可以超過「電子」運動的速度,因為電子的行速僅僅為2m/s!博爾特每秒都能奔跑超過10米。
  • NextBillion.AI 鄭少麟:場景地圖服務並非測繪一條路
    因為這是當時一直在使用標準化電子地圖服務的「友車」根本無法實現的。而直到很久以後,他才搞清楚那家公司究竟是如何做到的。身為資深IT人的鄭少麟,第一次意識到了地圖的重要,從而也為日後他踏入地圖圈埋下了伏筆。
  • Clearview AI:從上流社會的「秘密玩具」,到巨頭圍剿的「亡命之徒」
    這款應用背後的初創公司擁有一個數十億張照片的資料庫,這些照片來自 Facebook、Twitter 和 LinkedIn 等網站。上流社會的「秘密玩具」當 Clearview 尋求 A 輪融資時,這家初創公司聯繫了很多風險投資公司,包括紅杉資本和科斯拉風險投資。
  • 潮科技享新年 科沃斯是最好的「AI」紅包
    在科技迅猛發展的時代,年輕人也時刻追隨科技的步伐,享受最現代的技術,在春節這樣一個表達愛意的節日裡,不妨拋棄傳統紅包,也給爸媽一次追趕時代步伐的機會,為爸媽送上一份「AI」的紅包——潮科技。 「AI的紅包潮科技 新年掃地有新意」,「AI的紅包真有趣 貓貓狗狗也歡喜」,「AI的紅包添喜氣 淨享滿堂好福氣」……近日,科沃斯機器人發起了「今年過年,給爸媽一個AI的紅包」話題活動,掃地機器人、擦窗機器人、空氣淨化機器人等一份份沉甸甸的「AI」紅包引起大家共鳴,創意海報更是刷屏朋友圈,大家看到,「AI」的紅包不僅僅是一份表達愛意的禮物,更是讓爸媽享受科技進步的最好機會