南開大學提出新物體分割評價指標,相比經典指標錯誤率降低 69.23%

2020-12-05 和訊
  新智元專欄作者:範登平(南開大學)

  【新智元導讀】南開大學媒體計算實驗室等研究團隊從人類視覺系統對場景結構非常敏感的角度出發,提出一種新穎、高效且易於計算的結構性度量(S-measure) 來評估非二進位前景圖,進而使得評估不需要像傳統AUC曲線那樣通過繁瑣且不可靠的多閾值化來計算精度、召回率,僅通過簡單的計算(5.3ms)就可以得到非常可靠的評價結果,成為該領域第一個簡單的專用評價指標。相關研究已被ICCV 2017錄用為spotlight paper,第一作者南開大學博士生範登平帶來詳細解讀。

  論文源碼及相關資源:http://dpfan.net/smeasure/

前景圖的度量對於物體分割算法的發展有著重要的作用,特別是在

物體檢測領域,其目的是在場景中精確地檢測和分割出物體。但是,當前廣泛應用的評估指標 (AP, AUC) 都是基於像素級別的誤差度量,缺少結構相似性度量,從而導致評估不準確(優秀算法排名比拙劣算法靠後)進而影響了領域的發展。

  天津南開大學媒體計算實驗室、美國中佛羅裡達大學機構的聯合研究團隊從人類視覺系統對場景結構非常敏感的角度出發,提出基於區域(Region-aware)和基於對象(Object-aware)的結構性度量 (S-measure) 方法來評估非二進位前景圖,進而使得評估更加可靠。該方法在5個基準數據集上採用5個元度量證明了新度量方法遠遠優於已有的度量方法,並且和人的主觀評價具有高度一致性(77%Ours VS. 23%AUC)。

  問題引出:專門評價指標缺陷

  評價指標的合理與否對一個領域中模型的發展起到決定性的作用,現有的前景圖檢測中應用最廣泛的評價指標為:平均精度AP (average precision)和曲線下的面積AUC(area under the curve)。在評價非二進位前景圖時,需要將輸入圖像進行閾值化得到多個閾值,再計算精度(precision)和召回率(recall)。

圖1

  然而,該方法已經被證明[1] 存在天然的缺陷。例如圖1中(a)和(b)是兩個完全不同的前景圖,但是經過閾值化計算AP和AUC後,最後的評價結果是AP=1, AUC=1。這表示兩個前景圖的檢測效果相當,這顯然不合理。

圖2

  再來看另外一個實際的例子,圖2中,根據應用排序(Application Ranking)以及人為排序(Human Ranking)認為藍色框的檢測結果由於紅色框。然而,如圖3所示,採用閾值化、再進行插值的方法(AUC)會評判紅色框檢測結果由於藍色框。

圖3

  因此,AUC評價方法完全依賴於插值的結果,忽略了錯誤發生的位置,也沒有考慮到對象的結構性度量。原因在於,AUC曲線是多個領域通用的評價指標,前景圖檢測領域還沒有一個簡單高效的專有指標。為此,有必要為該領域設計一個專門的簡單可靠的評價指標。

  解決方案:面向區域和面向對象的結構度量

  由於當前的評價指標都是考慮單個像素點的誤差,缺少結構相似性度量,從而導致評估不準確。為此,研究團隊根據人類視覺系統對場景結構非常敏感的角度出發,分別從2個角度去解決結構度量的問題。

  如圖4所示:(a)面向區域(Region-aware)結構度量和(b)面向對象(Object-aware)結構度量。

圖4

  面向區域的結構度量將區域的前背景整體度量,作為面向對象(前背景分離度量)的補充,進而為可靠的整體結構度量提供支撐。

  在計算面向區域部分,首先延著Ground-truth的重心部分採取2*2分塊法切割開,相應地為檢測結果圖切割,這樣得到4局部塊,後每塊相似性度量方法採用著名的結構性評價指標SSIM來度量。最後,根據每個分塊佔整個前景圖的比例進行自適應加權求和得到面向區域的結構相似度。

  b.面向對象的結構度量從物體角度出發,將前背景分離度量,與面向區域(前背景聚合成區域)互為補充,為度量對象級別的結構提供保障。

  通過大量的研究發現,高質量的前景圖檢測結果具有如下特性:

  前景與背景形成強烈的亮度對比。

  前景與背景部分都近似均勻分布。

  如圖5所示,result1檢測結果中對象內部和背景部分相對均勻,唯獨亮度對比不夠強烈,result2檢測結果中內部對象分布不均勻,背景部分大體均勻。

圖5

  研究團隊通過設計一個簡單的亮度差異和均勻性項來度量結構相似性。

元度量實驗證明有效性

  為了證明指標的有效性和可靠性,研究人員採用元度量的方法來進行實驗。通過提出一系列合理的假設,然後驗證指標符合這些假設的程度就可以得到指標的性能。簡而言之,元度量就是一種評測指標的指標。實驗採用了5個元度量:

  元度量1:應用排序

  推動模型發展的一個重要原因就是應用需求,因此一個指標的排序結果應該和應用的排序結果具有高度的一致性。即,將一系列前景圖輸入到應用程式中,由應用程式得到其標準前景圖的排序結果,一個優秀的評價指標得到的評價結果應該與其應用程式標準前景圖的排序結果具有高度一致性。如下圖6所示。

圖6

  元度量2:最新水平 vs.隨機結果

  一個指標的評價原則應該傾向於選擇那些採用最先進算法得到的檢測結果而不是那些沒有考慮圖像內容的隨機結果(例如中心高斯圖)。如下圖7所示。

圖7

  元度量3:參考GT隨機替換

  原來指標認定為檢測結果較好的模型,在參考的Ground-truth替換為錯誤的Ground-truth時,分數應該降低。如圖8所示。

圖8

  元度量4:輕微標註錯誤

  評價指標應該具有魯棒性,一個好的評價指標不應對GT邊界輕微的手工標註誤差敏感。如圖9所示

圖9

  元度量5:人工排序

  人作為高級靈長類動物,擅長捕捉對象的結構,因此前景圖檢測的評價指標的排序結果,應該和人的主觀排序具有高度一致性。我們通過收集45個不同年齡,學歷,性別,專業背景的受試者的排序結果進一步證明了提出的評價指標與人的評價具有高度的一致性(最高可達77%)。下圖10所示為用戶調研的手機平臺。

圖10  實驗結果

  為了公平的比較,指標首先在公開的一個前景圖檢測數據集ASD[3]上對4個元度量進行評測。評測結果顯示我們的結果取得了最佳性能:

  除了在基準數據集上進行評測外,還在另外4個具有不同特點的、更具挑戰性數據集上進行了廣泛的測試,以驗證指標的穩定性、魯棒性。

  實驗結果表明:我們的指標分別在PASCAL, ECSSD, SOD和HKU-IS數據集上比排名第二的指標錯誤率降低了67.62%,44.05%,17.81%,69.23%。這清楚地表明新的指標具有更強的魯棒性和穩定性。

  總結

  該評測指標將很快出現在標準的Opencv庫以及Matlab中,屆時可以直接調用。

  評測指標的代碼計算簡單,僅需對均值、方差進行加減乘除即可,無需閾值256次得到多個精度和召回率,再畫進行繁瑣的插值計算得到AUC曲線。因此,S-measure計算量非常小,在單線程CUP(4GHz)上度量一張圖像僅需要5.3ms.

    本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯:季麗亞 HN003)

相關焦點

  • 2020中國大學排名評價指標體系正式發布
    2015年,國家正式印發《統籌推進世界一流大學和一流學科建設總體方案》,提出建設世界一流大學和一流學科的發展戰略。 與國內外其他大學排名相比,校友會中國大學排名作為獨立的第三方大學評價,不以偏概全、不唯SCI論文,不簡單複製國外排名的評價思想;沒有採用畢業生人數、畢業生就業率和SCI論文數等數量指標。在評價最為核心的指標體系設計具有中國特色、中國話語權,不受任何外來因素的幹擾,保證了評價體系符合中國方案的公正性、科學性、系統性和完整性。
  • 全國政協委員、南開大學校長曹雪濤:大學評價不能「一把尺子」量到底
    中國青年報客戶端天津5月22日電(中青報·中青網記者 胡春豔)如何科學地評價一所大學,近年來一直備受關注。全國政協委員、中國工程院院士、南開大學校長曹雪濤注意到,現行的各類評價體系常以排名的方式對高校或其學科進行評判。他認為這種「一刀切」的評價標準迫切需要改革。
  • 南開大學校長曹雪濤:大學評價避免走入「唯排名論」誤區
    (兩會訪談)南開大學校長曹雪濤:大學評價避免走入「唯排名論」誤區  中新社北京5月22日電 (記者 張道正 郭超凱)全國政協委員、中國工程院院士、南開大學校長曹雪濤此次提交了兩個提案,一個涉及「以體育人」,一個關乎「科學評價」。
  • 學術出版商愛思唯爾:不該用期刊評價指標來評價科研人員
    「引用」並不是唯一的學術指標菲利普表示,目前評估科研影響力最經典、最常用的方式就是看它的被引頻次。「引用並不是唯一重要的信息,但它現在仍是比較重要的指標。」「不可否認的是,沒有哪一項指標是完美的,它們都有不足。」
  • 2019.04:經濟發展質量指標體系構建和綜合評價(張云云等)
    常用的評價方法有相對指數法、主成分分析法、神經網絡等,這些研究方法在一定程度上能夠量化評價結果,但仍有不足,主要無法判斷單個指標相對其系統內其他指標的評價等級。在衡量現有研究方法優劣的基礎上,本文選取物元可拓模型[8-10]對經濟發展質量水平進行綜合評價。相比其他方法,物元分析可將多目標評價轉化為單目標決策,並能從定性和定量角度給出評價結果,有較好優越性。
  • AI產品經理需要了解的語音交互評價指標
    enjoy~最近,在飯糰「AI產品經理大本營」裡,有團員提問:如何制定針對自然語言語音交互系統的評價體系?有沒有通用的標準?例如在車載環境中,站在用戶角度,從客觀,主觀角度的評價指標?實際工作中,一般識別率的直接指標是「WER(詞錯誤率,Word Error Rate)」定義:為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個數,除以標準的詞序列中詞的總個數的百分比,即為WER。
  • 移動新聞客戶端個性化推薦系統的用戶評價指標研究
    (二)關於「個性化推薦系統評價指標」的研究 先前有關推薦系統評價的研究大多注重於評價算法預測打分的準確度。 Sean M. McNee,John Riedl,Joseph A. Konstan(2006)[1]認為根據算法得出的最準確的建議有時不是對用戶最有用的建議,提出了新的以用戶為中心的方向來評估推薦系統。
  • 小康社會及現代化指標體系評價方法
    按指標的功能分,它有描述、解釋、評價、監測、預測的功能,一般指標體系都能做到描述和評價的功能;要做到監測功能就需從指標體系中發現問題,並根據問題提出對策和建議,難度較大些;預測功能是指根據目前情況對今後長期目標進行預測,如小康社會、現代化目標等。
  • 全方位解讀全景分割技術, 曠視冠軍團隊最新分享
    全景分割預測結果與真實標註匹配圖解 [1]從上面的公式能夠看到,在預測與標註匹配後的分割質量 SQ 計算時,評價指標 PQ 只關注每個實例的分割質量,而不考慮不同實例的大小,即大物體與小物體的分割結果對最終的
  • 全方位解讀全景分割技術,曠視冠軍團隊最新分享
    全景分割評價指標FAIR 研究團隊 [1] 為全景分割定了新的評價標準 PQ (panoptic segmentation) 、SQ ( segmentation quality)、RQ (recognition quality),計算公式如下:PQ 評價指標計算公式其中,RQ 是檢測中應用廣泛的 F1 score,用來計算全景分割中每個實例物體識別的準確性
  • 財政部調整銀行績效評價指標!為什麼調?調了哪些指標?詳解!
    適應新階段需要 保障信貸投放能力 現行《辦法》是金融企業績效評價制度中四類(銀行、保險、證券、其他)評價類別之一。2009年,財政部發布《金融類國有及國有控股企業績效評價暫行辦法》,2016年在此基礎上進行修訂,發布了《金融企業績效評價辦法》,在推動商業銀行提升經營效益、提高資產質量、堅持穩健經營等方面發揮了重要作用。隨著我國經濟發展進入新常態,現行商業銀行績效評價辦法局限性逐漸凸顯,有必要根據新形勢需要進行修改完善。
  • 科技強國評價指標體系的構建及指數發展預測
    但我們也必須清醒地認識到,我國與世界主要科技強國相比仍存在較大的差距,總體上還處於「大而不強」的局面。例如,基礎科學研究短板依然突出、自主創新能力低、關鍵核心技術受制於人的局面沒有得到根本性改變等。科技創新能力是建設科技強國的決定性因素,是國家經濟增長和競爭的基本驅動力量。如何正確認識和評價我國科技創新能力整體發展水平,以及與世界主要科技強國的差距,進一步提升科技創新能力,是亟待解決的現實問題。
  • 愛思唯爾與南開的學術之緣—新聞—科學網
    學術評價標準合理化 作為國際學術出版機構,愛思唯爾始終提倡使用科研評價指標的黃金準則,就是同時考慮定量指標和定性的評估意見,如只採用定量指標,至少應選擇兩個指標。在愛思唯爾看來,只有將科研評估定量指標與定性的專家意見相結合,才能得到全面、公正和多維度的評價。
  • 全新訓練及數據採樣&增強策略,FB全景分割實現新SOTA
    選自arXiv作者:Lorenzo Porzi等機器之心編譯編輯:陳萍、杜偉高解析度圖像上的全景分割面臨著大量的挑戰,當處理很大或者很小的物體時可能會遇到很多困難。不幸的是,這些解決方法引入了其他問題:1) 小批次大小可能導致梯度出現較大的方差,從而降低批歸一化的有效性 [13],降低模型的性能 ;2)圖像解析度的降低會導致精細結構的丟失,這些精細結構與標籤分布的長尾目標密切相關;3)最近的一些工作[28,5,31] 表明,與容量較低的主幹相比,具有複雜策略的更大的主幹可以提高全景分割的結果。
  • 實現程度:基本公共服務均等化評價的新視角與指標構建
    作者:四川大學公共管理學院教授,博士生導師 姜曉萍;四川大學公共管理學院博士研究生 康健  摘要:構建契合中國場景的基本公共服務評價體系,既需要突破理論認知分歧與評價維度之爭,更需要反思如何兼顧基本公共服務均等化的價值目標與政策目標,尋找基本公共服務均等化評價的新視角。
  • 期刊評價指標系列2:SNIP
    前文「期刊評價指標系列:SJR─SCOPUS期刊評鑑指標」中已介紹過用Google PageRank為核心概念所提出的期刊評鑑指標,本文將繼續針對
  • SPSS方法|主成分分析:降低指標維度,使複雜問題簡單化
    ,並對綜合指標按照一定的規則進行分類的一種多元統計分析方法。這種分析方法能夠降低指標維數,濃縮指標信息,將複雜的問題簡化,從而使問題分析更加直觀有效。目前,這種方法已經在經濟等領域中得到廣泛的應用,選好數據就可以利用SPSS進行主成分分析。本次數據選取陝甘寧蒙晉生態環境指標做生態環境評價分析。
  • 新時代公民科學素質指標十問(三)
    新時代公民科學素質指標十問(三) 2020-08-23 11:11 來源:澎湃新聞·澎湃號·政務
  • 研究生導師立德樹人職責履行評價指標體系的構建
    在梳理和分析立德樹人職責履行評價指標體系和評價方法的基礎上,堅持系統性與針對性統一、過程性與結果性統一、精確性與模糊性統一及主體全員參與四大原則,以教育部關於研究生導師立德樹人職責的規定為評價指標的內容依據,構建包含提升研究生思想政治素質、培養研究生學術創新能力等7項一級指標,以及關注學生思想動態、教學授課過程和學生學術成果等23項二級指標的研究生導師立德樹人職責履行指標框架。
  • 將入院至球囊擴張時間作為評價指標是誤導嗎?
    然而隨著心血管醫學的發展,我們需要停下來重新考慮在當代醫學中,以D2B作為評價指標是否是一種誤導,這是非常重要的。直觀上說,縮短D2B可降低心肌缺血損傷程度,最終改善患者預後。在觀察性研究中,更短的D2B確實與更低的院內死亡率相關,且該影響可延伸至1月及1年。以全局的觀點看,D2B是一個具備可操作性的指標。該指標有明確的起點和終點,使其成為評價醫療水平改善的一個具體的、可衡量的指標。