記: 多標籤分類問題

2021-01-11 架構師之家

最近遇到給個標籤問題,就是給一個 object 打個多個標籤,網上查了很多資料。發現百度沒搜索出什麼,後來是到知網上找到一些靠譜的資料,然後在 Google 一下。現在總結下多標籤問題。

多標籤方法大致可以分為兩類,分別是問題轉換和算法改造。

先描述下問題:

先介紹問題轉換方法.

問題轉換方法

第一個大類是基於標記轉換方法。

第一個是 Binary Relevance (BR)。

根據標籤我們將數據重新組成正負樣本,針對每個類別標籤,我們分別訓練基分類器,整體複雜度 q × O(C) ,其中 O(C) 為基礎分類算法的複雜度,因此, BR 算法針對標記數量 q 比較小的情況下適用。但是在很場景中,標記是有樹狀的層次的關聯的。對於這種情況, BR 就沒有考慮到這些標記之間的關聯性。

第二個是 Classier Chain(CC)。

針對 BR 中標籤關聯性的問題,CC 中它將這些基分類器 Cj , j = 1 … q 串聯起來形成一條鏈,前一個基分類器的輸出作為下一個基分類器的輸入。

第二大類是基於樣本實例轉換方法

第一個是創新新的標記 (Label-Powerset)。

這樣做的代價是標記的數量就會增加,並且一些標記只有很少的實例,但是 LP 的 優點是考慮到了標記之間的關聯性。

第二個是分解多標記

上面圖中的意思是我們可以將訓練數據多次使用,叫做cross-training,即我們將上圖中 E1 既當做訓練 y2 類別是正樣本,也當做訓練 y3 樣本時候的正樣本,感覺跟 Binary Relevance (BR) 算法是一個意思。

算法改造方法

算法改造算法針對特殊的算法改造而來, 主要介紹兩個,可以具體參考 #adapted-algorithms 。

神經網絡

此處介紹下論文 Multi-Label Neural Networks with Applications to

Functional Genomics and Text Categorization,一種神經網絡算法。

其實就是簡單的深度網絡:

但是需要注意的是我們的 loss 函數的選取,假設我們選擇

那相當於只是考慮了單個標籤值,0 or 1,沒有考慮不同標籤之間相關性,所以我們將 loss 改為如下:

上面 k 是有標籤的下標,而 l 是沒有標籤的下標,我們考量了有標籤的值其意義大於沒有標籤的值。

最後我們在介紹一篇新出的神經網絡的模型,論文 Learning Deep Latent Spaces for Multi-Label Classication

其模型如下:

其中 Fx,Fe,Fd 分別是 3 個 dnn,分別代表 特徵提取,標籤 encode,隱向量 decode,而 loss 函數有兩部分組成:

其中 embedding loss 為:

output loss 為:

可以看到這個跟 Multi-Label Neural Networks with Applications to

Functional Genomics and Text Categorization 中的 loss 函數是一樣的。

如果對這篇論文還有不理解的,非常幸運的是網上有論文的實現,見 C2AE-Multilabel-Classification.

總結

本文對多標籤問題簡單做了個介紹,想起現在圖片分類,視頻內容識別等場景好多都是多標籤問題,有時間再繼續深入了解的。

你的鼓勵是我繼續寫下去的動力,期待我們共同進步。

參考

多標記分類方法比較 徐兆桂

Learning Deep Latent Spaces for Multi-Label Classication

Multi-label machine learning and its application to semantic scene classicatio

相關焦點

  • 分類問題-----多標籤(multilabel)、多類別(multiclass)
    單標籤分類         在傳統的單標籤分類中,訓練集中的每一個樣本只有一個相關的標籤 l ,這個標籤來自於一個不重合的標籤集合L,|L| > 1.當|L|=2 時,這就是一個二分類問題,或文本和網頁數據的過濾(filtering)問題。當|L| > 2 時是多分類問題。
  • 多標籤文本分類模型總結
    最近工作中需要對文本進行多標籤分類(Multi-label Text Classification),系統查閱了相關論文,藉此機會整理歸納一下,
  • 手把手教你用Keras進行多標籤分類(附代碼)
    基於Keras的多標籤分類問題本文將分為4個部分。 在第一部分,我將討論我們的多標籤分類數據集(以及如何快速構建屬於你自己的數據集)。最後,我們將基於樣例圖片測試我們的神經網絡,並討論何時使用多標籤分類問題最為合適,包括您需要注意的一些注意事項。我們的多標籤分類數據集
  • ICCV 2019 論文解讀:用圖神經網絡改善視頻的多標籤分類
    作者 | 王磊本文介紹了汽車之家團隊在ICCV 2019一篇關於視頻理解論文相關的工作。針對視頻多標籤分類的問題,論文提出了將視頻多標籤之間相關性特徵加入到網絡之中,結果證明該方法可以顯著的提高視頻多標籤分類效果。
  • 「合併」樣本和標籤?IBM 為多標籤小樣本圖像分類帶來新進展!|CVPR...
    雷鋒網 AI 科技評論按:目前大多數關於圖像小樣本分類的研究工作都是研究單標籤場景,每個訓練圖像只包含一個對象,然而現實中的場景中以多對象多標籤居多,因此對於多標籤小樣本的圖像分類研究更 具現實意義。之前大多數關於圖像小樣本分類的研究工作都是研究「單標籤」場景,其中每個訓練圖像只包含一個對象,因此只有一個類別標籤。然而,更具有挑戰性和現實意義的場景是多標籤、小樣本的圖像分類,其訓練數據樣本較少,圖像具有多個標籤,而之前的研究工作尚未對該場景進行廣泛的研究探索。
  • 優必選雪梨 AI 研究院何詩怡:基於課程學習的強化多標籤圖像分類...
    傳統的單標籤圖像分類是指一幅圖只有一個標籤,比如手寫數字識別數據集 Mnist:一張圖只有一個標籤,從 0 到 9 的一個數字;ImagineNet,一個數據集有 1000 個標籤,每張圖都只對應一個標籤。但在真實的生活中,一幅圖往往是屬於多個標籤的,比如一幅圖有桌子,很有可能也有瓶子,桌子和瓶子都是這幅圖像的標籤,下面是給出的多標籤圖例:
  • 基於PredictionIO的推薦引擎打造,及大規模多標籤分類探索
    而本期Meetup上,白剛的分享主要圍繞著新浪門戶的大規模多標籤分類算法工作(項目已上傳到GitHub )。背景在類似新浪的媒體中,廣告帶來收益,同時也會影響到用戶體驗。為了減少對用戶體驗的影響(甚至是對用戶體驗產生幫助),如何區分「用戶屬於哪個人群,是哪些廣告的潛在受眾」至關重要,也就是如何做好user profiling。
  • Kaggle亞馬遜比賽冠軍專訪:利用標籤相關性來處理分類問題
    主辦方提供40000多張訓練圖像,每張圖像都涵蓋多個標籤,標籤總體分為如下幾組:大氣情況:晴朗、局部多雲、多雲、起霧常見的土地覆蓋和使用類型:雨林、農業、河流、城鎮/城市、道路、耕地、裸地罕見的土地覆蓋和使用類型:砍伐並燃燒、選擇性砍伐、種植、傳統採礦、手工採礦、吹毀。
  • 教你用BERT進行多標籤文本分類
    這讓我們可以通過對下遊特定任務(例如情緒分類,意圖檢測,問答等)進行微調來使用預先訓練的BERT模型。本文將手把手教你,用BERT完成一個Kaggle競賽。在本文中,我們將重點介紹BERT在多標籤文本分類問題中的應用。傳統的分類問題假定每個文檔都分配給一個且只分配給一個類別,即標籤。
  • 多標籤學習的新趨勢(2020 Survey)
    關於單標籤學習和多標籤學習的區別,這裡簡單給個例子:傳統的圖片單標籤分類考慮識別一張圖片裡的一個物體,例如 ImageNet、CIFAR10 等都是如此,但其實圖片裡往往不會只有一個物體,大家隨手往自己的桌面拍一張照片,就會有多個物體,比如手機、電腦、筆、書籍等等。
  • 愛彼語記語音計算器記帳記
    功能豐富,界面美觀的科學計算器 還有更多功能亮點: 【語音計算器】您說出算式就可計算並播報計算結果,說出關鍵詞「清除」可清除歷史列表 【房貸計算器】支持商業貸款、公積金貸款、組合貸款計算.一目了然查看首付、利息、月供 【匯率換算】支持100多個國家匯率實時換算,選擇一個基準貨幣即可簡單快捷查看多國貨幣換算結果 【個稅計算器】支持月工資、年終獎、勞務報酬的個稅
  • 達觀數據乾貨分享:深度解析文本分類與標籤的應用價值和原理
    信息過載時代,文本分類和文本標籤是我們整合閱讀文本信息的常用手段。本文系統介紹文本分類和文本標籤的技術原理和應用價值,並結合項目案例談談兩者的使用技巧。一、分類和標籤的共性與差異圖書管理員在給圖書分類時,會根據書的內容、形式、體裁等信息,按照《中國圖書館圖書分類法》進行分類。
  • 多分類 A P R F 值
    區別一下「多分類」與「多標籤」:        多分類:表示分類任務中有多個類別,但是對於每個樣本有且僅有一個標籤,例如一張動物圖片,它只可能是貓,狗,虎等中的一種標籤(二分類特指分類任務中只有兩個類別)
  • 瑣事多、易忘事怎麼辦?看我隨手列印備忘標籤貼紙,拯救健忘人!
    把這個小白盒送給她,十分鐘學會自打備忘小膠貼,標籤貼哪兒,文件、藥品、盒子分類一清二楚,啥是啥、待辦什麼事,一目了然。這隻小白盒,學名就叫「海鳥標籤印表機」,家用、學校用、辦公用,「愛記錯」的人終於找回了尊嚴。
  • Excel數據透視表分類匯總與匯總及取消和多個行標籤並列顯示
    把 Excel 表格轉為數據透視表後,十分便於為分類匯總,只需勾選分類欄位和要分類匯總的欄位,Excel 就會自動匯總不同分類的數量。並且分類匯總既可以匯總一個欄位(一列)也可以同時匯總多個欄位。除分類匯總外,數據透視表還會自動匯總,然而有些欄位並不需要匯總,此時就希望取消匯總,數據透視表也提供了這方面的功能,分類匯總宜是如此。另外,在默認情況下,數據透視表把行標籤摺疊顯示,也就是把所有行標籤顯示到一個列,有時不便於分析統計,因此,要求把它們並列顯示,數據透視表也提供了這方便的功能。
  • RFID系統中電子標籤天線分類及設計
    它是由電子標籤(Tag/Transponder)、讀寫器(Reader/Interrogator)及中間件(Middle-Ware)~部分組成的一種短距離無線通信系統。射頻識別中的標籤是射頻識別標籤晶片和標籤天線的結合體。標籤根據其工作模式不同而分為主動標籤和被動標籤。
  • a標籤 href vue專題及常見問題 - CSDN
    vue.js 實現a標籤href裡添加參數原始碼列表可以正常顯示,但是連接沒有實現對items.orderNo的值轉化,最中解決方法
  • CRM實戰二:精準營銷之用戶標籤
    標籤,系統可通過對用戶的某一行為進行判定,認為該用戶屬於哪一類標籤。而大大小小的標籤,則可以組成一幅完整的用戶畫像。通過用戶畫像可對用戶實現精準營銷,下文的重點在於:電商標籤的分類、原型示例和應用。01 電商標籤的分類以下電商用戶標籤的梳理,儘量遵循MECE原則,即相互獨立,完全窮盡。
  • 如何給用戶打標籤?
    「標籤」是對某一類特定群體或對象的某項特徵進行抽象分類和概括。 打標籤是為了分析用戶喜歡看的文章類型、視頻類型、活動方式,得到用戶的興趣偏好,在這樣的基礎上,對用戶進行內容的精準的推薦可以有效拉長用戶生命周期。
  • 【遊戲ABC】T.貼標籤
    在心理學上,貼標籤叫刻板印象,就是對事物的整體狀態概括出幾個特點,便於在大腦內處理和記憶。貼標籤在科學分類上功莫大焉,譬如生物學上的界門綱目科屬種之分,離了貼標籤可真是寸步難行。然而,這又不能一概而論。