記: 多標籤分類問題

2021-01-11 架構師之家

最近遇到給個標籤問題，就是給一個 object 打個多個標籤，網上查了很多資料。發現百度沒搜索出什麼，後來是到知網上找到一些靠譜的資料，然後在 Google 一下。現在總結下多標籤問題。

多標籤方法大致可以分為兩類，分別是問題轉換和算法改造。

先描述下問題：

先介紹問題轉換方法.

問題轉換方法

第一個大類是基於標記轉換方法。

第一個是 Binary Relevance (BR)。

根據標籤我們將數據重新組成正負樣本，針對每個類別標籤，我們分別訓練基分類器，整體複雜度 q × O(C) ，其中 O(C) 為基礎分類算法的複雜度，因此， BR 算法針對標記數量 q 比較小的情況下適用。但是在很場景中，標記是有樹狀的層次的關聯的。對於這種情況， BR 就沒有考慮到這些標記之間的關聯性。

第二個是 Classier Chain(CC)。

針對 BR 中標籤關聯性的問題，CC 中它將這些基分類器 Cj , j = 1 … q 串聯起來形成一條鏈，前一個基分類器的輸出作為下一個基分類器的輸入。

第二大類是基於樣本實例轉換方法

第一個是創新新的標記 (Label-Powerset)。

這樣做的代價是標記的數量就會增加，並且一些標記只有很少的實例，但是 LP 的優點是考慮到了標記之間的關聯性。

第二個是分解多標記

上面圖中的意思是我們可以將訓練數據多次使用，叫做cross-training，即我們將上圖中 E1 既當做訓練 y2 類別是正樣本，也當做訓練 y3 樣本時候的正樣本，感覺跟 Binary Relevance (BR) 算法是一個意思。

算法改造方法

算法改造算法針對特殊的算法改造而來, 主要介紹兩個，可以具體參考 #adapted-algorithms 。

神經網絡

此處介紹下論文 Multi-Label Neural Networks with Applications to

Functional Genomics and Text Categorization，一種神經網絡算法。

其實就是簡單的深度網絡：

但是需要注意的是我們的 loss 函數的選取，假設我們選擇

那相當於只是考慮了單個標籤值，0 or 1，沒有考慮不同標籤之間相關性，所以我們將 loss 改為如下：

上面 k 是有標籤的下標，而 l 是沒有標籤的下標，我們考量了有標籤的值其意義大於沒有標籤的值。

最後我們在介紹一篇新出的神經網絡的模型，論文 Learning Deep Latent Spaces for Multi-Label Classication

其模型如下：

其中 Fx,Fe,Fd 分別是 3 個 dnn，分別代表特徵提取，標籤 encode，隱向量 decode，而 loss 函數有兩部分組成：

其中 embedding loss 為：

output loss 為：

可以看到這個跟 Multi-Label Neural Networks with Applications to

Functional Genomics and Text Categorization 中的 loss 函數是一樣的。

如果對這篇論文還有不理解的，非常幸運的是網上有論文的實現，見 C2AE-Multilabel-Classification.

總結

本文對多標籤問題簡單做了個介紹，想起現在圖片分類，視頻內容識別等場景好多都是多標籤問題，有時間再繼續深入了解的。

你的鼓勵是我繼續寫下去的動力，期待我們共同進步。

參考

多標記分類方法比較徐兆桂

Learning Deep Latent Spaces for Multi-Label Classication

Multi-label machine learning and its application to semantic scene classicatio

相關焦點

分類問題-----多標籤(multilabel)、多類別(multiclass)

單標籤分類在傳統的單標籤分類中，訓練集中的每一個樣本只有一個相關的標籤 l ，這個標籤來自於一個不重合的標籤集合L，|L| > 1.當|L|=2 時，這就是一個二分類問題，或文本和網頁數據的過濾（filtering）問題。當|L| > 2 時是多分類問題。
多標籤文本分類模型總結

最近工作中需要對文本進行多標籤分類(Multi-label Text Classification)，系統查閱了相關論文，藉此機會整理歸納一下，
手把手教你用Keras進行多標籤分類(附代碼)

基於Keras的多標籤分類問題本文將分為4個部分。在第一部分，我將討論我們的多標籤分類數據集（以及如何快速構建屬於你自己的數據集）。最後，我們將基於樣例圖片測試我們的神經網絡，並討論何時使用多標籤分類問題最為合適，包括您需要注意的一些注意事項。我們的多標籤分類數據集
ICCV 2019 論文解讀:用圖神經網絡改善視頻的多標籤分類

作者 | 王磊本文介紹了汽車之家團隊在ICCV 2019一篇關於視頻理解論文相關的工作。針對視頻多標籤分類的問題，論文提出了將視頻多標籤之間相關性特徵加入到網絡之中，結果證明該方法可以顯著的提高視頻多標籤分類效果。
「合併」樣本和標籤?IBM 為多標籤小樣本圖像分類帶來新進展!|CVPR...

雷鋒網 AI 科技評論按：目前大多數關於圖像小樣本分類的研究工作都是研究單標籤場景，每個訓練圖像只包含一個對象，然而現實中的場景中以多對象多標籤居多，因此對於多標籤小樣本的圖像分類研究更具現實意義。之前大多數關於圖像小樣本分類的研究工作都是研究「單標籤」場景，其中每個訓練圖像只包含一個對象，因此只有一個類別標籤。然而，更具有挑戰性和現實意義的場景是多標籤、小樣本的圖像分類，其訓練數據樣本較少，圖像具有多個標籤，而之前的研究工作尚未對該場景進行廣泛的研究探索。
優必選雪梨 AI 研究院何詩怡:基於課程學習的強化多標籤圖像分類...

傳統的單標籤圖像分類是指一幅圖只有一個標籤，比如手寫數字識別數據集 Mnist：一張圖只有一個標籤，從 0 到 9 的一個數字；ImagineNet，一個數據集有 1000 個標籤，每張圖都只對應一個標籤。但在真實的生活中，一幅圖往往是屬於多個標籤的，比如一幅圖有桌子，很有可能也有瓶子，桌子和瓶子都是這幅圖像的標籤，下面是給出的多標籤圖例：
基於PredictionIO的推薦引擎打造,及大規模多標籤分類探索

而本期Meetup上，白剛的分享主要圍繞著新浪門戶的大規模多標籤分類算法工作（項目已上傳到GitHub ）。背景在類似新浪的媒體中，廣告帶來收益，同時也會影響到用戶體驗。為了減少對用戶體驗的影響（甚至是對用戶體驗產生幫助），如何區分「用戶屬於哪個人群，是哪些廣告的潛在受眾」至關重要，也就是如何做好user profiling。
Kaggle亞馬遜比賽冠軍專訪:利用標籤相關性來處理分類問題

主辦方提供40000多張訓練圖像，每張圖像都涵蓋多個標籤，標籤總體分為如下幾組：大氣情況：晴朗、局部多雲、多雲、起霧常見的土地覆蓋和使用類型：雨林、農業、河流、城鎮/城市、道路、耕地、裸地罕見的土地覆蓋和使用類型：砍伐並燃燒、選擇性砍伐、種植、傳統採礦、手工採礦、吹毀。
教你用BERT進行多標籤文本分類

這讓我們可以通過對下遊特定任務（例如情緒分類，意圖檢測，問答等）進行微調來使用預先訓練的BERT模型。本文將手把手教你，用BERT完成一個Kaggle競賽。在本文中，我們將重點介紹BERT在多標籤文本分類問題中的應用。傳統的分類問題假定每個文檔都分配給一個且只分配給一個類別，即標籤。
多標籤學習的新趨勢(2020 Survey)

關於單標籤學習和多標籤學習的區別，這裡簡單給個例子：傳統的圖片單標籤分類考慮識別一張圖片裡的一個物體，例如 ImageNet、CIFAR10 等都是如此，但其實圖片裡往往不會只有一個物體，大家隨手往自己的桌面拍一張照片，就會有多個物體，比如手機、電腦、筆、書籍等等。
愛彼語記語音計算器記帳記

功能豐富，界面美觀的科學計算器還有更多功能亮點：【語音計算器】您說出算式就可計算並播報計算結果，說出關鍵詞「清除」可清除歷史列表【房貸計算器】支持商業貸款、公積金貸款、組合貸款計算.一目了然查看首付、利息、月供【匯率換算】支持100多個國家匯率實時換算，選擇一個基準貨幣即可簡單快捷查看多國貨幣換算結果【個稅計算器】支持月工資、年終獎、勞務報酬的個稅
達觀數據乾貨分享:深度解析文本分類與標籤的應用價值和原理

信息過載時代，文本分類和文本標籤是我們整合閱讀文本信息的常用手段。本文系統介紹文本分類和文本標籤的技術原理和應用價值，並結合項目案例談談兩者的使用技巧。一、分類和標籤的共性與差異圖書管理員在給圖書分類時，會根據書的內容、形式、體裁等信息，按照《中國圖書館圖書分類法》進行分類。
多分類 A P R F 值

區別一下「多分類」與「多標籤」：多分類：表示分類任務中有多個類別，但是對於每個樣本有且僅有一個標籤，例如一張動物圖片，它只可能是貓，狗，虎等中的一種標籤（二分類特指分類任務中只有兩個類別）
瑣事多、易忘事怎麼辦?看我隨手列印備忘標籤貼紙,拯救健忘人!

把這個小白盒送給她，十分鐘學會自打備忘小膠貼，標籤貼哪兒，文件、藥品、盒子分類一清二楚，啥是啥、待辦什麼事，一目了然。這隻小白盒，學名就叫「海鳥標籤印表機」，家用、學校用、辦公用，「愛記錯」的人終於找回了尊嚴。
Excel數據透視表分類匯總與匯總及取消和多個行標籤並列顯示

把 Excel 表格轉為數據透視表後，十分便於為分類匯總，只需勾選分類欄位和要分類匯總的欄位，Excel 就會自動匯總不同分類的數量。並且分類匯總既可以匯總一個欄位（一列）也可以同時匯總多個欄位。除分類匯總外，數據透視表還會自動匯總，然而有些欄位並不需要匯總，此時就希望取消匯總，數據透視表也提供了這方面的功能，分類匯總宜是如此。另外，在默認情況下，數據透視表把行標籤摺疊顯示，也就是把所有行標籤顯示到一個列，有時不便於分析統計，因此，要求把它們並列顯示，數據透視表也提供了這方便的功能。
RFID系統中電子標籤天線分類及設計

它是由電子標籤（Tag/Transponder）、讀寫器（Reader/Interrogator）及中間件（Middle-Ware）~部分組成的一種短距離無線通信系統。射頻識別中的標籤是射頻識別標籤晶片和標籤天線的結合體。標籤根據其工作模式不同而分為主動標籤和被動標籤。
a標籤 href vue專題及常見問題 - CSDN

vue.js 實現a標籤href裡添加參數原始碼列表可以正常顯示，但是連接沒有實現對items.orderNo的值轉化，最中解決方法
CRM實戰二:精準營銷之用戶標籤

標籤，系統可通過對用戶的某一行為進行判定，認為該用戶屬於哪一類標籤。而大大小小的標籤，則可以組成一幅完整的用戶畫像。通過用戶畫像可對用戶實現精準營銷，下文的重點在於：電商標籤的分類、原型示例和應用。01 電商標籤的分類以下電商用戶標籤的梳理，儘量遵循MECE原則，即相互獨立，完全窮盡。
如何給用戶打標籤?

「標籤」是對某一類特定群體或對象的某項特徵進行抽象分類和概括。打標籤是為了分析用戶喜歡看的文章類型、視頻類型、活動方式，得到用戶的興趣偏好，在這樣的基礎上，對用戶進行內容的精準的推薦可以有效拉長用戶生命周期。
【遊戲ABC】T.貼標籤

在心理學上，貼標籤叫刻板印象，就是對事物的整體狀態概括出幾個特點，便於在大腦內處理和記憶。貼標籤在科學分類上功莫大焉，譬如生物學上的界門綱目科屬種之分，離了貼標籤可真是寸步難行。然而，這又不能一概而論。

記: 多標籤分類問題

相關焦點

分類問題-----多標籤(multilabel)、多類別(multiclass)

多標籤文本分類模型總結

手把手教你用Keras進行多標籤分類(附代碼)

ICCV 2019 論文解讀:用圖神經網絡改善視頻的多標籤分類

「合併」樣本和標籤?IBM 為多標籤小樣本圖像分類帶來新進展!|CVPR...

優必選雪梨 AI 研究院何詩怡:基於課程學習的強化多標籤圖像分類...

基於PredictionIO的推薦引擎打造,及大規模多標籤分類探索

Kaggle亞馬遜比賽冠軍專訪:利用標籤相關性來處理分類問題

教你用BERT進行多標籤文本分類

多標籤學習的新趨勢(2020 Survey)

愛彼語記語音計算器記帳記

達觀數據乾貨分享:深度解析文本分類與標籤的應用價值和原理

多分類 A P R F 值

瑣事多、易忘事怎麼辦?看我隨手列印備忘標籤貼紙,拯救健忘人!

Excel數據透視表分類匯總與匯總及取消和多個行標籤並列顯示

RFID系統中電子標籤天線分類及設計

a標籤 href vue專題及常見問題 - CSDN

CRM實戰二:精準營銷之用戶標籤

如何給用戶打標籤?

【遊戲ABC】T.貼標籤