標籤分布學習

2021-01-06 程式設計師觀察

為了更好地表示一個樣本的分布的情況,訓練一個學習樣本的標籤分布(Label Distribution)的模型,被稱為標籤分布學習(Label Distribution Learning,LDL),讓每一個維度都反映對應標籤程度的一種概率分布。

然而,LDL任務的主要困難之一就是,標籤分布是十分難以獲取的。大多數的分類數據集都不具備這樣的條件,要獲取真實的標籤分布,理論上是需要對同一樣本進行大量的打標,得到其統計分布的,但這背後的人工成本是無法承受的。

論文《Label Enhancement for Label Distribution Learning》提出利用樣本集自身的特徵空間來構造出這樣的標籤分布。這一類的方法被稱為label Enhancement(LE),下面介紹幾種LE的方法:

1. Fuzzy C-Means(FCM)

Fuzzy C-Means 是一個代表性的「軟聚類」算法(soft clustering)。它實際上是對K-Means這種「硬聚類」算法的一種改進。K-means聚類只能將一個點劃分到一個簇裡,而FCM則可以給出一個點歸屬於各個簇的概率分布。

通過FCM算法,如果設置k個簇,樣本的簇概率分布就是這個c維向量。然後,構造一個分類類別(classes)與聚類簇(clusters)之間的一個軟連接矩陣k×c的矩陣A:即A的第j行(代表第j個類別),是由所有屬於該類別的樣本的簇分布累加而得到的。最後,通過矩陣A與點乘,就可以將每個樣本的簇分布(c個簇),轉化為標籤分布(k個標籤)了。上面的過程,可以通過下圖來表達:

2.Label Propagation(LP)

LP的主要思想是通過樣本之間的相似度矩陣,來逐步調整原本的logical label representation。神經網絡的核心,也是鄰居節點之間的互相傳播,跟這裡的相似樣本之間,進行標籤信息的傳播是類似的思想。

3.Mainifold Learning(LM)

除了LP之外,還有一個Mainifold Learning(LM),主要思想就是假設一個樣本點的特徵,可以完全由其相鄰點的特徵線性表示。

文章提出的新方法為Graph Laplacian Label Enhancement。也是一種基於圖的思想的方法,其思想很簡單:在訓練標籤預測模型的同時,也考慮學習標籤間的相似性。

作者對兩種方法的效果進行對比:

由logical label恢復到原本的label distribution的水平由得到的label distribution來訓練LDL模型對於恢復效果,有一個自製三維數據集的可視化:

GLLE和LP效果均接近Ground-Truth。

在其他數據集上,計算相似度和平均排名來衡量各個LE方法的效果:

相關焦點

  • 多標籤學習的新趨勢(2020 Survey)
    多標籤學習,作為一個傳統的機器學習任務,近年來也擁抱變化,有了新的研究趨勢。因此,我們整理了近年多標籤學習在各大會議的工作,希望能夠為研究者們提供更具前瞻性的思考。在這樣的情況下,單標籤學習的方法並不適用,因為輸出的標籤可能是結構化的、具有相關性的(比如鍵盤和滑鼠經常同時出現),所以我們需要探索更強的多標籤學習算法來提升學習性能。
  • 優必選雪梨 AI 研究院何詩怡:基於課程學習的強化多標籤圖像分類...
    雷鋒網 AI 科技評論按:與單標籤圖像分類相比,多標籤圖像分類是一種更符合真實世界客觀規律的方法,尤其在圖像和視頻的語義標註,基於內容的圖像檢索等領域有著廣泛的應用
  • 遷移學習中如何利用權值調整數據分布?DATL、L2TL兩大方法解析
    機器之心原創作者:仵冀潁編輯:Joni Zhong本文綜述了兩篇在遷移學習中利用權值調整數據分布的論文。通過這兩個重要工作,讀者可了解如何在遷移學習中進行微調的方法和理論。深度神經網絡的應用顯著改善了各種數據挖掘和計算機視覺算法的性能,因此廣泛應用於各類機器學習場景中。
  • CVPR 2018 | 雞尾酒網絡DCTN:源分布結合律引導的遷移學習框架
    來自中山大學、哈爾濱工業大學以及商湯科技公司的研究人員聯合提出了一種名為「雞尾酒網絡」(DCTN)的深度遷移學習框架,將現有的單源域適應過程推廣到了更加真實和通用的多源域適應場景。DCTN 啟發於 2009 年 Y. Mansou [1] 的源分布結合律(source distribution combining rule)。
  • 如何減少噪聲標籤的影響?谷歌提出一種魯棒深度學習方法
    在深度神經網絡中,能夠使用高質量標籤訓練數據對於學習效果至關重要,因為訓練數據中存在錯誤標籤(噪聲標籤)會大大降低乾淨測試數據上模型的準確性。 1 建立了第一個受控的數據集,並確定了網絡噪聲標籤的基準2 提出了一種簡單而高效的方法來克服合成標籤和現實中的噪聲標籤3 比較了各種設置下減少噪聲標籤的學習方法
  • 如何減少噪聲標籤的影響 谷歌提出一種魯棒深度學習方法MentorMix
    【新智元導讀】近日,為了更好地了解噪聲標籤對機器學習模型訓練的影響,谷歌研究人員提出了一種簡單的魯棒學習方法MentorMix,相較於之前的方法準確性提升約3%。在深度神經網絡中,能夠使用高質量標籤訓練數據對於學習效果至關重要,因為訓練數據中存在錯誤標籤(噪聲標籤)會大大降低乾淨測試數據上模型的準確性。
  • ImageNet 存在十萬標籤錯誤,你知道嗎?
    在這裡,我們在 Angluin 和 Laird 分類噪聲的假設基礎上,將 CL 泛化到直接估計噪聲標籤(給定的)和無損標籤(未知的)之間的聯合分布。有噪聲的(給定的)標籤和未損壞的(未知的)標籤之間的置信聯合分布和估計聯合分布的置信學習過程和樣本。
  • CMU 領域自適應最新進展:對齊數據分布、誤差還不夠,標註函數也需...
    支撐監督學習算法泛化理論的一個重要假設是,測試數據的分布應該與訓練數據的分布相同。然而,在許多現實世界的應用程式中,收集所有我們的學習系統可能被部署的場景下的帶標籤數據通常是十分耗時的,甚至是不可行的。例如,考慮一個典型的車輛計數應用程式,我們希望通過它計算在一張由相機拍下的圖片中有多少輛汽車。我們一共有 200 臺校準、視角、照明條件不同的相機。
  • Web前端學習第六課,HTML標題標籤和水平線標籤
    1.應該知道的知識通過前幾課的學習,大家了解了以下內容:(1)HTML是用標籤來封裝文字,圖片,視頻等網頁內容的。(2)標籤+內容組成了網頁的部件(專業叫法是元素),各個元素都有屬性,元素的屬性描述了這個元素(文字、圖片、視頻等)所具有的特徵(3)元素標籤的寫法就是:<元素開始標籤 元素屬性=」值」 >元素內容</元素結束標籤>例如段落元素的寫法:<p color
  • 無標籤數據的聚類分析
    監督學習需要帶標籤的數據,如果有一批無標籤的數據,如何進行分類,並分析特徵呢,下面有幾種方式準備數據隨機生成顏色數據,為了分類更加清晰,這裡分別生成三種顏色,有一定的明顯特徵,分別偏紅綠藍DeleteAnomalies可以用來刪除異常元素LearnDistribution學習樣例分布
  • 機器學習實戰-監督學習、無監督學習
    ,搶劫,欺負好人等等4、有個審判官,根據你的行為來進行判斷是好人還是壞人5、新進來一個小夥伴,由於此人經常扶老奶奶過馬路,當志願者等等,因此審判官就把你判斷為好人這五點,融入到機器學習裡面,用機器學習的話來說好人與壞人:標籤好人或者壞人的行為:特徵值審判官:訓練好的模型新來的小夥伴:未知類別,待打上標籤的數據
  • 深度學習必懂的13種概率分布
    作為機器學習從業者,你需要知道概率分布相關的知識。這裡有一份最常見的基本概率分布教程,大多數和使用 python 庫進行深度學習有關。概率分布概述共軛意味著它有共軛分布的關係。在貝葉斯概率論中,如果後驗分布 p(θx)與先驗概率分布 p(θ)在同一概率分布族中,則先驗和後驗稱為共軛分布,先驗稱為似然函數的共軛先驗。共軛先驗維基百科在這裡。
  • HTML學習筆記(一、文本修飾標籤)
    說明:此筆記是在學習B站UP主「黑馬程式設計師」發布的視頻過程中記錄形成,如有問題,歡迎留言討論^v^。01—案例代碼<!:<b>這是一個加粗的效果</b> bold<br/> strong標籤:<strong>這是一個加粗的效果</strong><br/> i標籤:<i>斜體</i> italic<br/> em標籤:<em>斜體</em><
  • Python學習第225課——label標籤
    之前我們學習了html的表單,我們在寫表單的時候,是直接把文字寫在表單的前面,如上圖,比如「請輸入帳號」這幾個文字就寫在文本輸入框的前面,這是告訴用戶這個輸入框是用來幹什麼的,用戶只有點擊輸入框的時候,才能在裡面輸入東西
  • 亳州列印學習條碼標籤必看-上海佳識標籤科技有限公司
    亳州列印學習條碼標籤必看上圖看似複雜的標籤,在Labelmx條碼標籤設計系統裡製作過程很簡單。具體步驟如下:1. 圖標籤底是紅,新建的標籤填充一下顏就可以了。打開Labelmx條碼軟體,在右側屬性欄裡,設置實際標籤的尺寸。在「背景」裡,標籤底選擇紅即可。2. 用矩形工具在頁面中劃出一個矩形,設置尺寸大小,通過圓角度數可以得到一個圓角的矩形。設置完畢標籤的外形就做好了。
  • Web前端學習第七課 學會使用html段落標籤和換行標籤
    只要把你的文字放在這個標籤之間,就會在網頁上顯示一個段落。你可以多次使用這個標籤將一篇文章分為多個段落。2.段落內換行標籤當你在段落標籤內不使用換行標籤時,你的屏幕有多寬,在瀏覽器中一行文字就顯示多寬。這樣的頁面非常不美觀。所以,你需要將段落分為幾行來顯示。
  • 什麼是拼多多人群標籤,如何布局人群標籤?
    關注我每天學習不同的店鋪運營知識!今天,我們要講的是關於拼多多人群標籤內容。人群標籤的重要性對於拼多多運營來說非常的重要,而人群標籤的精度與流量精準度直接相關,流量精準度又於轉化率直接相關,所以想要自己的連結轉化能力比對手強,從而積累更高的權重,進而拿到更高的排名,分配到更多地流量,就必須要從人群標籤入手,掌握人群標籤的布局。
  • 三篇機器學習算法優化創新 |平均差異最大的分布強化學習
    平均差異最大的分布強化學習[Submittedon 24 Jul 2020]摘要:分布強化學習(RL)在Atari遊戲中取得了最先進的性能,通過重新將傳統的RL轉化為分布估計問題,明確地估計概率分布而不是總回報的期望。
  • DeepMind ICML 2017論文: 超越傳統強化學習的價值分布方法
    在新論文中,我們展示了不僅對獎勵期望值建模是可能的,同時對獎勵所有的變化建模也是存在可能的,我們稱之為價值分布(value distribution)。這就令新型強化學習系統要比以前的模型訓練更快、更準確,但價值分布更重要的是它有可能啟發我們重新思考整個強化學習。如下圖所示,在通勤者案例中假定我們有一段路程,它由三部分組成,每部分需要花 5 分鐘。
  • 監督學習,非監督學習,半監督學習三者的區別是什麼,舉出一個最有...
    監督(supervised)=標籤(label),是否有監督,就是輸入數據(input)是否有標籤,有標籤則為有監督學習,沒標籤則為無監督學習。至於半監督學習,就是一半(一點點)數據有標籤,一半(極其巨大)數據沒標籤。——簡單一句話答案。