MIT博士生、北大校友,利用自監督算法,解決數據集中常見難題

2021-01-18 量子位

蕭簫 轉載整理自 楊宇喆量子位 報導 | 公眾號 QbitAI

訓練模型時,你是否也遭遇過這樣的「尷尬」時刻:

好不容易找到了自己想要的數據集,結果點進去一看,大部分樣本都是一類物體。(例如,數據集標籤「動物」,結果80%的樣本都是「貓」)

用上面這個數據集訓練的動物檢測模型,可能只能識別「貓」。

這類數據不均衡(某一標籤數量太多,其餘標籤數量太少)的問題,在機器學習中被稱為「長尾問題」。

這個問題導致,數據集中(尤其是大型數據集)樣本數量少的物體,泛化效果會非常差。

△像一條長長的尾巴

然而事實上,在一個數據集中,幾乎總有常見和不常見的類別,其中不常見的類別,又往往成為需要被識別的目標。

例如,自動駕駛感知模型中,就要求AI能提前預測可能違規的情形,並及時阻止。

然而在自動駕駛數據集裡,不可能全是肇禍、違規的場景(大部分場景還是安全的)。

那麼,這些「不均衡」的數據集,就真的不能用了嗎?

來自MIT的兩名博士生楊宇喆和Zhi Xu,想到了一種新的解決方案,研究成果登上了NeurIPS 2020頂會。

一起來看看。

一些已有的解決辦法

事實上,此前為了解決「不均衡」數據集,研究者們已經嘗試過多種方法。

僅僅是主流算法,就分為七種:

重採樣(re-sampling):分為對少樣本的過採樣、及多樣本的欠採樣,但這2種方法,都有欠缺的地方。其中,過採樣容易發生少樣本過擬合,無法學習更魯棒、易泛化的特徵,在不平衡數據上表現較差;欠採樣會造成多樣本嚴重信息損失,導致發生欠擬合。

數據合成(synthetic samples):生成和少樣本相似的新數據。以SMOTE方法為例,對於任意選取的少類樣本,它用K近鄰選取相似樣本,並通過對樣本線性插值得到新樣本。這裡與mixup方法相似,因此,也有非均衡的mixup版本出現。

重加權(re-weighting):為不同類別(甚至不同樣本)分配不同的權重。其中,權重可以自適應。這一方法誕生出很多變種,如對類別數目的倒數進行加權、對「有效」樣本數加權、對樣本數優化分類間距的損失加權等等。

遷移學習(transfer learning):對多類和少類樣本分別建模,將學到的多類樣本信息/表示/知識遷移給少類別使用。

度量學習(metric learning):希望能學到更好的嵌入,以對少類附近的邊界/邊緣更好地建模。

元學習/域自適應(meta learning/domain adaptation):分別對頭、尾部數據進行不同處理,自適應地學習如何重加權,或是規劃成域自適應問題。

解耦特徵和分類器(decoupling representation & classifier):研究發現,將特徵學習和分類器學習解耦、將不平衡學習分為兩個階段,並在特徵學習階段正常採樣、在分類器學習階段平衡採樣,可以帶來更好的長尾學習效果。這是目前最優的長尾分類算法。

但這些,在樣本極端失衡的情況下也沒法用,如果真的只有幾個樣本,模型的性能差異就無法避免。

關鍵在於,究竟該怎麼理解這裡面的「不均衡」?

「不均衡」標籤的內在價值

那些本身就不平衡的數據標籤,會不會具有什麼價值?

研究發現,這些不平衡的數據標籤,就像是一把「雙刃劍」。

一方面,這些標籤提供了非常珍貴的監督信息。

在特定任務上,有監督學習通常比無監督學習的準確性更高,即使不平衡,標籤也都具有「正面價值」。

但另一方面,標籤的不平衡,會導致模型在訓練過程中,被強加標籤偏見(label bias),從而在決策區域被主類別極大地影響。

研究者們認為,即使是不平衡標籤,它的價值也可以被充分利用,並極大地提高模型分類的準確性。

如果能先「拋棄標籤信息」,通過自監督預訓練,讓模型學習到好的起始表示形式,是否就能有效地提高分類準確性?

從半監督,到自監督預訓練

作者們先對半監督下的不均衡學習進行了實驗。

實驗證明,利用無標記數據的半監督學習,能顯著提高分類結果。

從圖中可以看出,未標記數據,有助於建模更清晰的類邊界,促成更好的類間分離。

這是因為,尾類樣本所處區域數據密度低,在學習過程中,模型不能很好地對低密度區域進行建模,導致泛化性差。

而無標記數據,能有效提高低密度區域樣本量,使得模型能對邊界進行更好的建模。

然而,在一些很難利用半監督學習的極端情況下,仍然需要自監督學習出場。

這是因為,一旦自監督產生良好初始化,網絡就可以從預訓練任務中受益,學習到更通用的表示形式。

而實驗同樣證明了這一點。

正常預訓練的決策邊界,很大程度上會被頭類樣本改變,導致尾類樣本大量「洩漏」,無法很好地泛化。

而採用自監督預訓練的話,學習到的樣本保持清晰的分離效果,且能減少尾類樣本洩漏。

也就是說,為了利用自監督克服標籤偏見,在長尾學習的第一階段,需要先放棄標籤信息,進行自監督預訓練。

此階段後,可以使用任何標準訓練方法,訓練得到最終模型。(例如此前所用的遷移學習、重加權、域自適應……)

這樣,就能更好地解決長尾問題。

作者介紹

論文一作楊宇喆,目前是MIT計算機科學的三年級博士生,本科畢業於北京大學。

目前,楊宇喆的研究方向主要有兩個:基於學習的無線感應技術,應用方向是醫療保健;機器學習,主要是針對機器學習和強化學習的魯棒性進行研究。

論文二作Zhi Xu,本科畢業於伊利諾伊大學厄巴納-香檳分校,同樣是MIT的博士生,感興趣的研究方向是機器學習理論和現代應用,目前主要在研究強化學習的穩定性、效率、結構和複雜度。

相關焦點

  • 數據風險、算法黑箱怎麼破?這家創企用AI化解安全難題
    數據隱私、算法攻防、道德倫理……AI安全問題關山難越在金融、醫療、公共安全等AI應用場景中,需要用到的數據往往涉及個人隱私信息,而數據的簡單明文傳輸和利用很可能導致隱私洩露,以至造成嚴重後果。僅是在2020年,就發生過多起因個人信息洩露造成的詐騙案。除了數據安全外,算法安全問題也不容小覷。
  • 無監督機器學習算法:主成分分析
    之前我們曾經講過,無監督學習是一種不使用標記數據(無目標變量)的機器學習。因此,算法的任務是在數據本身中尋找模式。無監督機器學習算法的兩種主要類型分別是使用主成分分析的降維算法和聚類算法(包括K-Means和層次聚類算法)。下面將依次介紹這些內容。
  • 無需任何標記數據,幾張照片還原出3D結構,自監督學習還能這樣用
    通常訓練神經網絡的第一想法是,將這幾個變量直接設為參數,並採用梯度下降算法對模型進行收斂。但這樣效果會很差,因為模型在想辦法「偷懶」。將損失降低到一定程度後,它就不再尋找更好的解決方案。對此,研究者利用強化學習中的好奇心驅動,額外給模型加了一個「批評家」(critic)網絡,它會利用數據分布中隨機提取的有效樣本,來褒貶模型的結果。這樣,模型作為「表演者」(actor),為了獲得更好的評價,就會再試圖去尋找更好的方法,以生成更優的結果。
  • AI色情創作算法亟需「養料」,非法裸圖數據集「重生」
    某個人上傳數據集到網際網路上,可以將其插入「deepfake色情片」訓練集中,其他人則可以使用該數據集來創建「完全由AI生成的色情」。不同於DeepNude利用社群網路中的私人照片,這次 Deepfake造假利用的是現有的成人色情作品。
  • 北大教授王興軍:矽光市場將迎迅猛發展,更高集成度是重點
    「科創V計劃——燕緣科創大講堂」由北京大學校友會指導,北京創業投資協會與北大校友「燕緣雄芯」平臺、北京大學科技創新校友會聯合主辦,將每周一個小時線上深度分享,聚焦科創話題,傳遞科創星火。10月23日,「燕緣科創」第26期邀請了北京大學教授、博士生導師、電子學系副主任王興軍,分享了《矽基光電子集成晶片 — 光電融合的核心技術》。
  • 無需任何標記數據,幾張照片就能還原出3D物體結構,自監督學習還能這樣用
    對此,研究者利用強化學習中的好奇心驅動,額外給模型加了一個「批評家」(critic)網絡,它會利用數據分布中隨機提取的有效樣本,來褒貶模型的結果。這一「批評家」網絡,迫使模型在優化過程中,不能只依賴於同一種(錯誤的)答案,而是必須在已有數據下尋找更好的解決方案。
  • 我們到底該如何學習《數據結構與算法》
    第二:工作現在的大廠api框架基本上背後的邏輯就是基於算法實現的。其實算法的種類有很多,比如說機器學習、神經網絡算法,還有java中的排序算法,網際網路的商品推薦、股票預測其背後的邏輯都是算法。就算是熟悉的那些框架,背後的邏輯也是數據結構與算法。我們敲代碼解決問題的過程當中也是算法的集中體現。
  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    自監督學習是一種介於無監督和有監督學習之間的新範式,可以有效減少對大量帶注釋數據的需求。在數據訓練的過程中,生成帶有無噪聲標籤的數據集的成本很高,而無標籤的數據又一直在不斷產生。為了有效利用大量的無標籤數據,自監督學習通過設置合理的學習目標和定義前置任務,從數據本身中得到了監督信號。當前自監督學習已經被廣泛用於訓練卷積神經網絡(CNNs),有效地提高了圖像表示學習可傳遞性、泛化能力和魯棒性,並且已在語義分割、目標檢測、圖像分類、人體動作識別等實戰場景中展現出卓越效果。現在更多無需人工標註的前置任務訓練也被提出,如前景對象分割、圖像修補、圖像著色等。
  • 100天學習計劃 | 一份詳實的數據科學指南
    然後介紹一些更深層次的技術,比如識別數據集中的異常值和測量誤差範圍。這節課要講的一些算法有:線性回歸和邏輯回歸決策樹/隨機森林支持向量機(SVM)在最初的10天裡,重點應該是理解你所選擇的算法背後的理論。然後花些時間了解每個算法比其他算法更適合的場景,比如當數據集中有很多分類屬性時,決策樹是最好的。
  • 資料|世界著名計算機教材精選:數據挖掘十大算法(中文版)
    >《世界著名計算機教材精選:數據挖掘十大算法》詳細介紹了在實際中用途最廣、影響最大的十種數據挖掘算法,這十種算法是數據挖掘領域的頂級專家進行投票篩選的,覆蓋了分類、聚類、統計學習、關聯分析和連結分析等重要的數據挖掘研究和發展主題。
  • 這個對抗算法讓人臉識別算法失靈,還能抵抗微信微博照片壓縮
    即使經過處理的照片被社交平臺中各種壓縮算法改造一番,也依然能保持對抗性。比如,在微博上就可以達到90%以上的成功率。抗壓縮的照片「隱身衣」一般來說,添加了微小擾動的對抗性實例,都會受到圖像壓縮方法的影響。尤其是現在不同社交平臺採用的壓縮方法都是黑盒算法,壓縮方法的變化也給對抗性實例的「抗壓性」帶來了不小的挑戰。
  • 河南快遞小哥餘建春,用新算法破解世界難題,創舉流傳海外引熱議
    生活無疑是辛苦的,而對餘建春來說,每日回到出租屋裡,解決那些數學難題的過程才是最放鬆的時刻。正是在下班後的這些時間裡,餘建春用自己獨特的算法解決了一個又一個的難題。好景不長,工作上的不起色,令餘建春喪失了在大城市生活的希望。
  • 利用Python進行數據分析(三):數據預處理與建模分析
    0.前言本系列主要是利用Python進行數據採集、清洗、預處理和利用機器學習算法對數據進行建模分析,幫助建立數據分析的流程,理解機器學習算法的應用方法。由於金融數據是相對而言較為方便獲取的數據,數據類型豐富,此系列以金融數據為例,進行案例分析。
  • 服裝局部抄襲怎麼解決?阿里推出區域檢索算法
    阿里安全圖靈實驗室高級算法專家華棠表示。 服裝智慧財產權保護難題待解 當前,服裝的盜版問題普遍存在,無論線上還是線下,治理難度逐年升高。 「盜版服裝圖像」檢索算法詳解 為了解決第三類盜版問題,阿里安全研究者將圖像中的服裝分為五個區域,包括領子、胸部、腰部和兩個袖子區域。「盜版服裝」被定義為整體上抄襲原版服裝設計和風格,並在一兩個區域進行修改,以逃避現有同款服裝檢索模型篩查的服裝樣本。
  • 螞蟻金服提自監督表徵學習識別方法
    而一些基於深度學習的驗證碼識別算法在準確性上取得了顯著的提高,但這些方法的主要問題是需要大規模的帶有標籤的訓練樣本參與訓練,而這通常需要耗費大量的人工成本。因此,基於深度學習類方法主要需要解決的是訓練樣本量不足的問題。
  • 【數據結構與算法】哈希表 (hash table)
    這樣的對應關係在現實生活中很常見,比如:上面兩個映射中,人 -> 身份證號是一一映射的關係。在哈希表中,上述對應過程稱為hashing。A中元素a對應B中元素b,a被稱為鍵值(key),b被稱為a的hash值(hash value)。
  • 論算法的法律規制
    摘要:算法崛起對法律規制提出了挑戰,它可能挑戰人類的知情權、個體的隱私與自由以及平等保護。作為人機互動的算法決策機制,算法並非價值中立,具備可規制性。算法公開、個人數據賦權、反算法歧視是傳統的算法規制方式,但機械適用這些方式面臨可行性與可欲性難題。
  • 校友故事 |北大光華陶婷婷:縱使艱難,我依然選擇這滾燙的人生。
    2014年進入北大光華MBA學習,在校期間,擔任聯合會副主席,北大投資協會十四任會長。在籌備五年後,2017年開始第二次創業,創立貴鳳凰,2018年開出第一家貴州米粉門店,2019年貴鳳凰成為北京必吃榜上唯一的貴州餐廳。02、畢業後明明有很好的就業機會,為什麼會選擇創業?
  • 許進:圖染色問題和數據信息安全問題可互相轉化
    北京大學教授、博士生導師許進在論壇上作了題為《四色猜想的數學證明》的主題報告。許進長期從事理論計算機與算法研究,先後主持國家自然科學基金重點項目、重大國際合作項目、國家重點研發計劃等數十項。例如困惑當前生命科學的世界難題蛋白質結構預測,許進教授將它轉化為圖染色,並給出了基於生物計算的實現方案;生活中常見的列車調度問題、固定工序問題,也均可直接轉化為圖染色問題。許進教授認為數學是推動科技進步發展的主要推動力。
  • 北大校友最新研究收割2.8k星標,還登上了...
    北大校友出品:顯著性目標檢測工具這款AI工具叫U∧2-Net(U Square Net),最近火到不行!不僅登上了GitHub熱榜,收割了2.8k星標,還被頂會ICPR 2020 選中。更關鍵是,這項研究的一作還是北大校友——秦雪彬。