MIT博士生、北大校友,利用自監督算法,解決數據集中常見難題

2021-01-19 量子位

蕭簫 轉載整理自 楊宇喆量子位 報導 | 公眾號 QbitAI

訓練模型時,你是否也遭遇過這樣的「尷尬」時刻:

好不容易找到了自己想要的數據集,結果點進去一看,大部分樣本都是一類物體。(例如,數據集標籤「動物」,結果80%的樣本都是「貓」)

用上面這個數據集訓練的動物檢測模型,可能只能識別「貓」。

這類數據不均衡(某一標籤數量太多,其餘標籤數量太少)的問題,在機器學習中被稱為「長尾問題」。

這個問題導致,數據集中(尤其是大型數據集)樣本數量少的物體,泛化效果會非常差。

△像一條長長的尾巴

然而事實上,在一個數據集中,幾乎總有常見和不常見的類別,其中不常見的類別,又往往成為需要被識別的目標。

例如,自動駕駛感知模型中,就要求AI能提前預測可能違規的情形,並及時阻止。

然而在自動駕駛數據集裡,不可能全是肇禍、違規的場景(大部分場景還是安全的)。

那麼,這些「不均衡」的數據集,就真的不能用了嗎?

來自MIT的兩名博士生楊宇喆和Zhi Xu,想到了一種新的解決方案,研究成果登上了NeurIPS 2020頂會。

一起來看看。

一些已有的解決辦法

事實上,此前為了解決「不均衡」數據集,研究者們已經嘗試過多種方法。

僅僅是主流算法,就分為七種:

重採樣(re-sampling):分為對少樣本的過採樣、及多樣本的欠採樣,但這2種方法,都有欠缺的地方。其中,過採樣容易發生少樣本過擬合,無法學習更魯棒、易泛化的特徵,在不平衡數據上表現較差;欠採樣會造成多樣本嚴重信息損失,導致發生欠擬合。

數據合成(synthetic samples):生成和少樣本相似的新數據。以SMOTE方法為例,對於任意選取的少類樣本,它用K近鄰選取相似樣本,並通過對樣本線性插值得到新樣本。這裡與mixup方法相似,因此,也有非均衡的mixup版本出現。

重加權(re-weighting):為不同類別(甚至不同樣本)分配不同的權重。其中,權重可以自適應。這一方法誕生出很多變種,如對類別數目的倒數進行加權、對「有效」樣本數加權、對樣本數優化分類間距的損失加權等等。

遷移學習(transfer learning):對多類和少類樣本分別建模,將學到的多類樣本信息/表示/知識遷移給少類別使用。

度量學習(metric learning):希望能學到更好的嵌入,以對少類附近的邊界/邊緣更好地建模。

元學習/域自適應(meta learning/domain adaptation):分別對頭、尾部數據進行不同處理,自適應地學習如何重加權,或是規劃成域自適應問題。

解耦特徵和分類器(decoupling representation & classifier):研究發現,將特徵學習和分類器學習解耦、將不平衡學習分為兩個階段,並在特徵學習階段正常採樣、在分類器學習階段平衡採樣,可以帶來更好的長尾學習效果。這是目前最優的長尾分類算法。

但這些,在樣本極端失衡的情況下也沒法用,如果真的只有幾個樣本,模型的性能差異就無法避免。

關鍵在於,究竟該怎麼理解這裡面的「不均衡」?

「不均衡」標籤的內在價值

那些本身就不平衡的數據標籤,會不會具有什麼價值?

研究發現,這些不平衡的數據標籤,就像是一把「雙刃劍」。

一方面,這些標籤提供了非常珍貴的監督信息。

在特定任務上,有監督學習通常比無監督學習的準確性更高,即使不平衡,標籤也都具有「正面價值」。

但另一方面,標籤的不平衡,會導致模型在訓練過程中,被強加標籤偏見(label bias),從而在決策區域被主類別極大地影響。

研究者們認為,即使是不平衡標籤,它的價值也可以被充分利用,並極大地提高模型分類的準確性。

如果能先「拋棄標籤信息」,通過自監督預訓練,讓模型學習到好的起始表示形式,是否就能有效地提高分類準確性?

從半監督,到自監督預訓練

作者們先對半監督下的不均衡學習進行了實驗。

實驗證明,利用無標記數據的半監督學習,能顯著提高分類結果。

從圖中可以看出,未標記數據,有助於建模更清晰的類邊界,促成更好的類間分離。

這是因為,尾類樣本所處區域數據密度低,在學習過程中,模型不能很好地對低密度區域進行建模,導致泛化性差。

而無標記數據,能有效提高低密度區域樣本量,使得模型能對邊界進行更好的建模。

然而,在一些很難利用半監督學習的極端情況下,仍然需要自監督學習出場。

這是因為,一旦自監督產生良好初始化,網絡就可以從預訓練任務中受益,學習到更通用的表示形式。

而實驗同樣證明了這一點。

正常預訓練的決策邊界,很大程度上會被頭類樣本改變,導致尾類樣本大量「洩漏」,無法很好地泛化。

而採用自監督預訓練的話,學習到的樣本保持清晰的分離效果,且能減少尾類樣本洩漏。

也就是說,為了利用自監督克服標籤偏見,在長尾學習的第一階段,需要先放棄標籤信息,進行自監督預訓練。

此階段後,可以使用任何標準訓練方法,訓練得到最終模型。(例如此前所用的遷移學習、重加權、域自適應……)

這樣,就能更好地解決長尾問題。

作者介紹

論文一作楊宇喆,目前是MIT計算機科學的三年級博士生,本科畢業於北京大學。

目前,楊宇喆的研究方向主要有兩個:基於學習的無線感應技術,應用方向是醫療保健;機器學習,主要是針對機器學習和強化學習的魯棒性進行研究。

論文二作Zhi Xu,本科畢業於伊利諾伊大學厄巴納-香檳分校,同樣是MIT的博士生,感興趣的研究方向是機器學習理論和現代應用,目前主要在研究強化學習的穩定性、效率、結構和複雜度。

相關焦點

  • 小白學數據:教你用Python實現簡單監督學習算法
    大數據文摘作品編譯:文明、笪潔瓊、天培今天,文摘菌想談談監督學習。監督學習作為運用最廣泛的機器學習方法,一直以來都是從數據挖掘信息的重要手段。即便是在無監督學習興起的近日,監督學習也依舊是入門機器學習的鑰匙。這篇監督學習教程適用於剛入門機器學習的小白。
  • 數據風險、算法黑箱怎麼破?這家創企用AI化解安全難題
    張鈸院士認為,這裡存在著算法與數據的不安全性。縱然技術無罪,損失誰來買單?引發新一輪安全憂慮的AI,也可以成為破解安全難題的良藥。一、數據隱私、算法攻防、道德倫理……AI安全問題關山難越在金融、醫療、公共安全等AI應用場景中,需要用到的數據往往涉及個人隱私信息,而數據的簡單明文傳輸和利用很可能導致隱私洩露,以至造成嚴重後果。僅是在2020年,就發生過多起因個人信息洩露造成的詐騙案。除了數據安全外,算法安全問題也不容小覷。
  • 軟體、算法和硬體,MIT團隊用三支箭為「摩爾定律」續命
    軟體、算法和硬體 對於軟體,研究人員說,程式設計師以前優先考慮生產力而不是性能,這導致了一些有問題的策略,比如「簡化」,即用解決問題 A 的代碼來解決問題 B。
  • MIT 推出機器翻譯新算法,破譯已消失的古語言
    然而不幸的是,大多數滅絕語言的相關記錄都非常的少,導致科學家無法使用谷歌翻譯之類的機器翻譯工具或 AI 算法來對其進行解密。因此,此次 CSAIL 團隊推出這一新算法的最終目的就是,旨在只用幾千個單詞,就可以破譯語言學家幾十年來難以理解的失傳語言。
  • 「神經網絡就像任性的小孩」港中文博士揭開自監督學習的秘密
    新智元邀請香港中文大學多媒體實驗室的詹曉航博士,為我們解讀關於自監督學習的歸納、思考和展望。如何定義自監督學習?自監督學習是指用於機器學習的標註(ground truth)源於數據本身,而非來自人工標註。如下圖,自監督學習首先屬於無監督學習,因此其學習的目標無需人工標註。
  • 數據科學新手最適合使用的5大算法
    當你開始數據科學之旅時,遇到的第一個子領域可能就是機器學習。機器學習是用於描述計算機算法集合的名稱,這些算法在運行過程中通過收集信息不斷進行學習和改進。機器學習算法都是基於某些數據的。最初,該算法通過一些「訓練數據」來建立解決特定問題的直覺。一旦算法通過了學習階段,就可以通過已獲得知識解決基於不同數據集的相似問題。
  • 常見的機器學習算法,你知道幾個?
    事實上,機器學習是一門多領域交叉學科,涉及概率論、統計學、算法複雜度理論等多門學科。專門研究計算機如何模擬或實現人類的學習行為,利用數據或以往的經驗,以此優化電腦程式的性能標準。根據學習任務的不同,我們可以將機器學習分為監督學習、非監督學習、強化學習三種類型,而每種類型又對應著一些算法。
  • ...沒常識」的GPT-3得靠它了,交大ACM班校友提出「Voken」無監督學習
    解決圖片數據集不足問題要讓AI像人類一樣從「圖片卡」學習語言並非易事。因為圖像數據集和純文字語料庫之間,無論是大小還是分布上,都存在著巨大的差異。例如,下面的圖片在視覺語言數據集中被描述為:「一隻橘貓坐在一個準備打包的行李箱裡。」
  • 清華CVer 對自監督學習的一些思考
    但標籤仍然存在,只不過標籤是從輸入數據中生成的,通常是使用啟發式算法生成。自監督學習的流行是勢在必然的。在各種主流有監督學習任務都做到很成熟之後,數據成了最重要的瓶頸。從無標註數據中學習有效信息一直是一個很重要的研究課題,其中自監督學習提供了非常豐富的想像空間。
  • 共同戰「疫」——北大校友在行動
    在前線,北大醫學已派出共4批427名醫護管理人員,奮戰在阻擊疫情的一線。在後方,全球北大校友始終在行動,儘自己的所能,聚全球力量,傳遞北大愛心。2月14日,武漢市金銀潭醫院迎來首位自願捐獻血漿的康復患者。這位毅然伸出胳膊捐獻血漿的志願者是北京大學2001級外語學院校友施慕穎。
  • 無需任何標記數據,幾張照片還原出3D結構,自監督學習還能這樣用
    通常訓練神經網絡的第一想法是,將這幾個變量直接設為參數,並採用梯度下降算法對模型進行收斂。但這樣效果會很差,因為模型在想辦法「偷懶」。將損失降低到一定程度後,它就不再尋找更好的解決方案。對此,研究者利用強化學習中的好奇心驅動,額外給模型加了一個「批評家」(critic)網絡,它會利用數據分布中隨機提取的有效樣本,來褒貶模型的結果。這樣,模型作為「表演者」(actor),為了獲得更好的評價,就會再試圖去尋找更好的方法,以生成更優的結果。
  • 騰訊光影研究室憑GYSeg算法斬獲MIT場景解析評測第一
    近日,騰訊光影研究室(Tencent GYLab)憑藉自研語義分割算法GYSeg,在MIT Scene Parsing Benchmark 場景解析任務中刷新世界紀錄拔得頭籌,領先商湯科技、亞馬遜、復旦、北大、MIT等國內外研究機構和高校。
  • MIT科學家開發機器翻譯新算法,專為破譯消失的古語言
    相反,許多科學家開始利用計算機技術,去探索已經消失的、幾乎成為謎底的滅絕古老語言。近日,麻省理工學院計算機科學與人工智慧實驗室(Computer Science and Artificial Intelligence Laboratory 簡稱 CSAIL)的研究人員就開發出一種計算機算法,旨在幫助語言學家破譯歷史上已消失的語言。
  • 共同戰「疫」 全球北大校友在行動
    北大,從未離開;北大人,一直在行動,雖身處世界各地,但心繫祖國,北大人正在儘自己所能,凝聚全球力量,為武漢加油,為中國加油。在全球北大校友的齊心協力下,近日,一批批醫用物資順利抵達湖北,被第一時間送往疫情防控一線。「休斯敦校友會捐贈的第一批物資搭乘國航996航班直飛北京。哪位校友可以幫忙接運到武漢?」「我們又找到一批貨源,馬上聯絡採買!」
  • 算法庫開源講座第一講:港中文MMLab博士詹曉航帶你實踐自監督學習...
    為了讓大家更好的理解與使用OpenSelfSup,11月25日晚8點,算法庫開源講座第一講上線。由香港中文大學MMLab博士詹曉航主講,主題為《自監督學習算法庫OpenSelfSup解析與開發實踐》。在本次的講座中,詹曉航博士將從OpenSelfSup的背景,即自監督學習的研究背景出發,全面講解開源算法庫OpenSelfSup的框架組成,最後也將會向大家展示如何使用OpenSelfSup,並利用其復現由DeepMind推出的自監督新做BYOL。對自監督感興趣的朋友千萬不要錯過。
  • 算法應用|機器學習python應用,初識機器學習是怎樣滴感受?
    本系列文章主要介紹機器學習在實踐中的應用,介紹利用 Python 的生態環境,使用機器學習的算法來解決工程實踐中的問題,而不是介紹算法本身。本系列文章參考了《機器學習Python實踐》,會通過例子一步一步地引導大家使用機器學習來處理和分類與回歸模型相關的問題。
  • MIT提出了用隨機數生成隨機數的計算機算法
    目前,我們使用的真隨機數據,一般來自系統從物理環境中採集到的「隨機噪音」。 但是計算機科學家想要可以處理隨機性的程序,因為那有時候是解決問題所必須的。多年來,有些公司開發出新穎的算法,儘管它們本身不會生成隨機數,但卻提供了巧妙而有效的方式來使用和操縱隨機性。
  • 北大校友企業江蘇科耳達農業科技有限公司正式入駐揚州北大科技園
    2020年11月20日上午,北大校友企業—江蘇科耳達農業科技有限公司正式開業併入駐揚州北大科技園。揚州北大科技園總經理夏至誠、副總經理王曉敏到場祝賀並座談交流。揚州北大科技園總經理夏至誠代表園區送上祝福,並表示將廣泛匯聚高端智力資源和創新要素,全力支持校友企業發展,為校友企業提供技術服務、空間場地支持以及專業化科技配套服務,希望校友企業為揚州市經濟發展貢獻北大力量。
  • 浙大博士生劉漢唐:帶你回顧圖像分割的經典算法 | 分享總結
    隨著近些年深度學習的火熱,使得圖像分割有了巨大的發展,本文為大家介紹深度學習中圖像分割的經典算法。在近期雷鋒網 GAIR 大講堂上,來自浙江大學的在讀博士生劉漢唐為等候在直播間的同學們做了一場主題為「圖像分割的經典算法」的技術分享,本文根據直播分享內容整理而成,同學們如果對嘉賓所講的內容感興趣還可以在 AI 慕課學院觀看直播回放。
  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    自監督學習是一種介於無監督和有監督學習之間的新範式,可以有效減少對大量帶注釋數據的需求。在數據訓練的過程中,生成帶有無噪聲標籤的數據集的成本很高,而無標籤的數據又一直在不斷產生。為了有效利用大量的無標籤數據,自監督學習通過設置合理的學習目標和定義前置任務,從數據本身中得到了監督信號。當前自監督學習已經被廣泛用於訓練卷積神經網絡(CNNs),有效地提高了圖像表示學習可傳遞性、泛化能力和魯棒性,並且已在語義分割、目標檢測、圖像分類、人體動作識別等實戰場景中展現出卓越效果。現在更多無需人工標註的前置任務訓練也被提出,如前景對象分割、圖像修補、圖像著色等。