又一款百度煉丹神器!

2021-02-23 CVer

點擊上方「CVer」,選擇加"星標"置頂

重磅乾貨,第一時間送達

在深度學習領域,有一個名詞正在被越來越頻繁地得到關注:遷移學習。它相比效果表現好的監督學習來說,可以減去大量的枯燥標註過程,簡單來說就是在大數據集訓練的預訓練模型上進行小數據集的遷移,以獲得對新數據較好的識別效果,因其能夠大量節約新模型開發的成本,在實際應用中被更廣泛地關注。基於此,百度EasyDL零門檻AI開發平臺引入了超大規模視覺預訓練模型,結合遷移學習工具,幫助開發者使用少量數據,快速定製高精度AI模型。

高質量數據獲取難度高,遷移學習提升模型效果

在訓練一個深度學習模型時,通常需要大量的數據,但數據的採集、標註等數據準備過程會耗費大量的人力、金錢和時間成本。為解決此問題,我們可以使用預訓練模型。以預訓練模型A作為起點,在此基礎上進行重新調優,利用預訓練模型及它學習的知識來提高其執行另一項任務B的能力,簡單來說就是在大數據集訓練的預訓練模型上進行小數據集的遷移,以獲得對新數據較好的識別效果,這就是遷移學習(Transfer Learning)。遷移學習作為一種機器學習方法,廣泛應用於各類深度學習任務中。在具體實現遷移學習時,有多種深度網絡遷移方法,其中的Fine-tune(微調)是最簡單的一種深度網絡遷移方法,它主要是將已訓練好的模型參數遷移到新的模型來幫助新模型訓練。

針對一個具體的模型開發任務,我們通常會選擇在公開的大數據集上訓練收斂、且效果較好的模型,作為預訓練權重,在此基礎上使用業務數據對模型進行Fine-tune。在Fine-tune時,默認源域(預訓練模型)、目標域數據集(用戶業務數據集)需要具有較強相關性,即數據同分布,這樣我們才能利用預訓練模型的大量知識儲備,快速高效地訓練出針對特定業務場景並具有優秀效果的模型。

但在實際應用場景中,很多用戶會面臨數據集與源數據集分布不同的問題。比如,預訓練模型的數據都是自然風景,但用戶的數據集都是動漫人物。類似這種源數據集和目標數據差別較大的問題,在具體應用中較易導致負向遷移,具體表現為訓練收斂慢,模型效果差等。

因此,一個包含各類場景、覆蓋用戶各類需求的超大規模數據集就十分重要,通過這個包羅萬象的超大規模數據集訓練所得的模型,才能夠更好地適應來自各行各業用戶的需求,更好地Fine-tune用戶的業務數據集,幫助用戶在自己的數據集上得到效果更好的模型。

百度超大規模預訓練模型便在此背景下產生,在視覺方向,百度自研超大規模視覺預訓練模型覆蓋圖像分類與物體檢測兩個方向。圖像分類的預訓練模型,用海量網際網路數據,包括10萬+的物體類別,6500萬的超大規模圖像數量,進行大規模訓練所得,適應於各類圖像分類場景;物體檢測的預訓練模型,用800+的類別,170萬張圖片以及1000萬+物體框的數據集,進行大規模訓練所得,適應於各類物體檢測應用場景。相對於普通使用公開數據集訓練的預訓練模型,在各類數據集上都有不同程度效果提升,模型效果和泛化性都有顯著提升。

真實測試數據展示百度超大規模視覺預訓練模型的強大能力

(以下實驗數據集均來自不同行業)

圖像分類

在圖像分類模型中,使用百度超大規模預訓練模型的Resnet50_vd相比普通模型在各類數據集上模型效果平均提升12.76%,使用百度超大規模預訓練模型的Resnet101_vd,相比於普通預訓練模型,平均提升13.03%,使用百度超大規模預訓練模型的MobilenetV3_large_1x,相比於普通預訓練模型,平均提升8.04%。

基於百度超大規模預訓練模型訓練出來的ResNet50_vd,ResNet101_vd和MobileNetV3_large_x1_0,其中比較特殊的幾個模型,EffcientNetB0_small是去掉SE模塊的EffcientNetB0,在保證精度變化不大的同時,大幅提升訓練和推理速度,ResNeXt101_32x16d_wsl 是基於超大量圖片的弱監督預訓練模型,準確率高,但預測時間相對增加,Res2Net101_vd_26w_4s則是在單個殘差塊內進一步構造了分層的殘差類連接,比ResNet101準確度更高。

並且,為了進一步提升圖像分類模型的模型效果,在訓練層面,圖像分類新增了mix_up和label_smoothing功能,可以在單標籤分類任務中,根據模型的訓練情況選擇開啟或者關閉。mix_up是一種數據增強方式,它從訓練樣本中隨機抽取了兩個樣本進行簡單的隨機加權求和,並保存這個權重,同時樣本的標籤也對應地用相同的權重加權求和,然後預測結果與加權求和之後的標籤求損失,通過混合不同樣本的特徵,能夠減少模型對錯誤標籤的記憶力,增強模型的泛化能力。Label_smoothing是一種正則化的方法,增加了類間的距離,減少了類內的距離,避免模型對預測結果過於confident而導致對真實情況的預測偏移,一定程度上緩解由於label不夠soft導致過擬合的問題。

物體檢測

在物體檢測模型中,使用百度超大規模預訓練模型的YOLOv3_DarkNet相比普通模型在各類數據集上模型效果平均提升4.53 %,使用百度超大規模預訓練模型的Faster_RCNN,相比於普通預訓練模型,平均提升1.39%。

並且,在物體檢測方向,EasyDL內置基於百度超大規模預訓練模型訓練出來的YOLOv3_Darknet、Faster_R-CNN_ResNet50_FPN,其中,Cascade_Rcnn_ResNet50_FPN通過級聯多個檢測器以及設置不同IOU的重採樣機制,使得檢測器的精度、和定位的準確度進一步提升。此外,針對用戶的需求,新增兩種YOLOv3的變種模型,其中,YOLOv3_MobileNetV1,是將原來的YOLOv3骨架網絡替換為MobileNetv1,相比YOLOv3_DarkNet, 新模型在GPU上的推理速度提升約73%。而YOLOv3_ResNet50vd_DCN是將骨架網絡更換為ResNet50-VD,相比原生的DarkNet53網絡在速度和精度上都有一定的優勢,在保證GPU推理速度基本不變的情況下,提升了1%的模型效果,同時,因增加了可形變卷積,對不規則物體的檢測效果也有一定的正向提升。

綜合多項數據可以發現,百度超大規模視覺預訓練模型對比公開數據集訓練的預訓練模型,效果提升明顯。

EasyDL零門檻高效定製高精度AI模型

百度EasyDL是基於飛槳深度學習平臺,面向企業開發者推出的零門檻AI開發平臺,一站式支持智能標註、模型訓練、服務部署等全流程功能,內置豐富的預訓練模型,支持圖像分類、物體檢測、文本分類、音視頻分類等多類模型,支持公有雲/私有化/設備端等靈活部署方式。EasyDL目前已在工業、零售、製造、醫療等領域廣泛落地。

在模型的開發與應用過程中,從數據準備、模型訓練到服務部署,開發者在每個環節都可能面對不同的門檻與難點。

在數據準備階段,如何針對業務需求選擇適當的訓練數據並正確標註?

進入到模型訓練環節,如何選擇恰當的模型,精度該如何提升?

到達部署的「最後一公裡」,硬體如何選型,又如何快速完成業務集成?

解答疑問的機會來了!

本周六,AI快車道降臨「世界歷史名城」西安,開源框架高階營也將由百度資深研發工程師們,從開發全流程、目標檢測、「全能」OCR、最前沿的NLP技術、部署工具、崑崙晶片六大方向展開深度講解,歡迎有AI應用的、熱愛深度學習技術等尋求技術突破的開發者們來【高新希爾頓酒店7層3號廳】進行交流,期待在這樣一個歷史、科研、教育、工業都重點發展的城市與大家共建AI之路!

同日,AI快車道【EasyDL零門檻模型開發營】也在西安高新希爾頓酒店7層1號廳】,百度資深研發高工將會用半天時間,深入淺出講解技術原理、結合業務與技術解析行業標杆案例,手把手帶領學員完成模型開發!更有設備端模型技術原理介紹與展示、研發現身說法分享多年累計模型效果提升經驗,助你短時間超高效取得EasyDL模型開發真經!

同時,也會在線上同步直播,掃描海報二維碼或點擊閱讀原文,報名進群獲取完整課表與直播連結!

相關焦點

  • 小說常常說的神器煉丹「九鼎」,到底是什麼神器
    我們是不是經常看見玄幻小說,都市小說經常說到有關於鼎的神器或者仙器。那到底在我們中國歷史上說的九鼎到底是什麼呢?小說經常說有關與鼎的神器都非常厲害。最為常見的就是煉丹,因為小說只要有煉丹師這個職業,就會使用鼎,而越好的鼎,提升自己煉丹技術越高。所有小說作者常常給越厲害的鼎取越酷的名字,也有一些會查閱資料看歷史上有沒有"名鼎"。而最為出名的應該是「九鼎」了吧。
  • 百度又一「神器」走紅網絡,解決端午出行難題,網友:旅遊離不開
    而為了眾多植物系青年們在旅途中介紹植物時,能夠輕鬆自如掌控全局,蝸牛在此給大家介紹一款神器——「百度APP識花功能」,讓每個人都能搖身一變成為見多識廣的「植物學家」。百度APP的識花功能具體該怎麼操作呢?
  • 百度又出新花樣,私人訂製來了!學習娛樂一網打盡的百度神器!
    百度又迎來了史詩級更新,不是別的,正是市面上佔有率最高的百度輸入法,你用過百度輸入法嗎?我猜基本上都用過吧?科技季節可是百度輸入法的忠實用戶,最愛的功能莫過於語音輸入了,既避免了陌生人發送語音的尷尬,而且語音轉文字的準確率超高,在忙的時候一句語音輸入代替了不少打字的麻煩,這就是百度輸入法改變生活吧!這款百度輸入法號稱生活學習娛樂一網打盡的全新專屬神器,這稱號是不是有些虛幻呢?是的,百度輸入法9.0更新後花樣實在是太多了,且聽我慢慢道來!
  • 一款超好用搜圖軟體,花瓣網、堆糖、搜狗、百度、P站一站搞定!
    不知道小夥伴們還記得檸檬曾經給大家分享過一款壁紙軟體「搜圖神器」;近期這款軟體再次更新,簡直好用到炸。「搜圖神器」內置的資源主要來自於花瓣網、堆糖、搜狗、百度、P站等眾多網站,壁紙質量全是4K以上。類型多自定義搜索小工具打開「搜圖神器」首頁,可以看到只有推薦、最新等功能,如果不滿意軟體給我們推薦的壁紙,我們還可以使用換一換功能。
  • 《修真界》怎麼煉丹 煉丹技巧攻略
    許多小夥伴還不太清楚,現在小編將為大家帶來修真界丹師及煉丹的方式介紹,以及詳細的煉丹技巧攻略,不懂的小夥伴快來... 修真界手遊中煉丹是一個十分重要的玩法,遊戲中的煉丹法是比較困難的,那麼應該如何進行煉丹呢?
  • 深度學習·煉丹入門
    本文簡要的介紹深度學習煉丹的方方面面,並對丹界新人的修仙之路提供幾點微小的建議。煉丹簡史煉丹這一門在修真界存在已久。上次輝煌發生在上世紀80,90年代。筆者本科導師曾回憶,他參加過一次鼎盛時期的煉丹大會,場地在海邊一字排開,連綿幾百米。那次會有數萬人參加。但現在連名字大家都不怎麼記得了。煉丹門的上一次衰退有多個原因。
  • 國產地圖神器在線PK谷歌地圖,我的分析圖有救拉(附百度提取神器)
    >
  • 百度高考APP成大學生家教輔導必備神器
    近日,新版百度高考APP走紅大學生家教群體間,助力大學生開展家教活動,成為大學生家教輔導的必備神器。好在同在做家教的同學向他推薦了一款名為「百度高考」的APP,小馮抱著試一試的態度下載並安裝,很快註冊完成並搜索了相關知識點,解決了遇到的難題。
  • 來一款度盤下載神器!支持解密+詳細教程!限時免費領
    來一款度盤下載神器!支持解密+詳細教程!限時免費領。領取方式見文章末尾)今天我們給大家分享一款【網盤下載神器-KinhDown】,這也是昨天就答應了大家的工具,最近市場上推薦的網盤下載工具比較多,也比較雜,說明網盤下載是剛需中的剛需,但要找一款穩定稱心的工具比較難,今天就上這款給大家。
  • 【文獻翻譯神器資源包!】八款SCI文獻翻譯寫作神器!支持圖片和PDF格式整篇翻譯! 強烈推薦!科研必備之神器,總有一款適合你!
    不說發表,就是光在閱讀SCI論文時,英文的翻譯問題已經撂倒了一大大大大……批科研狗人~SO今天小編為大家整理了八款SCI文獻翻譯寫作神器!專治各種瞎翻譯、亂換行、外星文和費時費力科研文獻之神器,總有一款是你必備的!照例,免費送!
  • 百度開發迷你翻譯神器 旅遊時還可蹭WiFi熱點自動連網
    百度開發迷你翻譯神器 旅遊時還可蹭WiFi熱點自動連網  Evelyn Zhang • 2017-09-26 17:12:
  • 誅仙手遊煉丹攻略 煉丹消耗匯總[視頻][多圖]
    誅仙手遊丹藥是遊戲中必不可少的消耗品,但是想要煉丹是需要完成各種活動、副本、或是商城購買的丹方以及丹爐,下面給大家說說煉丹的攻略。 誅仙手遊煉丹攻略 一。煉丹系統涉及到幾個方面,主要有:配方,丹藥,丹材,藥引,煉丹爐。
  • 強勢安利一款公式COPY神器 Mathpix Snipping Tool
    強勢安利一款公式COPY神器 Mathpix Snipping
  • 鬥破蒼穹手遊怎麼煉丹 煉藥師煉丹攻略
    煉藥師 當鬥者等級達到25級後便可解鎖煉丹玩法。 煉藥師有九個品階,分別為:一品~八品煉藥師及帝品煉藥師。一品煉藥師品階最低,帝品煉藥師品階最高。隨著煉藥師品階的提升,則可煉製不同的丹藥。 不過煉丹需要有三種道具才能煉製丹藥,分別是丹方、藥材和煉丹爐。 丹方:也就是煉製丹藥的配方,可以通過活動【魔獸懸賞】或者主線任務獲得,丹方只要學會了便永久存在。若丹方的學習等級超過了鬥者煉藥師的品階則無法學習,所以各位鬥者加油提升煉藥師品階吧! 藥材:顧名思義就是煉製丹藥的材料,需要用採藥和尋寶這兩個生活技能獲得,或者從商會中購買。
  • 道教「煉丹」那些事
    道教重視生命價值,強調「貴生」、「長生」,並以此提出「奪天地造化之功,盜四時生成之務」,及其為這一最高理想而產生的「煉丹」舉措,始終是交融互滲,渾然一體的。但有關煉丹科技實踐,學界均認為是在西漢的淮南王劉安時期,說他召集方士數千人,整日讀經立著,談玄論道;採芝伐藥,設爐煉丹。這一集體科研舉措,被後世譽為「煉丹之源」。        當時的這些方士,可謂是思想、科學科技的先行者,他們在探索天文、地理、生命、道的同時,還在炎熱的夏天造出冰塊、磁石下棋、艾火令雞子飛的「熱氣球」實驗……。
  • 谷歌、360、搜狗、百度,誰才是新媒體小編的最愛翻譯神器
    痛定思痛,想要英語速成達到大神標準是不可能了,還是選擇一款翻譯神器,來幫我搞定這個寫文路上的攔路虎。於是我決定,就拿谷歌翻譯、百度翻譯、搜狗翻譯、360翻譯這4個翻譯工具來PK一下。先看看各家的主界面,作為「顏狗」的我還是很看重第一印象的。
  • 谷歌、360、搜狗、百度,誰才是新媒體小編最愛的翻譯神器
    痛定思痛,想要英語速成達到大神標準是不可能了,還是選擇一款翻譯神器,來幫我搞定這個寫文路上的攔路虎。於是我決定,就拿谷歌翻譯、百度翻譯、搜狗翻譯、360翻譯這4個翻譯工具來PK一下。先看看各家的主界面,作為「顏狗」的我還是很看重第一印象的。
  • 入住酒店擔心針孔攝像頭,百度App防偷拍神器一鍵幫你檢測!
    就算在房間裡的某一處發現了攝像頭,那麼就能高枕無憂了嗎?到底房間裡還藏有多少未發現的"兇器"?簡直是細思極恐!那麼到底如何才能快速知道我進入的房間到底藏有多少針孔攝像頭呢?小編告訴你,現在一個百度App就能幫你搞定了!What?要不要這麼神奇?咱們一起往下看!
  • 今日分享:一款聽書神器
    編號:108很多朋友一直喜歡看小說,但是看小說就不能幹別的事情,心心念想的就想要一款聽書的神器,這款聽書神器在九大書源的加持下,顯得異常的強大,各種音頻讀物十分的豐富,你們可以解放雙眼,盡享聽書的樂趣您的認可,就是我的動力,如果覺得這款軟體對你有幫助,可以私信回復【芝麻開門】(4個字)即可下載。PS:私信方法:點擊我頭像,進入主頁後,右上角有私信功能,在關注旁邊!
  • 8款「翻譯神器」評測
    說到人工智慧,最近常聽人們這樣談論:「人工智慧翻譯將取代同傳」「從事翻譯職業的人離下崗不遠了」;這邊,一家公司在一個大會上展示人工智慧同聲傳譯,那邊,又一家公司發布一款新硬體產品,可實現80國語言的語音實時翻譯……嚇得我們趕緊翻出兒時用的文曲星,但聽說文曲星現在也改叫翻譯機了。   人工智慧翻譯到底發展到哪種水平了?