今日Paper|深度循環神經網絡;PoseNet3D;AET vs. AED;光場視差估計等

2020-12-05 雷鋒網

目錄

使用混合精度的方法在GPU集群上進行深度循環神經網絡的訓練

PoseNet3D:無監督的3D人體形狀和姿態估計

AET vs. AED:無監督表示學習通過自編碼變換而不是自編碼數據

基於注意力的視點選擇網絡用於光場視差估計

基於CNN的中文lexicon rethinking NER模型

使用混合精度的方法在GPU集群上進行深度循環神經網絡的訓練

論文名稱:Training distributed deep recurrent neural networks with mixed precision on GPU clusters

作者:Alexey Svyatkovskiy / Julian Kates-Harbeck / William Tang

發表時間:2019/11/30

論文連結:https://paper.yanxishe.com/review/13855?from=leiphonecolumn_paperreview0326

推薦原因

核心問題:本文從硬體選取、模型搭建、分布式計算策略、學習率、損失函數等方面,非常詳細的講解了如何高效使用多達100個GPU進行深度循環神經網絡

創新點:本文沒有相關工作的部分,貴在務實,從實際的研究工作中部署一個高效的GPU集群的角度,討論了如何將分布式計算策略、基於混合精度的訓練模型結合起來,使得模型的訓練速度加快、內存消耗降低,並且模型的表現分數並不會下降。同時,作者還研究了使用參數來對損失函數進行縮放,以此提高模型在集群環境下的收斂速度

研究意義:無論是循環神經網絡,還是卷積神經網絡,模型的規模越來越大,本文作者所提出的各種技巧,能解決訓練過程實際的問題,一方面,能在保證了模型的準確率的情況下減少訓練的成本,另一方面,也有助於在當前的資源下,訓練更大的模型。

這些技巧主要針對GPU集群環境,但也能給單GPU環境的同學提供參考。

PoseNet3D:無監督的3D人體形狀和姿態估計

論文名稱:PoseNet3D: Unsupervised 3D Human Shape and Pose Estimation

作者:Tripathi Shashank /Ranade Siddhant /Tyagi Ambrish /Agrawal Amit

發表時間:2020/3/7

論文連結:https://paper.yanxishe.com/review/13853?from=leiphonecolumn_paperreview0326

推薦原因

從二維關節中恢復三維人體姿態是一個高度無約束的問題。本文作者提出了一種新的神經網絡框架PoseNet3D,其以2D關節點作為輸入,輸出3D骨架和SMPL人體模型的參數。作者使用了學生-老師框架,從而避免了在訓練過程中使用3D數據如配對/未配對的3D數據、動捕數據、深度圖或者多視角圖像等等。作者首先使用2D人體關鍵點訓練了一個教師網絡輸出3D人體骨架,教師網絡將其知識提取到學生網絡中,然後學生網絡預測基於SMPL人體模型表達的3D人體姿態。

作者的方法在Human3.6M數據集上相比之前無監督的方法,3D關節點預測誤差減少了18%。在自然數據集上,文章方法恢復的人體姿態和網格也是較為自然、真實的,在連續幀上預測結果也比較連續。

AET vs. AED:無監督表示學習通過自編碼變換而不是自編碼數據

論文名稱:AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data

作者:Zhang Liheng /Qi Guo-Jun /Wang Liqiang /Luo Jiebo

發表時間:2019/1/14

論文連結:https://paper.yanxishe.com/review/13851?from=leiphonecolumn_paperreview0326

推薦原因

這篇論文提出了一種新的通用的無監督表示學習框架——自編碼變換(Auto-Encoding Transformation,AET)。經典的自編碼數據框架的輸入是圖像,採用編碼-解碼網絡得到重構之後的圖像。而自編碼變換的輸入是常見的變換(如旋轉,射影變換,放射變換等),即圖像和經過變換之後的圖像,經過編碼-解碼結構之後得到重構的變換,重構的變換和原始的變換使用MSE作為損失函數,這對於參數化和非參數化的變換,以及GAN都是有效的。作者通過實驗表明,通過重構變換可以提取到更加豐富並且具有判別性的特徵,當自編碼變換網絡訓練完畢之後,使用編碼部分的網絡結構和權重就可以作為一種特徵提取器,從而泛化到其他具體任務上。作者利用NIN網絡,分別採用基於模型的分類器和不基於模型的分類器(KNN)進行圖像分類實現,其性能比之前的無監督方法要優越。該論文收錄在CVPR 2019,其提出的新的通用的無監督表示學習框架對無監督學習具有很大的啟發作用。

基於注意力的視點選擇網絡用於光場視差估計

論文名稱:Attention-based View Selection Networks for Light-field Disparity Estimation

作者:Yu-Ju Tsai / Yu-Lun Liu / Ming Ouhyoung / Yung-Yu Chuang

發表時間:2020/2/1

論文連結:https://paper.yanxishe.com/review/13680?from=leiphonecolumn_paperreview0326

推薦原因

這篇論文是用來解決光場圖像(Light-fifield)的深度估計問題。對於光場圖像,其輸入是同一個物體多個不同視角的圖像,作者認為這些視角之間具有很大的重疊,在提取特徵時是存在重複和冗餘現象的。由此,作者提出了一個基於注意力機制的視角選擇網絡,作為多個視角特徵的重要性衡量權重,從而去除一些重疊和冗餘的視角。具體來說,是借鑑雙目深度估計的PSMNet網絡結構,在匹配代價體(cost volume)之後插入一個基於注意力的視角選擇網絡。網絡的輸出是0-1的權重,按照構造形式可以分為無約束的(free),對稱型的(symmetric)和放射狀的(radial)三種形式,並且學習的參數量逐漸減少。這篇論文的想法比較直接,但是確實能取得當前光場圖像深度估計的最佳性能,收錄在AAAI 2020。

基於CNN的中文lexicon rethinking NER模型

論文名稱:CNN-Based Chinese NER with Lexicon Rethinking

作者:Tao Gui

發表時間:2019/11/6

論文連結:https://paper.yanxishe.com/review/13548?from=leiphonecolumn_paperreview0326

推薦原因

本文研究意義:

採用長時短期記憶(LSTM)對字符級中文命名實體識別(NER)目前已經實現了不錯的效果,然而當我們在具體工程化落地的過程中,會出現GPU在並行性計算的時候會和候選詞之間發生衝突的問題,針對這一問題,作者建議採用更快卷積神經網絡CNN重新構建模型,因為LSTM是一種時序網絡不能夠進行並行化計算,而CNN是可以進行並行化計算。通過實驗表明,作者所提出的方法可以執行比最先進的方法快3.21倍,同時實現更好的性能。

雷鋒網雷鋒網雷鋒網

相關焦點

  • 基於MAP-MRF的視差估計
    日益增長的數據量,同時內部數據還受到諸如光照變化、遮擋等不可控環境因素的影響都對深度圖估計的效率、精度都提出了挑戰。參考影像的深度估計可以轉化為立體像對的視差估計,傳統方法利用稠密匹配的算法進行快速特徵匹配,例如半全局匹配算法,而往往在收到遮擋的影響而效果不佳。而深度學習方法在立體視覺中的成功應用,使得高效率、高精度的基於神經網絡的端到端三維重建成為可能。
  • 今日Paper | 3D手勢估計;自學習機器人;魯棒語義分割;卷積神經網絡...
    from=leiphonecolumn_paperreview0108推薦理由:隨著高容量,低精度計算技術的發展以及認知人工智慧啟發式系統的應用研究,通過具有實時學習功能的神經網絡的機器學習解決方案引起了研究界以及整個行業的極大興趣。
  • 基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度
    模型的視圖合成過程由視圖合成網絡完成,輸入一張左圖,網絡合成該圖像對應的右圖;而雙目匹配過程由雙目匹配網絡完成,接收左圖以及合成的右圖,預測出左圖每一個像素的視差值,詳細的網絡結構(如圖2所示)。視圖合成網絡: 一般情況下,左圖中的像素均可以在右圖中找到匹配的像素,因此可以首先把左圖平移多個不同像素距離,得到多張不同的圖片,再使用神經網絡預測組合係數,把多張平移後的左圖和預測的係數組合得到預測的右圖。
  • 今日Paper | 空間注意力網絡;深度信念網絡;GhostNet;位置預測等
    用單個深度學習模型代替移動相機ISP基於深度信念網絡來識別阿爾茲海默症的蛋白質組危險標誌物分層時空LSTM在位置預測中的應用GhostNet:廉價運營帶來的更多功能  VSGNet:基於圖卷積的人體物體交互檢測的空間注意力網絡
  • CNN vs RNN vs ANN——3種神經網絡分析模型,你pick誰?
    我還常常會見到另一個問題——神經網絡需要強大的計算能力,那麼當問題中只是存在一些細微差別時,使用神經網絡真的值得嗎?問題的答案很簡單——值得!深度學習中不同的神經網絡(如卷積神經網絡CNN、循環神經網絡RNN、人工神經網絡ANN)正在改變著我們與世界之間的交互方式。這些不同類型的神經網絡是深度學習革命的核心,為無人機、自動駕駛汽車、語音識別等應用提供了推動力。
  • 神經網絡重建儀 - CSDN
    深度RNN基於從CNN生成的視覺特徵在每個時間步輸出姿勢估計。隨著相機移動並獲取圖像,這個進程隨時間而繼續。• UnDeepVOUnDeepVO能夠通過使用深度神經網絡估計單目相機的6-DoF姿勢及其視野的深度。有兩個顯著特徵:一個是無監督深度學習方案,另一個是絕對的深度恢復。
  • 今日Paper | 梯度剪切;命名實體識別;自然語言處理;免強度函數學習...
    from=leiphonecolumn_paperreview0212在神經網絡的訓練過程中對梯度進行剪切是最近越來越流行的一個趨勢,但很多人都不清楚這種做法為什麼有效。這篇論文就給出了理論解釋以及證明,證明了梯度剪切確實對網絡訓練有幫助作用。
  • 今日Paper|點雲分類框架;多模式Transformer;神經網絡;有序神經元等
    目錄用於行人重識別的三元組在線實例匹配丟失用於DSTC8 AVSD挑戰的帶指針網絡的多模式TransformerPointAugment:一種自動增強的點雲分類框架尋找稀疏、可訓練的神經網絡有序神經元:將樹結構集成到遞歸神經網絡中用於行人重識別的三元組在線實例匹配丟失論文名稱:Triplet Online Instance Matching Loss for Person Re-identification作者:Li Ye /Yin
  • 今日Paper|可視問答模型;神經風格差異轉移;圖像壓縮系統;K-SVD...
    圖像去噪神經閱讀理解與超越準確性與複雜性:可視問答模型中的一種權衡論文名稱:Accuracy vs.from=leiphonecolumn_paperreview0211推薦原因這篇論文了介紹一種自動創建字體的方法,找到兩種不同字體之間的字體樣式差異,並使用神經樣式轉移將其轉換為另一種字體。這篇論文提出了一種新的神經風格差異和內容差異損失神經風格轉移方法。根據這些損失,可通過在字體中添加或刪除字體樣式來生成新字體。
  • 精講深度學習RNN三大核心點,三分鐘掌握循環神經網絡
    本文將剖析循環神經網絡(RNN)的工作原理,精講循環神經網絡的特點和實現方式。野蠻智能,小白也能看懂的人工智慧。循環神經網絡從何而來?我在我的這篇文章介紹了卷積神經網絡(CNN)所以學者們設計了神奇的循環神經網絡。循環神經網絡的最大創新點簡單來說,序列指的就是前因後果。這種分辨因果的能力,對於計算機的智能化具有重要意義,所以序列問題倍受計算機學界關注。為了解決序列問題,循環神經網絡在1982年被提出,由於當時計算能力不足,無法實現。
  • 別擔心,這只是3D深度估計做出的特效|深度圖|...
    與傳統重建方法使用特殊先驗的做法不同,該研究使用的是基於學習的先驗,即為單圖像深度估計訓練的卷積神經網絡。在測試時,他們微調了這個網絡,來滿足特定輸入視頻的幾何約束,同時保留其為視頻中受約束較少的部分合成合理深度細節的能力。定量驗證結果表明,與之前的單目重建方法相比,該方法可以達到更高的準確度及幾何一致性。
  • 理解神經網絡:從神經元到RNN、CNN、深度學習
    隨著時間的推移,證明了神經網絡在精度和速度方面,比其他的算法性能更好。並且形成了很多種類,像CNN(卷積神經網絡),RNN,自編碼,深度學習等等。神經網絡對於數據科學和或者機器學習從業者,就像線性回歸對於統計學家一樣。因此,對神經網絡是什麼有一個基本的理解是有必要的,比如,它是怎麼構成的,它能處理問題的範圍以及它的局限性是什麼。
  • 人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習
    人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習 人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習 2018-06-05 11:36:53  來源:今日頭條
  • 你的廚房被水淹了:別擔心,這只是3D深度估計做出的特效
    與傳統重建方法使用特殊先驗的做法不同,該研究使用的是基於學習的先驗,即為單圖像深度估計訓練的卷積神經網絡。在測試時,他們微調了這個網絡,來滿足特定輸入視頻的幾何約束,同時保留其為視頻中受約束較少的部分合成合理深度細節的能力。定量驗證結果表明,與之前的單目重建方法相比,該方法可以達到更高的準確度及幾何一致性。
  • Mars說光場(2)— 光場與人眼立體成像機理
    然而目前國內對光場(Light Field)技術的中文介紹十分匱乏,曹煊博士《Mars說光場》系列文章旨在對光場技術及其應用的科普介紹。曹煊博士系騰訊優圖實驗室高級研究員。優圖— 騰訊旗下頂級的機器學習研發團隊,專注於圖像處理、模式識別、深度學習。在人臉識別、圖像識別、醫療AI、OCR、哼唱識別、語音合成等領域都積累了領先的技術水平和完整解決方案。
  • 3D列印出來的深度神經網絡,光速求解AI數學運算
    大腦中神經元之間的信號傳播速度大約是 100 米每秒,而光的傳播速度是 30 萬千米每秒,如果神經元信號也是光速傳播的呢?來自加州大學洛杉磯分校(UCLA)的研究人員利用 3D 列印技術列印出了固態的神經網絡,並且利用層級傳播的光衍射來執行計算,實現了手寫數字的圖像識別,相關成果已發表在《science》雜誌上。這一想法看似新奇,其實也很自然。
  • 今日Paper|蚊子叫聲數據集;提高語音識別準確率;對偶注意力推薦...
    以下是今日的精選內容——目錄提高有噪聲情況下的語音識別準確率——而且用常見工具就可以基於對偶圖注意力網絡多方面社交影響的推薦系統想研究蚊子、阻止瘧疾,你需要一個蚊子叫聲數據集用於類遞增目標檢測的交叉數據集訓練卷積均值:一種簡單的用於照度估計的卷積神經網絡提高有噪聲情況下的語音識別準確率——而且用常見工具就可以論文名稱:Improved Robust
  • 正則表達式與神經網絡的深度融合
    > 本文介紹了上海科技大學屠可偉研究組與樂言科技的一項合作研究,提出了將正則表達式規則與神經網絡深度融合的新思路
  • 3D成像方法--- 雙目視覺、雷射三角、結構光、ToF、光場
    提到視差圖,就有深度圖,深度圖像也叫距離影像,是指將從圖像採集器到場景中各點的距離(深度)值作為像素值的圖像。深度和視差成反比。而如果能夠獲取到整個相機內的光場分布情況,我們就可以將光線重新投影到一個虛擬的像平面上,計算出這個新的像平面上所產生的圖像。光場相機的目的就在於對相機的光場分布進行記錄。