今日Paper|問答系統;3D人體形狀和姿勢;面部偽造檢測;AdderNet等

2021-01-09 雷鋒網

為了幫助各位學術青年更好地學習前沿研究成果和技術,AI科技評論聯合Paper 研習社(paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。以下是今日的精選內容——

目錄

Reading Wikipedia to Answer Open-Domain Questions

Machine Learning from a Continuous Viewpoint

Score and Lyrics-Free Singing Voice Generation

Learning 3D Human Shape and Pose from Dense Body Parts

Face X-ray for More General Face Forgery Detection

Effective Data Augmentation with Multi-Domain Learning GANs

Job Prediction: From Deep Neural Network Models to Applications

Combining Deep Learning and Verification for Precise Object Instance Detection

A Gentle Introduction to Deep Learning for Graphs

AdderNet: Do We Really Need Multiplications in Deep Learning?

基於維基百科的開放域的問答系統

論文名稱:Reading Wikipedia to Answer Open-Domain Questions

作者:Danqi Chen /Adam Fisch /Jason Weston /Antoine Bordes

發表時間:2017/4/28

論文連結:https://paper.yanxishe.com/review/7918

推薦理由:本文建議使用Wikipedia作為獨特的知識源來解決開放域問題的解答:任何事實類問題的答案都是Wikipedia文章中的文本範圍。

大規模的機器閱讀任務將文檔檢索(查找相關文章)與機器理解文本(識別這些文章的答案範圍)的挑戰結合在一起。作者的方法將基於bigram哈希和TF-IDF匹配的搜索組件與經過訓練以檢測Wikipedia段落中的答案的多層遞歸神經網絡模型相結合。

作者在多個現有QA數據集上的實驗表明,(1)兩個模塊相對於現有同類產品都具有很高的競爭力;(2)使用遠程監督對其組合進行多任務學習是解決這一艱巨任務的有效完整系統。

從持續的角度看機器學習

論文名稱:Machine Learning from a Continuous Viewpoint

作者:E Weinan /Ma Chao /Wu Lei

發表時間:2019/12/30

論文連結:https://paper.yanxishe.com/review/7942

推薦理由:作為經典的數值分析和統計物理學的精神,作者提出了一種連續的機器學習形式,作為變化和微分積分方程的一個問題。作者證明了常規的機器學習模型和算法,例如隨機特徵模型,淺層神經網絡模型和殘差神經網絡模型,都可以作為不同連續公式的特定離散化而全部恢復。

作者還介紹了新模型的示例,例如基於流的隨機特徵模型,以及新算法(例如平滑粒子法和光譜法)的示例,這些新算法自然地源於這種連續公式。作者在文中討論了如何在此框架下研究泛化誤差和隱式正則化問題。

樂譜和無歌詞歌聲生成

論文名稱:Score and Lyrics-Free Singing Voice Generation

作者:Liu Jen-Yu /Chen Yu-Hua /Yeh Yin-Cheng /Yang Yi-Hsuan

發表時間:2019/12/26

論文連結:https://paper.yanxishe.com/review/7944

推薦理由:用於唱歌聲音的生成模型主要與「唱歌聲音合成」的任務有關,即,根據樂譜和文本歌詞來產生唱歌聲音波形。

在本文中,作者探索了一種新穎而又具有挑戰性的替代方法:在訓練和推理時間中無需預先分配樂譜和歌詞的情況下演唱語音。特別是,作者提出了三種無條件或弱條件的歌聲生成方案。作者概述了相關的挑戰,並提出了解決這些新任務的渠道。這涉及開發用於數據準備的源分離和轉錄模型,用於音頻生成的對抗網絡以及用於評估的定製度量。

從密集的身體部位學習3D人體形狀和姿勢

論文名稱:Learning 3D Human Shape and Pose from Dense Body Parts

作者:Zhang Hongwen /Cao Jie /Lu Guo /Ouyang Wanli /Sun Zhenan

發表時間:2019/12/31

論文連結:https://paper.yanxishe.com/review/7941

推薦理由:儘管通過最新的基於學習的方法獲得了令人鼓舞的結果,但從單眼圖像重建3D人體形狀和姿勢仍具有挑戰性。常見的不對齊是由於以下事實:從圖像到模型空間的映射是高度非線性的,並且人體模型的基於旋轉的姿勢表示易於導致關節位置的漂移。

在本文中,作者研究了從人體部位的密集對應關係中學習3D人體形狀和姿勢的問題,並提出了分解和聚合網絡(DaNet)來解決這些問題。DaNet採用密集的對應貼圖作為中間表示,以密集地在2D像素和3D頂點之間建立一座橋梁,以促進2D到3D映射的學習。DaNet的預測模塊被分解為一個全局流和多個局部流,以分別實現形狀和姿勢預測的全局和細粒度感知。來自本地流的消息被進一步聚合以增強對基於旋轉的姿勢的魯棒性預測,其中提出了位置輔助旋轉特徵細化策略以利用人體關節之間的空間關係。此外,還引入了基於零件的剔除(PartDrop)策略,以在訓練過程中從中間表示中剔除密集信息,從而鼓勵網絡專注於更多互補的身體部位以及相鄰的位置特徵。作者方法的有效性在室內和實際數據集(包括Human3.6M,UP3D和DensePose-COCO數據集)上均得到驗證。

實驗結果表明,與以前的最新方法相比,該方法顯著提高了重建性能。我們的代碼將通過此 URL(https://hongwenzhang.github.io/dense2mesh/)公開提供。

面部X射線,可進行更一般的面部偽造檢測

論文名稱:Face X-ray for More General Face Forgery Detection

作者:Li Lingzhi /Bao Jianmin /Zhang Ting /Yang Hao /Chen Dong /Wen Fang /Guo Baining

發表時間:2019/12/31

論文連結:https://paper.yanxishe.com/review/7940

推薦理由:在本文中,作者提出了一種新穎的圖像表示形式,稱為面部X射線,用於檢測面部圖像中的偽造。輸入的面部圖像的面部X射線是灰度圖像,可顯示輸入圖像是否可以分解為來自不同來源的兩個圖像的混合。它通過顯示偽造圖像的混合邊界和不存在真實圖像的混合來實現。

作者觀察到,大多數現有的面部操作方法都有一個共同的步驟:將更改後的面部混合到現有的背景圖像中。因此,面部X射線提供了一種檢測大多數現有面部操縱算法所產生的偽造的有效方法。面部X射線的一般意義是僅假設存在混合步驟,並且不依賴於與特定面部操作技術相關的偽影的任何知識。事實上,確實可以訓練用於計算面部X射線的算法且無需使用任何最新的面部操縱方法生成的偽造圖像。大量的實驗表明,當將X射線應用於由看不見的面部操縱技術產生的偽造時,面部X射線仍然有效,而大多數現有的面部偽造檢測算法的性能都會明顯下降。

利用多域學習GANs實現有效的數據增強

論文名稱:Effective Data Augmentation with Multi-Domain Learning GANs

作者:Yamaguchi Shin'ya /Kanai Sekitoshi /Eda Takeharu

發表時間:2019/12/25

論文連結:https://paper.yanxishe.com/review/7934

推薦理由:這篇論文考慮的是數據增強的問題。

這篇論文提出了一種有效的基於生成對抗網絡)的數據增強方法,其主要思想是通過使用多領域學習GAN將外部數據所包含的知識導入到目標模型中。多領域學習GAN能夠同時學習外部數據集和目標數據集,並能夠為目標任務生成高保真度和多樣性強的新樣本。文章表明即使只有極少量的目標數據集,研究人員也可以通過使用這些新生成的樣本來獲得目標任務的準確模型。這篇論文在CIFAR-100, FGVC-Aircraft和Indoor Scene Recognition這三個數據集上評估了其提出的數據增強方法,表明了它具有更好的分類準確性,並且能夠提高所生成樣本的質量。

工作預測:從深度神經網絡模型到應用

論文名稱:Job Prediction: From Deep Neural Network Models to Applications

作者:Van Huynh Tin /Van Nguyen Kiet /Nguyen Ngan Luu-Thuy /Nguyen Anh Gia-Tuan

發表時間:2019/12/27

論文連結:https://paper.yanxishe.com/review/7937

推薦理由:這篇論文考慮的是基於簡歷信息判斷工作勝任程度的問題。

如何根據簡歷上的信息,例如學歷、技能描述等,來判斷一份工作是否適合求職者是一個困難的自然語言處理問題。反過來,公司挑選最適合這份工作的人才也是困難的。這篇論文嘗試利用不同的深度神經網絡模型來學習預測職業,這些模型包括TextCNN,Bi-GRU-LSTM-CNN,以及Bi-GRU-CNN,並用到了基於網際網路職業數據集訓練的多種預訓練詞嵌入。這篇論文還提出一種簡單但高效的集成模型以包含不同的深度神經網絡模型。實驗結果表明,所提方法獲得了最高為72.71%的F1值。

這篇論文試圖利用自然語言處理的技術來幫助網際網路上的求職者找到更適合自己的職業發展方向。

結合深度學習和驗證進行精確的對象實例檢測

論文名稱:Combining Deep Learning and Verification for Precise Object Instance Detection

作者:Ancha Siddharth /Nan Junyu /Held David

發表時間:2019/12/27

論文連結:https://paper.yanxishe.com/review/7928

推薦理由:深度學習對象檢測器通常會以很高的置信度返回誤報。儘管它們優化了通用檢測性能,例如平均平均精度(mAP),但它們並不是為可靠性而設計的。對於可靠的檢測系統,如果進行了高置信度檢測,作者將希望高度確定確實已檢測到對象。為此,作者開發了一套驗證測試,建議的檢測必須通過該測試才能被接受。

作者建立了一個理論框架,可以證明在某些假設下,作者的驗證測試不會接受任何誤報。基於此框架的近似值,作者提出了一種實用的檢測系統,該系統可以高精度地驗證基於機器學習的對象檢測器的每次檢測是否正確。作者表明,這些測試可以提高基本檢測器的整體精度,並且公認的示例很有可能是正確的。這允許檢測器在高精度狀態下操作,因此可以作為可靠的實例檢測方法用於機器人感知系統。

關於圖的深度學習的簡要介紹

論文名稱:A Gentle Introduction to Deep Learning for Graphs

作者:Bacciu Davide /Errica Federico /Micheli Alessio /Podda Marco

發表時間:2019/12/29

論文連結:https://paper.yanxishe.com/review/7947

推薦理由:圖形數據的自適應處理是一個長期存在的研究主題,最近已被整合為深度學習社區的主要興趣主題。相關研究的數量和廣度迅速增加是以缺乏知識的系統化和對早期文獻的關注為代價的。

本文中作者的這項工作旨在作為圖的深度學習領域的教程介紹。相對於對最新文獻的闡釋,它主張對主要概念和體系結構方面進行一致且漸進的介紹,讀者可參考其中的可用調查。本文對問題進行了自上而下的研究,介紹了一種基於局部和迭代方法來結構化信息處理的圖形表示學習的廣義公式。它介紹了基本的構建基塊,可以將其組合起來設計出新穎而有效的圖形神經模型。方法論的闡述是對本領域有趣的研究挑戰和應用的討論的補充。

【北大/諾亞/鵬城/悉大】AdderNet:能否讓深度學習擺脫乘法運算?

論文名稱:AdderNet: Do We Really Need Multiplications in Deep Learning?

作者:Chen Hanting /Wang Yunhe /Xu Chunjing /Shi Boxin /Xu Chao /Tian Qi /Xu Chang

發表時間:2019/12/31

論文連結:https://paper.yanxishe.com/review/7948

推薦理由:這是一篇來自華為諾亞方舟實驗室的論文,於2020年1月1日上線arXiv。本文探究的目標為更高效的深度卷積神經網絡。(似乎稱作「模型壓縮」不太妥當?因為參數量、運算量、參數精度都未減少,但是將乘法替代為加法為推斷效率提供了極大的增長空間)

為了提升深度神經網絡的運行效率、減少不必要的運算,常見的方法有網絡剪枝、知識蒸餾等等。本文則另闢蹊徑,嘗試讓卷積神經網絡擺脫乘法而只使用高效的加法運算。

卷積神經網絡的實現中,卷積運算是通過卷積核與輸入特徵的互相關(cross-correlation)運算實現的,而這涉及大量浮點數的乘法運算——要知道,計算機完成一次32位浮點乘法運算往往是加法運算的幾倍!如果能將互相關運算替代為效果相近而僅涉及加法的運算,豈不是可以極大地提升CNN的運行效率?

32位浮點運算的相對能耗

那麼問題來了:互相關的本質是什麼呢?是衡量卷積核與輸入特徵的相似度。這裡,作者大膽地使用L1距離的相反數代替互相關運算,作為衡量相似度的另一種途徑。

使用互相關實現的卷積運算,X為輸入特徵,F為卷積核,S()為乘法,Y為層的輸出

將S()換為L1距離

那麼問題又來了:模型如何通過反向傳播優化?如果對L1距離求導,那麼結果只能是0和±1(認為L1距離等於0時導數為0),相當於對X(m+i,n+j,k)-F(i,j,k,t)求的符號函數——這並不能很好地使得模型向最優的方向優化。因此,作者在這裡使用了X與F的差作為每層「卷積」核的梯度進行反傳:

同樣,X也需要梯度來回傳至上層,而且與F的梯度不同的是:這個梯度還會影響到上面的所有的層(存在梯度爆炸的可能性),更需要精心的設計。因此,在這裡作者使用了HardTanh(即將y=x用±1截斷,防止梯度過大)使得梯度值(F-X)處於±1範圍之內。

除此之外,本文還提出了針對加法網絡的自適應性學習率調整策略。將所有卷積層替換為加法層的AdderNet-ResNet50在ImageNet上達到了74.9%的Top-1準確率和91.7%的Top-5準確率(使用乘法運算實現卷積的ResNet50準確率才不過76.2%和92.9%),在性能損失極少的條件下大大地減少了運算時間。

註:儘管卷積層完全未使用乘法,AdderNet-ResNet50仍然在層間採用了涉及乘法運算的批歸一化(Batch Normalization)(畢竟L1距離的相反數一定是非正的)。但是與卷積層的乘法運算相比,批歸一化的乘法運算量完全不在一個數量級上,因此可以被忽略不計。

雷鋒網雷鋒網雷鋒網

相關焦點

  • 今日Paper | 問答系統;3D人體形狀和姿勢;面部偽造檢測;AdderNet等
    review/7941推薦理由:儘管通過最新的基於學習的方法獲得了令人鼓舞的結果,但從單眼圖像重建3D人體形狀和姿勢仍具有挑戰性。常見的不對齊是由於以下事實:從圖像到模型空間的映射是高度非線性的,並且人體模型的基於旋轉的姿勢表示易於導致關節位置的漂移。在本文中,作者研究了從人體部位的密集對應關係中學習3D人體形狀和姿勢的問題,並提出了分解和聚合網絡(DaNet)來解決這些問題。DaNet採用密集的對應貼圖作為中間表示,以密集地在2D像素和3D頂點之間建立一座橋梁,以促進2D到3D映射的學習。
  • 今日Paper | 物體渲染;圖像和諧化;無偏數據處理方法;面部偽造檢測...
    人體姿態估計中的無偏數據處理方法的研究面部X射線,可進行更一般的面部偽造檢測即插即用(Plug and Play)的受限文本生成方法論文名稱:IGNOR: Image-guided Neural Object Rendering
  • 今日Paper | 依賴性解析器;DNNs對圖像損壞;高效人臉特徵學習...
    作者:Tripathy Soumya /Kannala Juho /Rahtu Esa發表時間:2019/4/3論文連結:https://paper.yanxishe.com/review/9326推薦原因這篇論文提出了一種通用的面部動畫設計器(ICface),可以控制給定面部圖像的姿勢和表情。
  • 今日Paper|二氧化碳排放預測;3D人臉重建;BERTology入門;動態場景...
    from=leiphonecolumn_paperreview0327推薦原因該文章是CVPR2020的人臉重建文章。在過去幾年中,基於3DMM的方法在從單視圖圖像恢復3D面部形狀方面取得了巨大的成功。然而通過這種方法恢復的面部紋理缺乏輸入圖像中所表現的保真度。
  • 偽造核酸檢測報告者就該付出代價
    (12月19日新華社電)據報導,民警在某物流園區進行核酸檢測報告查驗時發現,2名送貨司機出示的核酸檢測報告日期有問題,經進一步調查發現,他們與另2名司機均使用過偽造的核酸檢測報告進入園區,偽造的報告是某電腦店老闆通過修圖軟體製作的。這類偽造核酸檢測報告結果影響疫情防控工作的事件近期已發生多起。
  • 今日Paper|PolarMask;時間序列;面部表情編輯;ELECTRA 等
    from=leiphonecolumn_paperreview0325推薦原因本文的研究意義:在本文中,作者介紹了一種新的單實例分割方法——PolarMask,該方法完全卷積且網絡結構簡單,可以最大限度的將其嵌入到大多數現成的檢測方法中使用。
  • 基於單目的3D人體姿態估計
    , 這裡  來進行糾正最終的到的 (三)A simple yet effective baseline for 3d human pose estimation下載地址:https://openaccess.thecvf.com/content_ICCV_2017/papers/Martinez_A_Simple_yet_ICCV_2017_paper.pdf這篇文章主要是提供了一個2D to 3D
  • 今日Paper|社交媒體謠言檢測;連續手語識別;細粒度服裝相似性學習...
    目錄基於雙向圖卷積神經網絡的社交媒體上謠言檢測 用於連續手語識別的時空多線索網絡基於屬性特定嵌入網絡的細粒度服裝相似性學習混合圖神經網絡在人群計數中的應用使用衛星圖像中的目標檢測生成可解釋的貧困地圖 基於雙向圖卷積神經網絡的社交媒體上謠言檢測 論文名稱:Rumor Detection>作者:Bian Tian /Xiao Xi
  • 今日Paper|人體圖像生成和衣服虛擬試穿;魯棒深度學習;圖像風格...
    為了幫助各位學術青年更好地學習前沿研究成果和技術,AI科技評論聯合Paper 研習社(paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。
  • 3D人臉重建和人臉分析常用的數據集匯總
    該資料庫非常適合用於人臉識別、人臉檢測、人臉對齊等方面的研究,具有很高的研究價值。2、BU-3DFE dataset數據下載連結:http://www.sciweavers.org/subject/bu-3dfe-database提出了一個新開發的三維面部表情資料庫,其中包括原型三維面部表情形狀和來自100名受試者的2500個模型的二維面部紋理。
  • ...新冠病毒檢測結果呈陽性;二連浩特5人參與偽造核酸檢測報告被行...
    公告稱,馬克龍是因為出現了初步的症狀而接受檢測的。公告還稱,根據相關的防控規定,馬克龍即將開始進行7天隔離,他將繼續以遠程的方式開展工作及相關活動。2丨整點投資丨龍虎榜:機構今日賣出洛陽鉬業4.82億元盤後數據顯示,12月17日龍虎榜中,共21隻個股出現了機構的身影,有10隻股票呈現機構淨買入,11隻個股呈現機構淨賣出。
  • 3D人體全身運動捕捉系統,港中文聯合Facebook出品
    1介紹本文作者提出了一個3D人體全身運動捕捉系統 FrankMocap,能夠從單目視頻同時估計出3D人體和手部運動,在一塊GeForce RTX 2080 GPU上能夠達到 9.5 FPS。人們每天會拍大量的日常活動視頻上傳到網絡,如果有一種基於普通攝像頭的運動捕捉系統,能夠捕捉視頻中人體的運動,將在人機互動、人工智慧、機器人等眾多方向有所應用。同時捕捉人體和人手的運動對這些應用同樣重要,但人手只佔身體的很小一部分,要想直接捕捉兩者的運動是一個很難的問題。當前的大部分相關工作都只顧及圖片中人體的3D姿態,忽略圖片中人手的動作。
  • 今日Paper | CausalML;隱式函數;慢動作視頻重建;交叉圖卷積網絡等
    from=leiphonecolumn_paperreview0318推薦原因這篇文章被CVPR2020接收!文章主要考慮從各種各樣的3D輸入來進行3D重建和形狀補全的工作,能夠處理低和高解析度體素、稀疏和稠密電雲、完整或不完整的數據等等。
  • 畢業論文檢測系統如何檢測論文抄襲
    論文查重檢測系統是如何檢測論文抄襲的?有的本科畢業生在進行論文查重檢測的時候並不知道論文檢測是怎麼去判斷論文是否存在抄襲的,所以出現重複率高的情況也不知情。那為了大家可以更好的使用論文查重系統對論文進行查重檢測,下面就給大家簡單介紹一下論文查重系統是如何檢測論文抄襲的。
  • 葉片結構3D檢測與逆向方案——藍光3D掃描儀
    在葉片的設計或生產加工中需要對葉片進行3d檢測或葉片3D逆向。客戶需求快速獲取葉片的3D模型進行質量檢測,發現葉片質量問題還需要對生產模具進行3D檢測,通過3D全尺寸檢測進行分析和判斷問題。傳統葉片檢測是依據葉片的裝夾建立坐標對齊進行測量點的探測,使用三坐標等接觸式工具。
  • 英文論文用什麼檢測系統?
    咱們以前說了不少對於中文論文如何降重、如何選擇檢測系統的知識,但是很少提及英文論文的東西。今天我們就來說一下檢測英文論文可以使用什麼檢測系統?關於不少的論文檢測系統,想要查英文論文,都是能夠的,但是每種論文檢測系統的對比文獻庫不同,哪種是最合適的?
  • 跳過人臉檢測和關鍵點定位,Facebook等提出實時3D人臉姿態估計新方法
    為了解決這些問題,來自 Facebook AI 和聖母大學的研究者提出了以下重要觀察結果:首先,估計人臉的 6 自由度(6DoF)剛性變換比人臉關鍵點檢測要簡單。6DoF 指的是在人體在 3D 空間裡的活動情況,在 3 自由度(上下俯仰、左右搖擺和滾動)的基礎上增加了前 / 後、上 / 下、左 / 右三種移動方式。
  • ai+3d列印的三維農業生產數據監測系統
    ai+3d列印的三維農業生產數據檢測系統。它是由湖南智慧農業聯盟聯合湖南廣播電視大學、藍州天生科技共同打造的三維創新型農業產業生產信息系統。通過3d列印的立體智慧農業生產數據檢測系統,有效的預警農業問題,如病蟲害,營養消耗過快,農藥殘留超標,肥料使用過量等問題,從對接,代理商和經銷商對接,農業專業人員協助監督,品牌推廣,合作機構之間互聯互通,形成農業生產、農產品品牌的建設。
  • MediaPipe 集成人臉識別,人體姿態評估,人手檢測模型
    MediaPipeHands中  的姿勢,面部和手界標模型來生成總共543個界標(每手33個姿勢界標,468個臉部界標和21個手界標)。  MediaPipe圖片檢測  作為一款跨平臺框架,MediaPipe不僅可以被部署在伺服器端,更可以在多個移動端(安卓和蘋果iOS)和嵌入式平臺(GoogleCoral和樹莓派)中作為設備端機器學習推理