今日Paper | 問答系統;3D人體形狀和姿勢;面部偽造檢測;AdderNet等

2020-11-26 雷鋒網

為了幫助各位學術青年更好地學習前沿研究成果和技術，AI科技評論聯合Paper 研習社（paper.yanxishe.com），重磅推出【今日 Paper】欄目，每天都為你精選關於人工智慧的前沿學術論文供你學習參考。以下是今日的精選內容——

Reading Wikipedia to Answer Open-Domain Questions

Machine Learning from a Continuous Viewpoint

Score and Lyrics-Free Singing Voice Generation

Learning 3D Human Shape and Pose from Dense Body Parts

Face X-ray for More General Face Forgery Detection

Effective Data Augmentation with Multi-Domain Learning GANs

Job Prediction: From Deep Neural Network Models to Applications

Combining Deep Learning and Verification for Precise Object Instance Detection

A Gentle Introduction to Deep Learning for Graphs

AdderNet: Do We Really Need Multiplications in Deep Learning?

論文名稱：Reading Wikipedia to Answer Open-Domain Questions

作者：Danqi Chen /Adam Fisch /Jason Weston /Antoine Bordes

發表時間：2017/4/28

論文連結：https://paper.yanxishe.com/review/7918

推薦理由：本文建議使用Wikipedia作為獨特的知識源來解決開放域問題的解答：任何事實類問題的答案都是Wikipedia文章中的文本範圍。

大規模的機器閱讀任務將文檔檢索（查找相關文章）與機器理解文本（識別這些文章的答案範圍）的挑戰結合在一起。作者的方法將基於bigram哈希和TF-IDF匹配的搜索組件與經過訓練以檢測Wikipedia段落中的答案的多層遞歸神經網絡模型相結合。

作者在多個現有QA數據集上的實驗表明，（1）兩個模塊相對於現有同類產品都具有很高的競爭力；（2）使用遠程監督對其組合進行多任務學習是解決這一艱巨任務的有效完整系統。

論文名稱：Machine Learning from a Continuous Viewpoint

作者：E Weinan /Ma Chao /Wu Lei

發表時間：2019/12/30

論文連結：https://paper.yanxishe.com/review/7942

推薦理由：作為經典的數值分析和統計物理學的精神，作者提出了一種連續的機器學習形式，作為變化和微分積分方程的一個問題。作者證明了常規的機器學習模型和算法，例如隨機特徵模型，淺層神經網絡模型和殘差神經網絡模型，都可以作為不同連續公式的特定離散化而全部恢復。

作者還介紹了新模型的示例，例如基於流的隨機特徵模型，以及新算法（例如平滑粒子法和光譜法）的示例，這些新算法自然地源於這種連續公式。作者在文中討論了如何在此框架下研究泛化誤差和隱式正則化問題。

論文名稱：Score and Lyrics-Free Singing Voice Generation

作者：Liu Jen-Yu /Chen Yu-Hua /Yeh Yin-Cheng /Yang Yi-Hsuan

發表時間：2019/12/26

論文連結：https://paper.yanxishe.com/review/7944

推薦理由：用於唱歌聲音的生成模型主要與「唱歌聲音合成」的任務有關，即，根據樂譜和文本歌詞來產生唱歌聲音波形。

在本文中，作者探索了一種新穎而又具有挑戰性的替代方法：在訓練和推理時間中無需預先分配樂譜和歌詞的情況下演唱語音。特別是，作者提出了三種無條件或弱條件的歌聲生成方案。作者概述了相關的挑戰，並提出了解決這些新任務的渠道。這涉及開發用於數據準備的源分離和轉錄模型，用於音頻生成的對抗網絡以及用於評估的定製度量。

論文名稱：Learning 3D Human Shape and Pose from Dense Body Parts

作者：Zhang Hongwen /Cao Jie /Lu Guo /Ouyang Wanli /Sun Zhenan

發表時間：2019/12/31

論文連結：https://paper.yanxishe.com/review/7941

推薦理由：儘管通過最新的基於學習的方法獲得了令人鼓舞的結果，但從單眼圖像重建3D人體形狀和姿勢仍具有挑戰性。常見的不對齊是由於以下事實：從圖像到模型空間的映射是高度非線性的，並且人體模型的基於旋轉的姿勢表示易於導致關節位置的漂移。

在本文中，作者研究了從人體部位的密集對應關係中學習3D人體形狀和姿勢的問題，並提出了分解和聚合網絡（DaNet）來解決這些問題。DaNet採用密集的對應貼圖作為中間表示，以密集地在2D像素和3D頂點之間建立一座橋梁，以促進2D到3D映射的學習。DaNet的預測模塊被分解為一個全局流和多個局部流，以分別實現形狀和姿勢預測的全局和細粒度感知。來自本地流的消息被進一步聚合以增強對基於旋轉的姿勢的魯棒性預測，其中提出了位置輔助旋轉特徵細化策略以利用人體關節之間的空間關係。此外，還引入了基於零件的剔除（PartDrop）策略，以在訓練過程中從中間表示中剔除密集信息，從而鼓勵網絡專注於更多互補的身體部位以及相鄰的位置特徵。作者方法的有效性在室內和實際數據集（包括Human3.6M，UP3D和DensePose-COCO數據集）上均得到驗證。

實驗結果表明，與以前的最新方法相比，該方法顯著提高了重建性能。我們的代碼將通過此 URL（https://hongwenzhang.github.io/dense2mesh/）公開提供。

論文名稱：Face X-ray for More General Face Forgery Detection

作者：Li Lingzhi /Bao Jianmin /Zhang Ting /Yang Hao /Chen Dong /Wen Fang /Guo Baining

發表時間：2019/12/31

論文連結：https://paper.yanxishe.com/review/7940

推薦理由：在本文中，作者提出了一種新穎的圖像表示形式，稱為面部X射線，用於檢測面部圖像中的偽造。輸入的面部圖像的面部X射線是灰度圖像，可顯示輸入圖像是否可以分解為來自不同來源的兩個圖像的混合。它通過顯示偽造圖像的混合邊界和不存在真實圖像的混合來實現。

作者觀察到，大多數現有的面部操作方法都有一個共同的步驟：將更改後的面部混合到現有的背景圖像中。因此，面部X射線提供了一種檢測大多數現有面部操縱算法所產生的偽造的有效方法。面部X射線的一般意義是僅假設存在混合步驟，並且不依賴於與特定面部操作技術相關的偽影的任何知識。事實上，確實可以訓練用於計算面部X射線的算法且無需使用任何最新的面部操縱方法生成的偽造圖像。大量的實驗表明，當將X射線應用於由看不見的面部操縱技術產生的偽造時，面部X射線仍然有效，而大多數現有的面部偽造檢測算法的性能都會明顯下降。

論文名稱：Effective Data Augmentation with Multi-Domain Learning GANs

作者：Yamaguchi Shin'ya /Kanai Sekitoshi /Eda Takeharu

發表時間：2019/12/25

論文連結：https://paper.yanxishe.com/review/7934

推薦理由：這篇論文考慮的是數據增強的問題。

這篇論文提出了一種有效的基於生成對抗網絡）的數據增強方法，其主要思想是通過使用多領域學習GAN將外部數據所包含的知識導入到目標模型中。多領域學習GAN能夠同時學習外部數據集和目標數據集，並能夠為目標任務生成高保真度和多樣性強的新樣本。文章表明即使只有極少量的目標數據集，研究人員也可以通過使用這些新生成的樣本來獲得目標任務的準確模型。這篇論文在CIFAR-100, FGVC-Aircraft和Indoor Scene Recognition這三個數據集上評估了其提出的數據增強方法，表明了它具有更好的分類準確性，並且能夠提高所生成樣本的質量。

論文名稱：Job Prediction: From Deep Neural Network Models to Applications

作者：Van Huynh Tin /Van Nguyen Kiet /Nguyen Ngan Luu-Thuy /Nguyen Anh Gia-Tuan

發表時間：2019/12/27

論文連結：https://paper.yanxishe.com/review/7937

推薦理由：這篇論文考慮的是基於簡歷信息判斷工作勝任程度的問題。

如何根據簡歷上的信息，例如學歷、技能描述等，來判斷一份工作是否適合求職者是一個困難的自然語言處理問題。反過來，公司挑選最適合這份工作的人才也是困難的。這篇論文嘗試利用不同的深度神經網絡模型來學習預測職業，這些模型包括TextCNN，Bi-GRU-LSTM-CNN，以及Bi-GRU-CNN，並用到了基於網際網路職業數據集訓練的多種預訓練詞嵌入。這篇論文還提出一種簡單但高效的集成模型以包含不同的深度神經網絡模型。實驗結果表明，所提方法獲得了最高為72.71%的F1值。

這篇論文試圖利用自然語言處理的技術來幫助網際網路上的求職者找到更適合自己的職業發展方向。

論文名稱：Combining Deep Learning and Verification for Precise Object Instance Detection

作者：Ancha Siddharth /Nan Junyu /Held David

發表時間：2019/12/27

論文連結：https://paper.yanxishe.com/review/7928

推薦理由：深度學習對象檢測器通常會以很高的置信度返回誤報。儘管它們優化了通用檢測性能，例如平均平均精度（mAP），但它們並不是為可靠性而設計的。對於可靠的檢測系統，如果進行了高置信度檢測，作者將希望高度確定確實已檢測到對象。為此，作者開發了一套驗證測試，建議的檢測必須通過該測試才能被接受。

作者建立了一個理論框架，可以證明在某些假設下，作者的驗證測試不會接受任何誤報。基於此框架的近似值，作者提出了一種實用的檢測系統，該系統可以高精度地驗證基於機器學習的對象檢測器的每次檢測是否正確。作者表明，這些測試可以提高基本檢測器的整體精度，並且公認的示例很有可能是正確的。這允許檢測器在高精度狀態下操作，因此可以作為可靠的實例檢測方法用於機器人感知系統。

論文名稱：A Gentle Introduction to Deep Learning for Graphs

作者：Bacciu Davide /Errica Federico /Micheli Alessio /Podda Marco

發表時間：2019/12/29

論文連結：https://paper.yanxishe.com/review/7947

推薦理由：圖形數據的自適應處理是一個長期存在的研究主題，最近已被整合為深度學習社區的主要興趣主題。相關研究的數量和廣度迅速增加是以缺乏知識的系統化和對早期文獻的關注為代價的。

本文中作者的這項工作旨在作為圖的深度學習領域的教程介紹。相對於對最新文獻的闡釋，它主張對主要概念和體系結構方面進行一致且漸進的介紹，讀者可參考其中的可用調查。本文對問題進行了自上而下的研究，介紹了一種基於局部和迭代方法來結構化信息處理的圖形表示學習的廣義公式。它介紹了基本的構建基塊，可以將其組合起來設計出新穎而有效的圖形神經模型。方法論的闡述是對本領域有趣的研究挑戰和應用的討論的補充。

【北大/諾亞/鵬城/悉大】AdderNet：能否讓深度學習擺脫乘法運算？

論文名稱：AdderNet: Do We Really Need Multiplications in Deep Learning?

作者：Chen Hanting /Wang Yunhe /Xu Chunjing /Shi Boxin /Xu Chao /Tian Qi /Xu Chang

發表時間：2019/12/31

論文連結：https://paper.yanxishe.com/review/7948

推薦理由：這是一篇來自華為諾亞方舟實驗室的論文，於2020年1月1日上線arXiv。本文探究的目標為更高效的深度卷積神經網絡。（似乎稱作「模型壓縮」不太妥當？因為參數量、運算量、參數精度都未減少，但是將乘法替代為加法為推斷效率提供了極大的增長空間）

為了提升深度神經網絡的運行效率、減少不必要的運算，常見的方法有網絡剪枝、知識蒸餾等等。本文則另闢蹊徑，嘗試讓卷積神經網絡擺脫乘法而只使用高效的加法運算。

卷積神經網絡的實現中，卷積運算是通過卷積核與輸入特徵的互相關（cross-correlation）運算實現的，而這涉及大量浮點數的乘法運算——要知道，計算機完成一次32位浮點乘法運算往往是加法運算的幾倍！如果能將互相關運算替代為效果相近而僅涉及加法的運算，豈不是可以極大地提升CNN的運行效率？

32位浮點運算的相對能耗

那麼問題來了：互相關的本質是什麼呢？是衡量卷積核與輸入特徵的相似度。這裡，作者大膽地使用L1距離的相反數代替互相關運算，作為衡量相似度的另一種途徑。

使用互相關實現的卷積運算，X為輸入特徵，F為卷積核，S()為乘法，Y為層的輸出

將S()換為L1距離

那麼問題又來了：模型如何通過反向傳播優化？如果對L1距離求導，那麼結果只能是0和±1（認為L1距離等於0時導數為0），相當於對X(m+i,n+j,k)-F(i,j,k,t)求的符號函數——這並不能很好地使得模型向最優的方向優化。因此，作者在這裡使用了X與F的差作為每層「卷積」核的梯度進行反傳：

同樣，X也需要梯度來回傳至上層，而且與F的梯度不同的是：這個梯度還會影響到上面的所有的層（存在梯度爆炸的可能性），更需要精心的設計。因此，在這裡作者使用了HardTanh（即將y=x用±1截斷，防止梯度過大）使得梯度值(F-X)處於±1範圍之內。

除此之外，本文還提出了針對加法網絡的自適應性學習率調整策略。將所有卷積層替換為加法層的AdderNet-ResNet50在ImageNet上達到了74.9%的Top-1準確率和91.7%的Top-5準確率（使用乘法運算實現卷積的ResNet50準確率才不過76.2%和92.9%），在性能損失極少的條件下大大地減少了運算時間。

註：儘管卷積層完全未使用乘法，AdderNet-ResNet50仍然在層間採用了涉及乘法運算的批歸一化（Batch Normalization）（畢竟L1距離的相反數一定是非正的）。但是與卷積層的乘法運算相比，批歸一化的乘法運算量完全不在一個數量級上，因此可以被忽略不計。

雷鋒網(公眾號：雷鋒網)雷鋒網雷鋒網

Paper 研習社每日精選論文推薦 12.31

Paper 研習社每日精選論文推薦 12.30

Paper 研習社每日精選論文推薦 12.27

Paper 研習社每日精選論文推薦 12.26

Paper 研習社每日精選論文推薦 12.25

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

今日Paper | 問答系統;3D人體形狀和姿勢;面部偽造檢測;AdderNet等

【北大/諾亞/鵬城/悉大】AdderNet：能否讓深度學習擺脫乘法運算？

相關焦點

今日Paper | 梯度剪切;命名實體識別;自然語言處理;免強度函數學習...

今日Paper | 3D手勢估計;自學習機器人;魯棒語義分割;卷積神經網絡...

今日Paper|PolarMask;時間序列;面部表情編輯;ELECTRA 等

今日Paper|可視問答模型;神經風格差異轉移;圖像壓縮系統;K-SVD...

MediaPipe Holistic谷歌發布面部,手部與姿勢同時檢測模型

今日Paper|3D門控遞歸融合;雙注意力GAN;通用目標檢測器;無監督域...

今日Paper|社交媒體謠言檢測;連續手語識別;細粒度服裝相似性學習...

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀

面部識別、深度偽造、隱私和自動化定義的AI 2019

解密:面部特徵點檢測的關鍵技術

「網絡安全漲姿勢」第11期:基礎網絡攻防之跨站請求偽造

今日Paper | 空間注意力網絡;深度信念網絡;GhostNet;位置預測等

今日Paper|虛假新聞檢測;馬爾可夫決策過程;場景文本識別;博弈論...

3D人體全身運動捕捉系統，港中文聯合Facebook出品

3D人體全身運動捕捉系統,港中文聯合Facebook出品

今日全宇宙最漲姿勢的十張圖

偽造核酸檢測報告者就該付出代價

活體檢測很複雜?僅使用opencv就能實現!(附源碼)

科普知識問答(六十九)_政務_澎湃新聞-The Paper

使用Python,Keras和OpenCV進行實時面部活體檢測