今日Paper | 問答系統;3D人體形狀和姿勢;面部偽造檢測;AdderNet等

2020-11-26 雷鋒網

為了幫助各位學術青年更好地學習前沿研究成果和技術,AI科技評論聯合Paper 研習社(paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。以下是今日的精選內容——

Reading Wikipedia to Answer Open-Domain Questions

Machine Learning from a Continuous Viewpoint

Score and Lyrics-Free Singing Voice Generation

Learning 3D Human Shape and Pose from Dense Body Parts

Face X-ray for More General Face Forgery Detection

Effective Data Augmentation with Multi-Domain Learning GANs

Job Prediction: From Deep Neural Network Models to Applications

Combining Deep Learning and Verification for Precise Object Instance Detection

A Gentle Introduction to Deep Learning for Graphs

AdderNet: Do We Really Need Multiplications in Deep Learning?

論文名稱:Reading Wikipedia to Answer Open-Domain Questions

作者:Danqi Chen /Adam Fisch /Jason Weston /Antoine Bordes

發表時間:2017/4/28

論文連結:https://paper.yanxishe.com/review/7918

推薦理由:本文建議使用Wikipedia作為獨特的知識源來解決開放域問題的解答:任何事實類問題的答案都是Wikipedia文章中的文本範圍。

大規模的機器閱讀任務將文檔檢索(查找相關文章)與機器理解文本(識別這些文章的答案範圍)的挑戰結合在一起。作者的方法將基於bigram哈希和TF-IDF匹配的搜索組件與經過訓練以檢測Wikipedia段落中的答案的多層遞歸神經網絡模型相結合。

作者在多個現有QA數據集上的實驗表明,(1)兩個模塊相對於現有同類產品都具有很高的競爭力;(2)使用遠程監督對其組合進行多任務學習是解決這一艱巨任務的有效完整系統。

論文名稱:Machine Learning from a Continuous Viewpoint

作者:E Weinan /Ma Chao /Wu Lei

發表時間:2019/12/30

論文連結:https://paper.yanxishe.com/review/7942

推薦理由:作為經典的數值分析和統計物理學的精神,作者提出了一種連續的機器學習形式,作為變化和微分積分方程的一個問題。作者證明了常規的機器學習模型和算法,例如隨機特徵模型,淺層神經網絡模型和殘差神經網絡模型,都可以作為不同連續公式的特定離散化而全部恢復。

作者還介紹了新模型的示例,例如基於流的隨機特徵模型,以及新算法(例如平滑粒子法和光譜法)的示例,這些新算法自然地源於這種連續公式。作者在文中討論了如何在此框架下研究泛化誤差和隱式正則化問題。

論文名稱:Score and Lyrics-Free Singing Voice Generation

作者:Liu Jen-Yu /Chen Yu-Hua /Yeh Yin-Cheng /Yang Yi-Hsuan

發表時間:2019/12/26

論文連結:https://paper.yanxishe.com/review/7944

推薦理由:用於唱歌聲音的生成模型主要與「唱歌聲音合成」的任務有關,即,根據樂譜和文本歌詞來產生唱歌聲音波形。

在本文中,作者探索了一種新穎而又具有挑戰性的替代方法:在訓練和推理時間中無需預先分配樂譜和歌詞的情況下演唱語音。特別是,作者提出了三種無條件或弱條件的歌聲生成方案。作者概述了相關的挑戰,並提出了解決這些新任務的渠道。這涉及開發用於數據準備的源分離和轉錄模型,用於音頻生成的對抗網絡以及用於評估的定製度量。

論文名稱:Learning 3D Human Shape and Pose from Dense Body Parts

作者:Zhang Hongwen /Cao Jie /Lu Guo /Ouyang Wanli /Sun Zhenan

發表時間:2019/12/31

論文連結:https://paper.yanxishe.com/review/7941

推薦理由:儘管通過最新的基於學習的方法獲得了令人鼓舞的結果,但從單眼圖像重建3D人體形狀和姿勢仍具有挑戰性。常見的不對齊是由於以下事實:從圖像到模型空間的映射是高度非線性的,並且人體模型的基於旋轉的姿勢表示易於導致關節位置的漂移。

在本文中,作者研究了從人體部位的密集對應關係中學習3D人體形狀和姿勢的問題,並提出了分解和聚合網絡(DaNet)來解決這些問題。DaNet採用密集的對應貼圖作為中間表示,以密集地在2D像素和3D頂點之間建立一座橋梁,以促進2D到3D映射的學習。DaNet的預測模塊被分解為一個全局流和多個局部流,以分別實現形狀和姿勢預測的全局和細粒度感知。來自本地流的消息被進一步聚合以增強對基於旋轉的姿勢的魯棒性預測,其中提出了位置輔助旋轉特徵細化策略以利用人體關節之間的空間關係。此外,還引入了基於零件的剔除(PartDrop)策略,以在訓練過程中從中間表示中剔除密集信息,從而鼓勵網絡專注於更多互補的身體部位以及相鄰的位置特徵。作者方法的有效性在室內和實際數據集(包括Human3.6M,UP3D和DensePose-COCO數據集)上均得到驗證。

實驗結果表明,與以前的最新方法相比,該方法顯著提高了重建性能。我們的代碼將通過此 URL(https://hongwenzhang.github.io/dense2mesh/)公開提供。       

論文名稱:Face X-ray for More General Face Forgery Detection

作者:Li Lingzhi /Bao Jianmin /Zhang Ting /Yang Hao /Chen Dong /Wen Fang /Guo Baining

發表時間:2019/12/31

論文連結:https://paper.yanxishe.com/review/7940

推薦理由:在本文中,作者提出了一種新穎的圖像表示形式,稱為面部X射線,用於檢測面部圖像中的偽造。輸入的面部圖像的面部X射線是灰度圖像,可顯示輸入圖像是否可以分解為來自不同來源的兩個圖像的混合。它通過顯示偽造圖像的混合邊界和不存在真實圖像的混合來實現。

作者觀察到,大多數現有的面部操作方法都有一個共同的步驟:將更改後的面部混合到現有的背景圖像中。因此,面部X射線提供了一種檢測大多數現有面部操縱算法所產生的偽造的有效方法。面部X射線的一般意義是僅假設存在混合步驟,並且不依賴於與特定面部操作技術相關的偽影的任何知識。事實上,確實可以訓練用於計算面部X射線的算法且無需使用任何最新的面部操縱方法生成的偽造圖像。大量的實驗表明,當將X射線應用於由看不見的面部操縱技術產生的偽造時,面部X射線仍然有效,而大多數現有的面部偽造檢測算法的性能都會明顯下降。

論文名稱:Effective Data Augmentation with Multi-Domain Learning GANs

作者:Yamaguchi Shin'ya /Kanai Sekitoshi /Eda Takeharu

發表時間:2019/12/25

論文連結:https://paper.yanxishe.com/review/7934

推薦理由:這篇論文考慮的是數據增強的問題。

這篇論文提出了一種有效的基於生成對抗網絡)的數據增強方法,其主要思想是通過使用多領域學習GAN將外部數據所包含的知識導入到目標模型中。多領域學習GAN能夠同時學習外部數據集和目標數據集,並能夠為目標任務生成高保真度和多樣性強的新樣本。文章表明即使只有極少量的目標數據集,研究人員也可以通過使用這些新生成的樣本來獲得目標任務的準確模型。這篇論文在CIFAR-100, FGVC-Aircraft和Indoor Scene Recognition這三個數據集上評估了其提出的數據增強方法,表明了它具有更好的分類準確性,並且能夠提高所生成樣本的質量。

論文名稱:Job Prediction: From Deep Neural Network Models to Applications

作者:Van Huynh Tin /Van Nguyen Kiet /Nguyen Ngan Luu-Thuy /Nguyen Anh Gia-Tuan

發表時間:2019/12/27

論文連結:https://paper.yanxishe.com/review/7937

推薦理由:這篇論文考慮的是基於簡歷信息判斷工作勝任程度的問題。

如何根據簡歷上的信息,例如學歷、技能描述等,來判斷一份工作是否適合求職者是一個困難的自然語言處理問題。反過來,公司挑選最適合這份工作的人才也是困難的。這篇論文嘗試利用不同的深度神經網絡模型來學習預測職業,這些模型包括TextCNN,Bi-GRU-LSTM-CNN,以及Bi-GRU-CNN,並用到了基於網際網路職業數據集訓練的多種預訓練詞嵌入。這篇論文還提出一種簡單但高效的集成模型以包含不同的深度神經網絡模型。實驗結果表明,所提方法獲得了最高為72.71%的F1值。

這篇論文試圖利用自然語言處理的技術來幫助網際網路上的求職者找到更適合自己的職業發展方向。

論文名稱:Combining Deep Learning and Verification for Precise Object Instance Detection

作者:Ancha Siddharth /Nan Junyu /Held David

發表時間:2019/12/27

論文連結:https://paper.yanxishe.com/review/7928

推薦理由:深度學習對象檢測器通常會以很高的置信度返回誤報。儘管它們優化了通用檢測性能,例如平均平均精度(mAP),但它們並不是為可靠性而設計的。對於可靠的檢測系統,如果進行了高置信度檢測,作者將希望高度確定確實已檢測到對象。為此,作者開發了一套驗證測試,建議的檢測必須通過該測試才能被接受。

作者建立了一個理論框架,可以證明在某些假設下,作者的驗證測試不會接受任何誤報。基於此框架的近似值,作者提出了一種實用的檢測系統,該系統可以高精度地驗證基於機器學習的對象檢測器的每次檢測是否正確。作者表明,這些測試可以提高基本檢測器的整體精度,並且公認的示例很有可能是正確的。這允許檢測器在高精度狀態下操作,因此可以作為可靠的實例檢測方法用於機器人感知系統。

論文名稱:A Gentle Introduction to Deep Learning for Graphs

作者:Bacciu Davide /Errica Federico /Micheli Alessio /Podda Marco

發表時間:2019/12/29

論文連結:https://paper.yanxishe.com/review/7947

推薦理由:圖形數據的自適應處理是一個長期存在的研究主題,最近已被整合為深度學習社區的主要興趣主題。相關研究的數量和廣度迅速增加是以缺乏知識的系統化和對早期文獻的關注為代價的。

本文中作者的這項工作旨在作為圖的深度學習領域的教程介紹。相對於對最新文獻的闡釋,它主張對主要概念和體系結構方面進行一致且漸進的介紹,讀者可參考其中的可用調查。本文對問題進行了自上而下的研究,介紹了一種基於局部和迭代方法來結構化信息處理的圖形表示學習的廣義公式。它介紹了基本的構建基塊,可以將其組合起來設計出新穎而有效的圖形神經模型。方法論的闡述是對本領域有趣的研究挑戰和應用的討論的補充。

 【北大/諾亞/鵬城/悉大】AdderNet:能否讓深度學習擺脫乘法運算?

論文名稱:AdderNet: Do We Really Need Multiplications in Deep Learning?

作者:Chen Hanting /Wang Yunhe /Xu Chunjing /Shi Boxin /Xu Chao /Tian Qi /Xu Chang

發表時間:2019/12/31

論文連結:https://paper.yanxishe.com/review/7948

推薦理由:這是一篇來自華為諾亞方舟實驗室的論文,於2020年1月1日上線arXiv。本文探究的目標為更高效的深度卷積神經網絡。(似乎稱作「模型壓縮」不太妥當?因為參數量、運算量、參數精度都未減少,但是將乘法替代為加法為推斷效率提供了極大的增長空間)

為了提升深度神經網絡的運行效率、減少不必要的運算,常見的方法有網絡剪枝、知識蒸餾等等。本文則另闢蹊徑,嘗試讓卷積神經網絡擺脫乘法而只使用高效的加法運算。

卷積神經網絡的實現中,卷積運算是通過卷積核與輸入特徵的互相關(cross-correlation)運算實現的,而這涉及大量浮點數的乘法運算——要知道,計算機完成一次32位浮點乘法運算往往是加法運算的幾倍!如果能將互相關運算替代為效果相近而僅涉及加法的運算,豈不是可以極大地提升CNN的運行效率?                     

32位浮點運算的相對能耗

那麼問題來了:互相關的本質是什麼呢?是衡量卷積核與輸入特徵的相似度。這裡,作者大膽地使用L1距離的相反數代替互相關運算,作為衡量相似度的另一種途徑。

使用互相關實現的卷積運算,X為輸入特徵,F為卷積核,S()為乘法,Y為層的輸出

將S()換為L1距離

那麼問題又來了:模型如何通過反向傳播優化?如果對L1距離求導,那麼結果只能是0和±1(認為L1距離等於0時導數為0),相當於對X(m+i,n+j,k)-F(i,j,k,t)求的符號函數——這並不能很好地使得模型向最優的方向優化。因此,作者在這裡使用了X與F的差作為每層「卷積」核的梯度進行反傳:         

同樣,X也需要梯度來回傳至上層,而且與F的梯度不同的是:這個梯度還會影響到上面的所有的層(存在梯度爆炸的可能性),更需要精心的設計。因此,在這裡作者使用了HardTanh(即將y=x用±1截斷,防止梯度過大)使得梯度值(F-X)處於±1範圍之內。

除此之外,本文還提出了針對加法網絡的自適應性學習率調整策略。將所有卷積層替換為加法層的AdderNet-ResNet50在ImageNet上達到了74.9%的Top-1準確率和91.7%的Top-5準確率(使用乘法運算實現卷積的ResNet50準確率才不過76.2%和92.9%),在性能損失極少的條件下大大地減少了運算時間。

註:儘管卷積層完全未使用乘法,AdderNet-ResNet50仍然在層間採用了涉及乘法運算的批歸一化(Batch Normalization)(畢竟L1距離的相反數一定是非正的)。但是與卷積層的乘法運算相比,批歸一化的乘法運算量完全不在一個數量級上,因此可以被忽略不計。

雷鋒網(公眾號:雷鋒網)雷鋒網雷鋒網

相關文章:

Paper 研習社每日精選論文推薦 12.31

Paper 研習社每日精選論文推薦 12.30

Paper 研習社每日精選論文推薦 12.27

Paper 研習社每日精選論文推薦 12.26

Paper 研習社每日精選論文推薦 12.25

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 今日Paper | 梯度剪切;命名實體識別;自然語言處理;免強度函數學習...
    :今日 Paper | 小樣本學習;機器學習;單幅圖像去霧 ;零樣本目標檢測等今日 Paper | 可視問答模型;神經風格差異轉移;圖像壓縮系統 ;K-SVD圖像去噪等今日 Paper | 依賴性解析器;DNNs對圖像損壞;高效人臉特徵學習 ;虛擬試穿統一框架等今日 Paper | 模態平衡模型;組合語義分析;高表達性SQL
  • 今日Paper | 3D手勢估計;自學習機器人;魯棒語義分割;卷積神經網絡...
    ,AI科技評論聯合Paper 研習社(paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。以但是,對於特定的應用程式和不同的數據集選擇合適的網絡體系結構(深度,內核形狀,激活功能等)的挑戰仍然知之甚少。在本文中,作者通過提出一種系統的語言來研究CNN的體系結構與其性能之間的關係,該語言對於訓練之前的不同CNN的體系結構之間的比較很有用。
  • 今日Paper|PolarMask;時間序列;面部表情編輯;ELECTRA 等
    from=leiphonecolumn_paperreview0325推薦原因本文的研究意義:在本文中,作者介紹了一種新的單實例分割方法——PolarMask,該方法完全卷積且網絡結構簡單,可以最大限度的將其嵌入到大多數現成的檢測方法中使用。通過PolarMask方法可以將實例分割問題轉化為研究中心分類和極坐標距離回歸的輪廓預測問題。
  • 今日Paper|可視問答模型;神經風格差異轉移;圖像壓縮系統;K-SVD...
    目錄準確性與複雜性:可視問答模型中的一種權衡神經風格差異轉移及其在字體生成中的應用基於GAN的可調整的圖像壓縮系統基於原始-對偶活動集算法的K-SVDfrom=leiphonecolumn_paperreview0211推薦原因這篇論文考慮的是視覺問答的問題。為了驗證AI的推理能力,視覺問答(Visual Question Answering,VQA)被用作一種視覺圖靈測試。
  • MediaPipe Holistic谷歌發布面部,手部與姿勢同時檢測模型
    ,面部標誌和手部跟蹤可以啟用各種有影響力的應用程式,例如健身和運動分析,手勢控制和手語識別,增強現實效果等等。  今天,我們很高興宣布推出,它是針對這一挑戰的解決方案,它提供了一種新穎的,最新的人體姿勢拓撲結構,可以解鎖新穎的用例。
  • 今日Paper|3D門控遞歸融合;雙注意力GAN;通用目標檢測器;無監督域...
    from=leiphonecolumn_paperreview0226推薦原因這篇論文要解決的是語義場景補全任務中的數據融合問題。RGB圖像包含對象的紋理細節,而深度圖像能捕獲與形狀補全任務具有高度相關性的幾何線索,因此同時使用RGB和深度圖像可以進一步提高語義場景補全模型的精度。
  • 今日Paper|社交媒體謠言檢測;連續手語識別;細粒度服裝相似性學習...
    目錄基於雙向圖卷積神經網絡的社交媒體上謠言檢測 用於連續手語識別的時空多線索網絡基於屬性特定嵌入網絡的細粒度服裝相似性學習混合圖神經網絡在人群計數中的應用使用衛星圖像中的目標檢測生成可解釋的貧困地圖 基於雙向圖卷積神經網絡的社交媒體上謠言檢測 論文名稱:Rumor Detection>作者:Bian Tian /Xiao Xi
  • 語音驅動3D虛擬人,百度ACCV 2020最新文章解讀
    泰勒 [3] 提出使用音頻來驅動高保真圖形模型,該模型不僅可以將嘴部動畫化,而且還可以對面部的其他部分進行動畫處理以獲得更豐富的語音表達。然而,嘴部運動的合成大部分是確定性的:給定發音,在不同的人和環境中嘴部的運動或形狀是相似的。但現實生活中,相同情況下的全身手勢運動具有更高的生成力和更多的變異性,這些手勢高度依賴於當前的上下文和正在執行語音的人類。
  • 面部識別、深度偽造、隱私和自動化定義的AI 2019
    回顧剛剛過去的2019年,基於機器學習系統訓練算法的人工智慧,已然開始滲透至各行各業。AI周刊在對2019年的人工智慧行業進行總結是歸納了以下四個關鍵詞:面部識別、深度偽裝、隱私和自動化。與此同時,AI周刊也對2020年的人工智慧行業大發展進行了展望。
  • 解密:面部特徵點檢測的關鍵技術
    相關研究成果發表在計算機視覺國際頂級學術會議ICCV, CVPR和ECCV,並擔任國際頂級期刊TIP和TNNLS審稿人。面部特徵點定位任務即根據輸入的人臉圖像,自動定位出面部關鍵特徵點,如眼睛、鼻尖、嘴角點、眉毛以及人臉各部件輪廓點等,如下圖所示。
  • 「網絡安全漲姿勢」第11期:基礎網絡攻防之跨站請求偽造
    代理人攻擊:指不直接對攻擊目標進行攻擊,而是通過跳板伺服器對目標伺服器發起攻擊,實現其攻擊目的的行為跨站請求偽造與XSS聽起來很像但二者有著很大差別:XSS利用漏洞影響站點內的用戶,攻擊目標是同一站點內的用戶者;而CSRF 通過偽裝成受害用戶發送惡意請求來影響Web系統中受害用戶的利益。
  • 今日Paper | 空間注意力網絡;深度信念網絡;GhostNet;位置預測等
    VSGNet:基於圖卷積的人體物體交互檢測的空間注意力網絡用單個深度學習模型代替移動相機ISP基於深度信念網絡來識別阿爾茲海默症的蛋白質組危險標誌物分層時空LSTM在位置預測中的應用GhostNet:廉價運營帶來的更多功能  VSGNet:基於圖卷積的人體物體交互檢測的空間注意力網絡
  • 今日Paper|虛假新聞檢測;馬爾可夫決策過程;場景文本識別;博弈論...
    為了幫助各位學術青年更好地學習前沿研究成果和技術,AI科技評論聯合Paper 研習社(paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。
  • 3D人體全身運動捕捉系統,港中文聯合Facebook出品
    人們每天會拍大量的日常活動視頻上傳到網絡,如果有一種基於普通攝像頭的運動捕捉系統,能夠捕捉視頻中人體的運動,將在人機互動、人工智慧、機器人等眾多方向有所應用。同時捕捉人體和人手的運動對這些應用同樣重要,但人手只佔身體的很小一部分,要想直接捕捉兩者的運動是一個很難的問題。當前的大部分相關工作都只顧及圖片中人體的3D姿態,忽略圖片中人手的動作。
  • 3D人體全身運動捕捉系統,港中文聯合Facebook出品
    1介紹本文作者提出了一個3D人體全身運動捕捉系統 FrankMocap,能夠從單目視頻同時估計出3D人體和手部運動,在一塊GeForce RTX 2080 GPU上能夠達到 9.5 FPS。人們每天會拍大量的日常活動視頻上傳到網絡,如果有一種基於普通攝像頭的運動捕捉系統,能夠捕捉視頻中人體的運動,將在人機互動、人工智慧、機器人等眾多方向有所應用。同時捕捉人體和人手的運動對這些應用同樣重要,但人手只佔身體的很小一部分,要想直接捕捉兩者的運動是一個很難的問題。當前的大部分相關工作都只顧及圖片中人體的3D姿態,忽略圖片中人手的動作。
  • 今日全宇宙最漲姿勢的十張圖
    今日全宇宙最漲姿勢的十張圖 2020-10-20 12:38 來源:澎湃新聞·澎湃號·湃客
  • 偽造核酸檢測報告者就該付出代價
    (12月19日新華社電)據報導,民警在某物流園區進行核酸檢測報告查驗時發現,2名送貨司機出示的核酸檢測報告日期有問題,經進一步調查發現,他們與另2名司機均使用過偽造的核酸檢測報告進入園區,偽造的報告是某電腦店老闆通過修圖軟體製作的。這類偽造核酸檢測報告結果影響疫情防控工作的事件近期已發生多起。
  • 活體檢測很複雜?僅使用opencv就能實現!(附源碼)
    為了使人臉識別系統更安全,我們不僅要識別出人臉,還需要能夠檢測其是否為真實面部,這就要用到活體檢測了。基於啟發式的算法(Heuristic-based algorithms),包括眼球運動、嘴唇運動和眨眼檢測;光流算法(Optical Flow algorithms),即檢查從3D對象和2D平面生成的光流的差異和屬性;3D臉部形狀,類似於Apple
  • 科普知識問答(六十九)_政務_澎湃新聞-The Paper
    科普知識問答(六十九) 2020-04-14 15:19 來源:澎湃新聞·澎湃號·政務
  • 使用Python,Keras和OpenCV進行實時面部活體檢測
    你可以在網際網路上找到的大多數面部識別算法和研究論文都受到照片攻擊。這些方法在檢測和識別來自網絡攝像頭的圖像、視頻和視頻流中的人臉方面非常有效。然而,他們不能區分活人的臉和照片上的臉。這是因為這些算法適用於2D frames。