今日Paper | TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測...

2020-12-20 雷鋒網

REFORMER:一個高效的TRANSFORMER結構

具有文本指導的圖像到圖像的翻譯

解決背景重校準損失下的缺失標註目標檢測問題

MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正 

基於跨模態自我注意網絡學習的視頻問題生成 

  REFORMER:一個高效的TRANSFORMER結構

論文名稱:REFORMER: THE EFFICIENT TRANSFORMER

作者:Nikita Kitaev / Lukasz Kaiser / Anselm Levskaya

發表時間:2019/9/26

論文連結:https://paper.yanxishe.com/review/11542?from=leiphonecolumn_paperreview0221

推薦原因

核心問題:自從BERT取得了巨大的效果的時候,transform就成為了大多數nlp任務的標配,但是它存在一些問題,比如訓練速度慢,佔用內容大,還有無法處理長序列,本論文就是解決這些問題。

創新點:該論文提出了一種REFORMER結構,它的核心有以下幾點:首先提出了可逆層,在該層中只存儲單層激活值的一份拷貝,然後它把FF層裡的激活值進行切分 ,最後它使用局部敏感哈希(LSH)注意力代替傳統多頭注意力

研究意義:這個新模型不僅訓練速度快,而且佔用內存小,還可以解決序列過長的問題。

論文名稱:Image-to-Image Translation with Text Guidance

作者:Li Bowen /Qi Xiaojuan /Torr Philip H. S. /Lukasiewicz Thomas

發表時間:2020/2/12

論文連結:https://paper.yanxishe.com/review/11541?from=leiphonecolumn_paperreview0221

推薦原因

這篇論文提出了一個新的圖像到圖像遷移方法,通過生成對抗網絡將可控因素(即自然語言描述)嵌入到圖像到圖像的遷移中,從而使文字描述可以確定合成圖像的視覺屬性。這個新方法由4個關鍵組成部分組成:1、實施詞性標註以過濾掉給定描述中的非語義詞;2、採用仿射組合模塊來有效融合不同形式的文本和圖像特徵;3、一種新的精細多級架構,以增強判別器的判別能力和生成器的糾正能力;4、一種新的結構損失,進一步提升了判別器的性能,以更好地區分真實圖像和合成圖像。COCO數據集上的實驗表明了這篇論文提出的方法在視覺真實性和語義一致性方面均具有出色的性能表現。

論文名稱:Solving Missing-Annotation Object Detection with Background Recalibration Loss

作者:Zhang Han /Chen Fangyi /Shen Zhiqiang /Hao Qiqi /Zhu Chenchen /Savvides Marios

發表時間:2020/2/12

論文連結:https://paper.yanxishe.com/review/11540?from=leiphonecolumn_paperreview0221

推薦原因

這篇論文研究了一種新的且具有挑戰性的目標檢測場景:數據集中大多數真實對象或實例未被標註,因此這些未被標註的區域在訓練過程中被視為背景。現有方法基於Faster RCNN,使用軟採樣與正實例的重疊來對RoI的梯度進行加權。這篇論文提出了一個新的名為背景重校準損失的解決方案,可以根據預定義的IoU閾值和輸入圖像來自動重新校準損失信號。這篇論文還進行了幾項重大的修改,以適應缺失標註的情況。PASCAL VOC和MS COCO數據集上的實驗表明這篇論文所提出的方法在很大程度上優於現有方法。

  MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正

論文名稱:MLFcGAN: Multi-level Feature Fusion based Conditional GAN for Underwater Image Color Correction

作者:Liu Xiaodong /Gao Zhi /Chen Ben M.

發表時間:2020/2/13

論文連結:https://paper.yanxishe.com/review/11539?from=leiphonecolumn_paperreview0221

推薦原因

這篇論文考慮的是水下圖像的色彩修正問題。

這篇論文基於生成對抗網絡,提出了一個深度多尺度特徵融合網絡,首先抽取多尺度特徵,然後在每個尺度用全局特徵對局部特徵進行了增強。在色彩修正和細節保留兩個任務上,這篇論文所提方法取得領先優勢,在質量、呈現效果、方法新穎上相比當前最佳模型更加優越。

論文名稱:Video Question Generation via Cross-Modal Self-Attention Networks Learning

作者:Wang Yu-Siang /Su Hung-Ting /Chang Chen-Hsi /Liu Zhe-Yu /Hsu Winston

發表時間:2019/7/5

論文連結:https://paper.yanxishe.com/review/11538?from=leiphonecolumn_paperreview0221

推薦原因

這篇論文要解決的是視頻問答的問題。

對視頻問答任務而言,深度學習模型嚴重依賴海量數據,而這類數據的標註成本很高。這篇論文提出了一個新任務,可以自動根據視頻片段中的視頻幀序列和相應的字幕生成問題,從而減少了巨大的標註成本。學習如何對視頻內容進行提問需要模型理解場景中豐富的語義以及視覺和語言之間的相互作用。為了解決這個問題,這篇論文提出了一種新的跨模式自注意力網絡,以聚合視頻幀和字幕的各種特徵。通過實驗證明了所提出的方法相對於基準方法可以有85%的提升。

為了更好地服務廣大 AI 青年,AI 研習社正式推出全新「論文」版塊,希望以論文作為聚合 AI 學生青年的「興趣點」,通過論文整理推薦、點評解讀、代碼復現。致力成為國內外前沿研究成果學習討論和發表的聚集地,也讓優秀科研得到更為廣泛的傳播和認可。

我們希望熱愛學術的你,可以加入我們的論文作者團隊。

加入論文作者團隊你可以獲得

    1.署著你名字的文章,將你打造成最耀眼的學術明星

    2.豐厚的稿酬

    3.AI 名企內推、大會門票福利、獨家周邊紀念品等等等。

加入論文作者團隊你需要:

    1.將你喜歡的論文推薦給廣大的研習社社友

    2.撰寫論文解讀

如果你已經準備好加入 AI 研習社的論文兼職作者團隊,可以添加運營小姐姐的微信,備註「論文兼職作者」

雷鋒網雷鋒網(公眾號:雷鋒網)雷鋒網

相關焦點

  • 今日Paper | 物體渲染;圖像和諧化;無偏數據處理方法;面部偽造檢測...
    from=leiphonecolumn_paperreview0319推薦原因本文被ICLR 2020接收!文章提出了一種基於學習的圖像引導的渲染技術,該技術將基於圖像的渲染和基於GAN的圖像合成相結合,可以生成重建對象的高真實感渲染結果。
  • 圖像標註的基礎內容介紹
    說到圖像,計算機需要看到人類眼睛看到的東西。 例如,人類有識別和分類物體的能力。同樣,我們可以使用計算機視覺來解釋它接收到的視覺數據。這就是圖像標註的作用。 圖像標註在計算機視覺中起著至關重要的作用。圖像標註的目標是為和任務相關的、特定於任務的標籤。
  • 圖像目標檢測算法——總結
    傳統目標檢測方法Selective SearchDeformable Part Model基於CNN 的目標檢測1.最開始的CNN 目標檢測就是兩階段的。R-CNNR-CNN 是最早利用CNN 實現目標檢測任務的方法,由rbg(Ross Girshick)等人提出。
  • 淺談計算機視覺中的圖像標註_易車網
    更進一步的說,計算機視覺是一門研究如何使機器「看」的科學,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。計算機視覺的應用非常廣泛,從自動駕駛汽車和無人機到醫療診斷技術和面部識別軟體,計算機視覺的應用是巨大的和革命性的。
  • 2020「水下目標檢測算法賽」賽題解析——聲學圖像
    為了解決該類問題,將光學技術、聲學技術和 AI 算法更好的融入到海洋產業中,近期,一場由國家自然基金委、鵬城實驗室和湛江市人民政府聯合主辦的線上比賽「水下目標檢測算法賽」拉開了帷幕。聲學圖像在水下目標檢測中探程遠、實用性強,針對「聲學圖像目標檢測」賽項,鵬城實驗室專門開設了 2 期在線直播課程,先後請到上海達華測繪有限公司專家李太春老師和河海大學、水下信息感知技術研究中心副主任霍冠英老師,為參賽者和算法愛好人士提供深入淺出的專業講座。
  • 基於python+opencv的圖像目標區域自動提取
    檢測矩形並提取坐標需要對圖像進行預處理、邊緣檢測、提取輪廓、檢測凸包、角點檢測。由於執行該函數時會直接修改圖像,因此我們複製一份圖像之傳給cv2.findContours();同時,OpenCV提供了cv2.drawContour()函數繪可以把輪廓疊加到另一張圖片上。下面的代碼使用cv2.findContours()函數對mask圖片提取輪廓,並調用cv2.drawContour()把輪廓疊加在原始圖像。
  • ...建模高階關係的圖像檢測和分割方法: 新型可學習樹形特徵變換器
    本工作拋棄了圖像中常用的網格 (Grid) 結構形式,利用樹形結構實現了線性複雜度的高階關係建模和特徵變換。在保證全局感受野的同時,保留物體的結構信息和細節特徵。可學習的模塊被靈活地應用在了目標檢測、語意分割、實例分割和全景分割上。  本工作有效地彌補了傳統二元關係建模方法的不足之處,從而在更低的複雜度下,即可取得更為顯著的性能提升。
  • 做目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點
    CVPR 2020 會議上,有哪些目標檢測論文值得關注?目標檢測是計算機視覺中的經典問題之一。憑藉大量可用數據、更快的 GPU 和更好的算法,現在我們可以輕鬆訓練計算機以高精度檢測出圖像中的多個對象。前不久結束的 CVPR 2020 會議在推動目標檢測領域發展方面做出了一些貢獻,本文就為大家推薦其中 6 篇有價值的目標檢測論文。
  • 今日Paper | 問答系統;3D人體形狀和姿勢;面部偽造檢測;AdderNet等
    (paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。以paper.yanxishe.com/review/7940推薦理由:在本文中,作者提出了一種新穎的圖像表示形式,稱為面部X射線,用於檢測面部圖像中的偽造。
  • 【新智元乾貨】計算機視覺必讀:目標跟蹤、圖像分類、人臉識別等
    精簡結構設計有研究工作直接設計精簡的網絡結構。例如,(1).瓶頸(bottleneck)結構及1×1卷積。這種設計理念已經被廣泛用於Inception和ResNet系列網絡設計中。(2). 分組卷積。(3). 擴張卷積。使用擴張卷積可以保持參數量不變的情況下擴大感受野。
  • 從數據集到2D和3D方法,一文概覽目標檢測領域進展
    nuScenes 數據集來自 nuTonomy,是一個大規模自動駕駛數據集,其中的數據進行了 3D 目標標註。與其它很多數據集相比,nuScenes 數據集不僅規模更大,目標標註更多,而且還提供了整套傳感器套件,包括雷射雷達、聲波雷達、GPS 和 IMU。圖 1 展示了 nuScenes 中一個雷射雷達點雲的示例。圖 1:nuScenes 中的雷射雷達點雲示例。
  • 安德烈斯·古斯基:從「拍攝圖像」到「製作圖像」
    在有翻譯在場的情況下,他說英語,偶爾也說德語。他與人進行了廣泛的談話,內容涉及藝術和成功,以及他對泰克諾音樂的熱情。古斯基首先介紹了他最近的成果。「我只是對製作圖像感興趣,」他說:「當然,你必須重塑你自己。」他指出,他一年創作的作品不超過8幅,創作需要時間。
  • 內鏡下藍光成像圖像對應怎樣的病理圖像?
    使用Photoshop CC軟體程序從每張數字顯微鏡圖像中提取陽性染色的部分。關於血管重建,提取對應於血管壁的CD34陽性部分,並繪製為灰度圖像。提取的形成為圓的可以被認為是血管內部的正部分的內部區域也被繪製為正部分。未完全提取的血管(例如無法檢測到的薄血管壁)被視為陽性區域。CAM5.2陽性部分用於隱窩腺的重建。使用不同的灰度將CD34圖像轉換為灰度。
  • 圖像特徵點、投影變換與圖像拼接
    多個視角拍攝的圖像很顯然,不管我們是把左邊的圖像擺在上面,還是把右邊的圖像擺在上面,都會觀察到「對不齊」的現象(看看中間欄杆的斷裂縫):而在全景拼接中,假如我們要把在不同相機中心位置拍攝的圖像通過投影變換拼接到一起時,會怎麼樣呢?比如下圖,我們要將圖像平面1和2通過投影變換到綠色線表示的共同平面上去,從而實現拼接,此時會怎樣呢?
  • 二 句子、圖像、歷史——讀朗西埃《圖像的命運》第二章
    [1]在筆者看來,這兩大原則也是影像中圖像的兩種命運,二者共同推動一部影片電影敘事的發展。但是電影敘事又不同於語言敘事,語言敘事是語言要素只有在語言結構中才有意義,語言要素在敘事中變得透明;而電影敘事不同,各大要素(如聲音、電影圖像,等等)都具有一定的獨立性,電影圖像除了服從於一部影片的敘事之外,還有自己的價值,那就是付諸於我們視覺的藝術性。
  • 「醫學圖像處理」X-ray 圖像質量
    Subject contract指的是由於要成像的主體的質量而導致的圖像不同部分的輻射強度之比。對比度歸因於組織的差異衰減。c ∝ (μ1 - μ2) x t ,c為對比度,μ為被成像材料中物體1和2的衰減係數,T為結構厚度。
  • 移動端實時3D目標檢測,谷歌開源出品,安卓下載就能用
    目標檢測是一個得到廣泛研究的計算機視覺問題,但大多數研究側重於 2D 目標檢測。值的注意的是,2D 預測僅能提供 2D 邊界框。所以,如果擴展至 3D 預測,人們可以捕捉到目標的大小、位置與方向,從而在機器人、無人駕駛、圖像檢索和 AR 等領域得到更廣泛的應用。
  • 利用OpenCV建立視差圖像
    :公眾號 小白學視覺 授權我們都看過3D電影,他們看起來都很酷,這給了我們一個想法,使用一些工具通過改變看圖像視角,模擬觀眾的頭部移動。效果如何?我們都熟悉"視差"這一術語,它是描述對象在左右眼中的位置差距,視差的大小這取決於我們離它有多遠。視差因此,如果我們能在2D圖像中獲得與不同圖像層的相同效果,那麼我們可以在這些圖像中產生類似的感覺,並產生我們想要的酷效果。讓我們分解一下這個過程
  • KeyPose:從立體圖像估計透明物體3D姿態
    為了訓練這個系統,我們自用自動的方式採集了一個搭的真實世界透明物體數據集,並且利用手工選定的三維關鍵點高效的標註他們的姿勢.然後我們訓練深度模型(稱為KeyPose)來從單目或立體圖像中端到端地估計3D關鍵點,而不需要顯式地計算深度. 在訓練過程中,模型可以處理可見和不可見的對象,包括單個對象和對象類別。
  • 【國外翻譯】ZBrush中的圖像引用
    聚光燈: 在我開始素描之前,我主要是在貼圖或將一些指南投射到DynaMesh BLOB中時使用聚光燈。 有關此工作流的幾個提示:聚束投影 由於Spotlight作為活動畫筆的投影修飾符,但我們不需要將圖像投影到模型上,所以我們必須關閉「聚光燈投影