今日Paper|可視問答模型;神經風格差異轉移;圖像壓縮系統;K-SVD...

2020-12-22 雷鋒網

目錄

準確性與複雜性:可視問答模型中的一種權衡神經風格差異轉移及其在字體生成中的應用基於GAN的可調整的圖像壓縮系統基於原始-對偶活動集算法的K-SVD圖像去噪神經閱讀理解與超越

準確性與複雜性:可視問答模型中的一種權衡

論文名稱:Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models

作者:Farazi Moshiur R. /Khan Salman H. /Barnes Nick

發表時間:2020/1/20

論文連結:https://paper.yanxishe.com/review/9627?from=leiphonecolumn_paperreview0211

推薦原因

這篇論文考慮的是視覺問答的問題。

為了驗證AI的推理能力,視覺問答(Visual Question Answering,VQA)被用作一種視覺圖靈測試。現有VQA模型的關鍵是將圖像的視覺特徵與給定問題的語義特徵相結合而學習到聯合嵌入。大量的研究聚焦於利用視覺注意力機制來設計複雜的聯合嵌入策略,以有效捕捉視覺與語義間的交互作用。但是,在高維空間構建視覺與語義特徵計算量極大,模型越來越複雜,對VQA準確率帶來的提升卻很小。這篇論文系統地研究了模型複雜度和性能兩方面的折中策略,並且特別關注了這些模型在多模態融合方面的效果。通過實驗,這篇論文給出了如何優化以降低複雜性和如何優化以實現當前最佳VQA性能的提升這兩個方面的建議。

神經風格差異轉移及其在字體生成中的應用

論文名稱:Neural Style Difference Transfer and Its Application to Font Generation

作者:Atarsaikhan Gantugs /Iwana Brian Kenji /Uchida Seiichi

發表時間:2020/1/21

論文連結:https://paper.yanxishe.com/review/9626?from=leiphonecolumn_paperreview0211

推薦原因

這篇論文了介紹一種自動創建字體的方法,找到兩種不同字體之間的字體樣式差異,並使用神經樣式轉移將其轉換為另一種字體。這篇論文提出了一種新的神經風格差異和內容差異損失神經風格轉移方法。根據這些損失,可通過在字體中添加或刪除字體樣式來生成新字體。基於各種輸入字體組合的實驗結果,這篇論文還討論了所提方法的局限性和未來的工作。

基於GAN的可調整的圖像壓縮系統

論文名稱:A GAN-based Tunable Image Compression System

作者:Wu Lirong /Huang Kejie /Shen Haibin

發表時間:2020/1/18

論文連結:https://paper.yanxishe.com/review/9625?from=leiphonecolumn_paperreview0211

推薦原因

這篇論文考慮的是圖像壓縮的問題。

在基於深度神經網絡的有損圖像壓縮中,重要性圖方法被廣泛應用,以根據圖像內容的重要性來實現比特分配,然而這種方法容易出現嚴重失真。這篇論文提出使用生成對抗網絡重構非重要區域,將多尺度金字塔分解方法應用於編碼器和判別器,以實現高解析度圖像的全局壓縮。同時這篇論文還提出了一種可調整的壓縮方案,將圖像壓縮為任何特定的壓縮率,而無需重新訓練模型。實驗結果表明,與最新的基於GAN的方法相比,這篇論文提出的方法在MS-SSIM數據集實現了10.3%以上的改進。

基於原始-對偶活動集算法的K-SVD圖像去噪

論文名稱:Image denoising via K-SVD with primal-dual active set algorithm

作者:Xiao Quan /Wen Canhong /Yan Zirui

發表時間:2020/1/19

論文連結:https://paper.yanxishe.com/review/9624?from=leiphonecolumn_paperreview0211

推薦原因

這篇論文改進了用於圖像去噪的K-SVD算法。在K-SVD的稀疏編碼步驟中,一旦噪音等級變高,尋找貪心近似解的效果就下降了。這篇論文提出了一種新的名為K-SVD_P的框架,加入了原始對偶有效集(Primal-Dual Active Set,PDAS)算法。K-SVD_P與基於貪心算法的K-SVD不同,發展出一套利用KKT條件的選擇策略,並在稀疏編碼階段產生有效的更新。由於K-SVD_P使用簡單的顯式表達式來迭代地尋找對偶問題的等效解決方案,可以在去噪的速度與質量上取得更好的效果。論文中的實驗也驗證了K-SVD_P的降噪性能。

神經閱讀理解與超越

論文名稱:NEURAL READING COMPREHENSION AND BEYOND

作者:Danqi Chen

發表時間:2019/12/21

論文連結:https://paper.yanxishe.com/review/9622?from=leiphonecolumn_paperreview0211

推薦原因

這篇論文是陳丹琦的博士論文,作為nlp領域的大牛,這篇文章很是優秀推薦給大家,這篇論文已經成為了NLP研究者的必讀論文,這篇論文難得可貴的是向nlp研究者們展示了,如何在研究過程中面對挑戰解決問題。

這篇論文可以看作是綜述類文章,裡面既有其它人的研究,也有自己的研究,推薦大家閱讀。

論文作者團隊招募

為了更好地服務廣大 AI 青年,AI 研習社正式推出全新「論文」版塊,希望以論文作為聚合 AI 學生青年的「興趣點」,通過論文整理推薦、點評解讀、代碼復現。致力成為國內外前沿研究成果學習討論和發表的聚集地,也讓優秀科研得到更為廣泛的傳播和認可。

我們希望熱愛學術的你,可以加入我們的論文作者團隊。

加入論文作者團隊你可以獲得

1.署著你名字的文章,將你打造成最耀眼的學術明星

2.豐厚的稿酬

3.AI 名企內推、大會門票福利、獨家周邊紀念品等等等。

加入論文作者團隊你需要:

1.將你喜歡的論文推薦給廣大的研習社社友

2.撰寫論文解讀

雷鋒網雷鋒網雷鋒網

相關焦點

  • 今日Paper|縮放神經網絡;形變的LSTM;知識圖譜複雜問答;陰影著色等
    目錄ZoomNet:用於3D對象檢測的部分感知自適應縮放神經網絡ForecastNet:一種用於多步超前時間序列預測的時變深度前饋神經網絡結構形變的LSTM基於消息傳遞的知識圖譜複雜問答ZoomNet首先使用一個普通的2D對象檢測模型,獲取成對左右邊界框。然後為了進一步利用RGB圖像中豐富的紋理信息來進行更準確的視差估計,ZoomNet使用了一個模塊-自適應縮放塊,同時將2D實例邊框的大小調整為統一的解析度,並相應地調整了相機的固有參數。同時,這篇論文還提出學習局部位置信息來進一步提升模型性能,並提出了一個3D擬合評分以更好地估計3D檢測模型的質量。
  • 今日Paper | 問答系統;3D人體形狀和姿勢;面部偽造檢測;AdderNet等
    (paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。以作者的方法將基於bigram哈希和TF-IDF匹配的搜索組件與經過訓練以檢測Wikipedia段落中的答案的多層遞歸神經網絡模型相結合。作者在多個現有QA數據集上的實驗表明,(1)兩個模塊相對於現有同類產品都具有很高的競爭力;(2)使用遠程監督對其組合進行多任務學習是解決這一艱巨任務的有效完整系統。
  • 今日Paper | 人臉旋轉;BiLSTM-CRF;神經注意模型;Abigail等
    使用基於特徵增強的BiLSTM-CRF神經網絡對出院總結中的藥品相關的實體信息進行抽取採用神經注意模型生成文本摘要基於指針生成網絡對Abigail進行匯總基於細觀遞歸神經網絡結構的抽象文本摘要  Rotate-and-Render: 基於單視角圖像的自監督真實感人臉旋轉
  • 今日Paper|人臉旋轉;BiLSTM-CRF;神經注意模型;Abigail等
    目錄Rotate-and-Render: 基於單視角圖像的自監督真實感人臉旋轉使用基於特徵增強的BiLSTM-CRF神經網絡對出院總結中的藥品相關的實體信息進行抽取採用神經注意模型生成文本摘要基於指針生成網絡對
  • 動態圖像可視電話是什麼 動態圖像可視電話功能介紹【詳解】
    動態圖像可視電話是什麼  可視電話最早出現在1956年,當時美國貝爾電話實驗室試製了掃描線為60條,頻帶為1200H:的窄帶電視電話。1959年,他們又研製了一種新的可視電視,並於1964年研製成功掃描線為275條、頻帶為500KHz,可傳送完整黑白圖像的電視電話Piturephone MOD I型可視電話機,同年在紐約萬國博覽會上展出,引起轟動。但由於佔用頻帶寬,傳輸速率低,成本高,因而未得到廣泛應用。  可視電話是一種在通話同時可以看到對方動態圖像,從而實現雙方「面對面」交流的新型電話。
  • 今日Paper|TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測解決...
    from=leiphonecolumn_paperreview0221推薦原因這篇論文提出了一個新的圖像到圖像遷移方法,通過生成對抗網絡將可控因素(即自然語言描述)嵌入到圖像到圖像的遷移中,從而使文字描述可以確定合成圖像的視覺屬性。
  • 今日Paper | TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測...
    from=leiphonecolumn_paperreview0221推薦原因這篇論文提出了一個新的圖像到圖像遷移方法,通過生成對抗網絡將可控因素(即自然語言描述)嵌入到圖像到圖像的遷移中,從而使文字描述可以確定合成圖像的視覺屬性。
  • OpenAI重磅推出語言模型DALL·E和圖像識別系統CLIP
    人工智慧(AI)研究組織OpenAI重磅推出了最新的語言模型DALL·E和圖像識別系統CLIP。 這兩個模型是OpenAI第三代語言生成器的一個分支。兩種神經網絡都旨在生成能夠理解圖像和相關文本的模型。OpenAI希望這些升級後的語言模型能夠以接近人類解釋世界的方式來解讀圖像。 2020年5月,OpenAI發布了迄今為止全球規模最大的預訓練語言模型GPT-3。GPT-3具有1750億參數,訓練所用的數據量達到45TB。
  • 今日Paper | 3D手勢估計;自學習機器人;魯棒語義分割;卷積神經網絡...
    from=leiphonecolumn_paperreview0108推薦理由:隨著高容量,低精度計算技術的發展以及認知人工智慧啟發式系統的應用研究,通過具有實時學習功能的神經網絡的機器學習解決方案引起了研究界以及整個行業的極大興趣。
  • 今日Paper|虛擬試穿網絡;人群計數基準;聯邦元學習;目標檢測等
    為了幫助各位學術青年更好地學習前沿研究成果和技術,AI科技評論聯合Paper 研習社(paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。
  • AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
    在本篇提前看中,我們重點聚焦 AAAI 2020 中與問答系統(Q&A)相關的文章。問答系統是自然語言處理領域的一個重要研究方向,近年來各大國際會議、期刊都發表了大量與問答系統相關的研究成果,實際工業界中也有不少落地的應用場景,核心算法涉及機器學習、深度學習等知識。
  • AAAI 2020 提前看|三篇論文解讀問答系統最新研究進展
    在本篇提前看中,我們重點聚焦 AAAI 2020 中與問答系統(Q&A)相關的文章。問答系統是自然語言處理領域的一個重要研究方向,近年來各大國際會議、期刊都發表了大量與問答系統相關的研究成果,實際工業界中也有不少落地的應用場景,核心算法涉及機器學習、深度學習等知識。
  • 今日Paper|手部和物體重建;三維人體姿態估計;圖像到圖像變換等
    發表時間:2016/7/27論文連結:https://paper.yanxishe.com/review/9228推薦原因:第一個從單個不受約束的圖像自動估計人體3D姿勢及其3D形狀的方法。然後,將新近發布的統計身體形狀模型SMPL(自頂向下)擬合到2D關節。通過最小化目標函數來懲罰投影的3D模型關節與檢測到的2D關節之間的誤差。
  • 今日Paper|RevealNet;時間序列預測;無監督問答;實時語義立體匹配等
    from=leiphonecolumn_paperreview0331推薦原因本文已經被提交到ECCV2020。Image Matting是眾多圖像編輯應用中的一個關鍵技術,其需要將對象從圖片分割出來並估計其不透明蒙版。
  • 基於奇異值分解(SVD)的圖片壓縮實踐
    所以可以通過矩陣理論和矩陣算法對數字圖像進行分析和處理。本文通過對圖片進行SVD壓縮,對不同的參數下的壓縮效果進行對比。SVD概念可以參考:《統計學習方法》–奇異值分解(Singular Value Decomposition,SVD)2.
  • 性能不打折,內存佔用減少90%,Facebook提模型壓縮方法Quant-Noise
    機器之心報導機器之心編輯部對於動輒上百 M 大小的神經網絡來說,模型壓縮能夠減少它們的內存佔用、通信帶寬和計算複雜度等,以便更好地進行應用部署。最近,來自 Facebook AI 的研究者提出了一種新的模型量化壓縮技術 Quant-Noise,讓神經網絡在不降低性能的前提下,內存佔用減少 90% 以上。我們都知道,對於神經網絡來說,參數量越大、層數越多,就代表著輸出的結果越精細。當然,這也意味著許多性能優越的神經網絡體積會非常龐大。
  • 深度神經網絡,通過使用數學模型來處理圖像
    打開APP 深度神經網絡,通過使用數學模型來處理圖像 新經網 發表於 2020-12-16 10:22:58   隨著機器學習和其他形式的人工智慧越來越深入地融入社會,從自動櫃員機到網絡安全系統,其用途廣泛,UH哲學副教授卡梅倫·巴克納(Cameron Buckner)表示,了解由什麼導致的明顯故障的來源至關重要。   研究人員稱其為「對抗性例子」,是指當深度神經網絡系統遇到用於構建網絡的訓練輸入之外的信息時,會誤判圖像或其他數據。
  • 今日Paper | CausalML;隱式函數;慢動作視頻重建;交叉圖卷積網絡等
    對於CausalML包的使用用途,作者從三方面進行介紹,分別為 定位優化(Targeting Optimization)、因果影響分析(Causal Impact Analysis)以及模型的個性化(Personalization)。此外作者也對後續的研究提出了自己的觀點。總之,本文適合於剛入機器學習方向的同學學習研究。
  • 表徵圖數據絕不止圖神經網絡一種方法
    近年來,圖神經網絡掀起了將深度學習方法應用於圖數據分析的浪潮。不過其作為一門古老的認識世界的方法論,人們對於圖表徵技術的研究從很早以前就開始了。雖然現在深度神經網絡在物體識別、圖像分類和自然語言處理領域都取得了巨大的成功。然而,「設計出最優的神經網絡,學習並輸出任意的圖」仍然是一個熱門的研究課題。
  • 面對千萬級推薦,如何壓縮模型最高效?這是騰訊看點新框架
    在實際應用部署中,推薦領域的模型壓縮問題比較於 NLP 和 CV 更具挑戰性, 工業級推薦系統例如 YouTube 與抖音, 參數量是大型 NLP 及 CV 模型(如 BERT-Large, ResNet-101)參數量的上百倍,原因在於工業推薦系統中存在千萬乃至億級別以上的推薦項目。