5月29日人工智慧領域新增論文248篇,AI日讀精選其中39篇推薦給大家。這些論文主要來自NeurIPS,CVPR,ACL,ICLR,INTERSPEECH,SIGIR,CIKM,WSDM,Computational Linguistics,IEEE VL/HCC等會議與期刊。其中包含計算機視覺論文6篇[1-6],自然語言處理論文14篇[7-20],方法論論文3篇[25-27],神經網絡原理論文1篇[28],語音技術論文1篇[32],強化學習論文3篇[33-35],推薦系統論文2篇[36-37],醫療與健康論文1篇[38],應用論文1篇[39]。
首先來看計算機視覺論文:
- [1]提出了一個新的YOLO,它具有更好的性能,並擴展了實例分割,稱為
Poly-YOLO。Poly-YOLO以YOLOv3的原始思想為基礎,消除了它的兩個缺點:大量重寫的標籤和低效的錨分布。Poly-YOLO使用超柱(Hypercolumn)技術將輕量級SE-Darknet-53主幹的特徵進行聚合,使用階梯向上採樣,從而減少問題的出現,並生成具有高解析度的單尺寸輸出。
與YOLOv3相比,Poly-YOLO只有60%的可訓練參數,但是相對提高了40%的mAP。文章還提供了參數更少、輸出解析度更低的Poly-YOLO lite。它具有與YOLOv3相同的精度,但比YOLOv3小三倍,快兩倍,因此適合於嵌入式設備。最後,Poly-YOLO使用包圍多邊形來執行實例分割。該網絡在經過訓練後,可以檢測在極性網格上定義的與大小無關的多邊形。每個多邊形的頂點都有各自的置信度,因此Poly-YOLO生成具有不同數量頂點的多邊形。
自然語言處理方面:
- 最近的研究工作通過對大量文本進行預訓練,然後對特定任務進行微調,在許多自然語言處理任務和基準方面取得巨大收穫。這類策略儘管在結構上通常是與任務無關的(task-agnostic),但是仍需包含成千上萬個樣例的、該任務獨有的數據集用於微調。相比之下,人類通常只通過幾個示例或簡單指令就可以執行新的語言任務——當前的NLP系統很大程度上仍難以做到這點。[9]表明,
擴大語言模型可以極大提高其在任務無關、少次學習情況下的性能,有時這種調整甚至可以使模型與現有最佳方法取得相當的優異結果。具體而言,研究者訓練了
GPT-3(一種
具有1750億個參數的自回歸語言模型,比以前的任何非稀疏語言模型大10倍),並在少次學習設置(few-shot setting)中測試其性能。對所有任務,應用GPT-3無需進行任何梯度更新或微調,而僅通過與模型的文本交互指定任務和少次演示即可。GPT-3在許多NLP數據集上均具出色性能,包括翻譯、問答和完形填空、以及一些需要即時推理或領域自適應的任務,例如單詞解譯(unscrambling words),在句中使用新詞(using a novel word in a sentence),或進行3位數字運算(performing 3-digit arithmetic)。同時,研究者還明確了一些數據集,在其中即使如GPT-3去進行少次學習仍感到困難。另外還存在一些數據集,用於考察GPT-3在大型Web語料庫上進行訓練的相關方法論問題(methodological issues)。最後,研究者發現GPT-3可以生成新聞文章的樣本,人類評估人員很難將這種生成樣本與人類撰寫的文章區分開。研究者將討論這一發現以及GPT-3的廣泛社會影響。
- 在
開放域對話系統中,
確定每個用戶話語的主題(域)是所有後續語言理解和響應任務的關鍵步驟。特別是對於複雜的域,話語通常會尋路到負責該域的單個組件。因此,正確將用戶話語映射到正確域至關重要。為解決此問題,[10]介紹
ConCET:
並發實體感知會話主題分類器,其將實體類型信息與話語內容功能結合在一起。具體而言,ConCET利用實體信息來豐富發聲表示,將字符、單詞和實體類型的嵌入組合為單個表示。但是,對於具有數百萬個可用實體的豐富域,將需要海量的帶標籤訓練數據。為補充所提模型,研究者又提出一種簡單有效的方法來生成綜合訓練數據,以使用通常可用的知識庫生成其他標記話語來增加通常有限數量的標記訓練數據。首先,研究者在一個公開的人與人對話數據集Self-Dialogue上廣泛評估ConCET和所提訓練方法,以將所提方法與當前最佳方法進行校準;其次,研究者在與真實用戶的大型人機對話數據集上評估了ConCET,該數據集是Amazon Alexa Prize的一部分。實驗結果表明,ConCET在這兩個數據集上,與最新深度學習方法相比,顯著提高了主題分類性能約8-10%。研究者通過對系統性能的詳細分析來補充定量結果,該分析可用於進一步改進會話代理。
- 問答(QA)中最關鍵的挑戰之一是標記數據的稀缺性,因為獲取帶有人工標註的目標文本域的QA對非常昂貴。解決問題的一種方法是使用從問題上下文或大量非結構化文本(如Wikipedia)中自動生成的QA對。[7]提出一種
分層條件變分自編碼器(Hierarchical Conditional Variational Autoencoder,HCVAE),用於
在給定非結構化文本作為上下文的情況下生成QA對,同時
最大化生成QA對之間的互信息以確保它們的一致性。通過僅使用生成的QA對(基於QA評估)或通過使用生成的和人為標記的對(半監督學習)評估QA模型(基於BERT的性能),研究者在幾個基準數據集上驗證了所提的信息最大化層級變分自編碼器(Info-HCVAE)。結果表明,即使僅使用部分數據訓練,該模型仍在兩項任務的所有基線上均獲得令人印象深刻的性能提升。
-
變分神經機器翻譯(Variational Neural Machine Translation,VNMT)是一個有吸引力的框架,可用於對目標翻譯的生成進行建模,結果不僅取決於源語句,且取決於某些潛在的隨機變量。潛在變量建模可能會引入有用的統計依存關係,從而提高翻譯準確性。但是學習帶有信息的潛在變量並不簡單,因為潛在空間可能過大,且在訓練時許多翻譯模型都容易忽略潛在編碼(latent codes)。現有研究對潛在代碼的分布強加了假設,並限制了NMT架構的選擇。[11]提議
將VNMT框架應用於當前最佳Transformer,並基於歸一化流引入一個更靈活的近似後驗。研究者證明所提方法在域內和域外條件下都具有有效性,且明顯優於強基準。
-
語音識別(ASR)和
機器翻譯(MT)的端到端模型,相比於傳統的單獨的ASR和MT的級聯模型,結合的更加緊密,具有更簡單的模型體系結構和減少錯誤傳播的潛力。他們的表現往往被認為是優越的,雖然在許多情況下還不是這樣。[8]
比較了高、中、低資源條件下的級聯和端到端模型,並表明級聯模型仍然是更強的基線。此外,文章還介紹了兩種將手機特徵納入ST模型的方法。文章展示了這些特性改進了這兩個架構,縮小了端到端模型和級聯模型之間的差距,並且比以前的學術工作表現更好。
除此之外,本期還有如下看點:
-
IMDb.com是依靠用戶規範維持的
電影評分門戶網站,也是訪問量最大的門戶之一,這為創建巨大的資料庫提供了機會。分析與電影有關或由用戶提供的網際網路電影資料庫IMDb上的信息,將有助於揭示每部電影成功途徑的決定性因素。基於此,[21]使用統計方法和機器學習模型為以後的
分析創建了一個大規模數據集,這是針對前述目標的一系列論文中的第一篇,其中簡要介紹了創建的數據集和數據分析演示。
-
INTERSPEECH 2020深度噪聲抑制(Deep Noise Suppression,DNS)
挑戰賽旨在促進實時單通道語音增強中的協作研究,目標是最大程度增強語音的主觀(感知)質量。評估噪聲抑制方法的一種典型策略是在通過劃分原始數據集而獲得的測試集上使用客觀指標。儘管綜合測試集的性能很好,但實際記錄的模型性能通常會大幅降低。此外,大多數常規客觀指標與主觀測試之間的關聯度不高,且實驗室主觀測試無法針對大型測試集進行擴展。在該競賽中,[23]開源了一個
大型乾淨語音和噪聲語料庫,用於訓練噪聲抑制模型和具有代表性的測試集,以適應由合成和真實錄音組成的真實場景。研究者還開放了基於ITU-T P.808的在線主觀測試框架,供研究人員可靠測試其研發框架。研究者在盲測裝置上使用P.808評估結果,並討論了挑戰的結果和主要經驗教訓。
- 近年來,
少次學習(Few-Shot learning,FSL)吸引了越來越多的關注,但由於的確很難從幾個樣例裡進行概括,因而該任務仍具有挑戰。[25]提出一種
自適應邊際原理(adaptive margin principle),以
提高基於度量的元學習方法對少次學習問題的泛化能力。具體而言,首先研發與類相關的加法邊際損失,其中考慮每對類之間的語義相似性以將特徵嵌入空間中的樣本與相似類分開。其次,將語義上下文納入樣本訓練任務中的所有類別間,並開發與任務相關的額外邊際損失(additive margin loss),以更好區分不同類的樣本。所提方法可以輕鬆擴展到更現實的廣義FSL場景中。大量實驗表明,該方法在標準FSL和廣義FSL設置下均可提高當前基於度量的元學習方法的性能。
- 統計信號處理和機器學習中最重要的挑戰之一是如何獲得一個生成模型,它可以生成大規模數據分布的樣本,例如圖像和語音。
生成對抗網絡(GAN)是解決這一問題的有效方法。GANs提供了一種適當的方法來學習深層表示,而不需要使用大量的標記訓練數據。該方法無需對概率密度函數(PDF)進行精確建模就能生成大量數據,引起了計算機視覺領域眾多研究者的關注。在GANs中,生成模型是通過同時訓練生成器和鑑別器網絡的競爭過程來估計的。生成器學習生成可信的數據,鑑別器學習將生成器生成的虛假數據與真實數據樣本區分開來。鑑於近年來GANs的快速發展及其在各個領域的應用,有必要對這些網絡進行準確的研究。[29]在介紹GAN的主要概念和理論的基礎上,
對兩種新的深層生成模型進行了比較,並對文獻中使用的評價指標和GANs面臨的挑戰進行了說明。
- [30]
調查了146篇分析自然語言處理(NLP)系統中關於「偏移」(bias)的論文,發現儘管分析「偏移」是一個固有的規範過程,但其動機常常是模糊、不一致和缺乏規範性推理的。研究者進一步發現,這些論文提出的用於測量或緩解「偏移」的定量技術與其動機很不匹配,且與NLP之外的相關文獻不符。基於這些發現,研究者力圖通過提出三個建議來指導NLP系統相關工作未來對「偏移」的分析方法。這些提議基於對語言和社會層級之間關係的更多認識,鼓勵研究人員和從業人員闡明其對「偏移」的概念化,即,哪種系統行為有害、以何種方式、對誰、為什麼,以及這些陳述所依據的規範性推理。同時圍繞受NLP系統影響的社區成員的生活經驗進行集中研究,並審視和重新構想技術人員與此類社區之間的權力關係。
-
「非平穩性」是
協作多智能體強化學習(MARL)中一個基本的棘手問題:由於其他智能體在學習,每個智能體必須重新學習關於其他智能體策略的信息,導致信息在智能體之間形成了「環」,因此收斂速度變慢。MAILP模型(Terry et al., 2020)是一種新的多agent學習過程中的信息傳遞模型。[33]使用MAILP模型來表明,
增加訓練的集中化可以緩解由於非平穩性而導致的收斂速度減慢。最集中化的學習策略是參數共享,這是一種不常用的MARL方法,專門用於具有同構代理的環境。文章在Gupta等人(2017)的MARL基準集上實驗複製了增加學習集中化導致更好性能的結果。文章在文獻中首次將參數共享進一步應用於8種「更現代」的單代理深度強化學習方法。基於此,文章在一組MARL基準上獲得了最好的記錄性能,並且與現有的參數共享方法相比,文章提出的方法在少至7%的時間內獲得了高達720%的平均回報。
最後,本期還包含2個新構造的數據集[21-22],2個新提出的任務[23-24],3篇綜述[29-31],以及其他技術。
計算機視覺Computer Vision[1]Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3Petr Hurtik, Vojtech Molek, Jan Hula, Marek Vajgl, Pavel Vlasanek, Tomas Nejezchleba摘 要:
原 文:http://arxiv.org/pdf/2005.13243v1
[2]P2B: Point-to-Box Network for 3D Object Tracking in Point CloudsHaozhe Qi, Chen Feng, Zhiguo Cao, Feng Zhao, Yang Xiao摘 要:
原 文:http://arxiv.org/pdf/2005.13888v1
資 源:github.com/HaozheQi/P2B
[3]Improve bone age assessment by learning from anatomical local regionsDong Wang, Kexin Zhang, Jia Ding, Liwei Wang摘 要:
原 文:http://arxiv.org/pdf/2005.13452v1
[4]L^2UWE: A Framework for the Efficient Enhancement of Low-Light Underwater Images Using Local Contrast and Multi-Scale FusionTunai Porto Marques, Alexandra Branzan Albu摘 要:
原 文:http://arxiv.org/pdf/2005.13736v1
[5]Deep Learning for Automatic Pneumonia DetectionTatiana Gabruseva, Dmytro Poplavskiy, Alexandr A. Kalinin摘 要:
原 文:http://arxiv.org/pdf/2005.13899v1
資 源:github.com/tatigabru/kaggle-rsna, github.com/yhenon/pytorch-retinanet
[6]Network Fusion for Content Creation with Conditional INNsRobin Rombach, Patrick Esser, Björn Ommer摘 要:
原 文:http://arxiv.org/pdf/2005.13580v1
自然語言處理Natural Language Processing[7]Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEsDong Bok Lee, Seanie Lee, Woo Tae Jeong, Donghwan Kim, Sung Ju Hwang摘 要:
原 文:http://arxiv.org/pdf/2005.13837v1
資 源:github.com/seanie12/Info-HCVAE
[8]Phone Features Improve Speech TranslationElizabeth Salesky, Alan W Black摘 要:
原 文:http://arxiv.org/pdf/2005.13681v1
[9]Language Models are Few-Shot LearnersTom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei摘 要:
原 文:http://arxiv.org/pdf/2005.14165v1
資 源:github.com/openai/gpt-3
[10]ConCET: Entity-Aware Topic Classification for Open-Domain Conversational AgentsAli Ahmadvand, Harshita Sahijwani, Jason Ingyu Choi, Eugene Agichtein摘 要:
原 文:http://arxiv.org/pdf/2005.13798v1
資 源:github.com/jfainberg/
self_dialogue_corpus,
github.com/emory-irlab/ConCET,
github.com/zonetrooper32/VDCNN
[11]Variational Neural Machine Translation with Normalizing FlowsHendra Setiawan, Matthias Sperber, Udhay Nallasamy, Matthias Paulik摘 要:
原 文:http://arxiv.org/pdf/2005.13978v1
[12]HAT: Hardware-Aware Transformers for Efficient Natural Language ProcessingHanrui Wang, Zhanghao Wu, Zhijian Liu, Han Cai, Ligeng Zhu, Chuang Gan, Song Han摘 要:
原 文:http://arxiv.org/pdf/2005.14187v1
資 源:github.com/moses-smt/mosesdecoder
[13]Neural Temporal Opinion Modelling for Opinion Prediction on TwitterLixing Zhu, Yulan He, Deyu Zhou摘 要:
原 文:http://arxiv.org/pdf/2005.13486v1
[14]Contextual Dialogue Act Classification for Open-Domain Conversational AgentsAli Ahmadvand, Jason Ingyu Choi, Eugene Agichtein摘 要:
原 文:http://arxiv.org/pdf/2005.13804v1
資 源:github.com/emory-irlab/CDAC, github.com/cgpotts/swda
[15]User Intent Inference for Web Search and Conversational AgentsAli Ahmadvand摘 要:
原 文:http://arxiv.org/pdf/2005.13808v1
[16]Joint Modelling of Emotion and Abusive Language DetectionSanthosh Rajamanickam, Pushkar Mishra, Helen Yannakoudakis, Ekaterina Shutova摘 要:
原 文:http://arxiv.org/pdf/2005.14028v1
[17]Attention in Natural Language ProcessingAndrea Galassi, Marco Lippi, Paolo Torroni摘 要:
原 文:http://arxiv.org/pdf/1902.02181v2
[18]Language Representation Models for Fine-Grained Sentiment ClassificationBrian Cheang, Bailey Wei, David Kogan, Howey Qiu, Masud Ahmed摘 要:
原 文:http://arxiv.org/pdf/2005.13619v1
[19]Would you Like to Talk about Sports Now? Towards Contextual Topic Suggestion for Open-Domain Conversational AgentsAli Ahmadvand, Harshita Sahijwani, Eugene Agichtein摘 要:
原 文:http://arxiv.org/pdf/2005.13803v1
[20]Good Counterfactuals and Where to Find Them: A Case-Based Technique for Generating Counterfactuals for Explainable AI (XAI)Mark T. Keane, Barry Smyth摘 要:
原 文:http://arxiv.org/pdf/2005.13997v1
數據集Dataset[21]IMDb data from two generations (1979 to 2019). Part one: DatasetM. Bahraminasr, A. Vafaei Sadr摘 要:
原 文:http://arxiv.org/pdf/2005.14147v1
[22]A Corpus for Large-Scale Phonetic TypologyElizabeth Salesky, Eleanor Chodroff, Tiago Pimentel, Matthew Wiesner, Ryan Cotterell, Alan W Black, Jason Eisner摘 要:
原 文:http://arxiv.org/pdf/2005.13962v1
任務與挑戰Task & Challenge[23]The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Testing Framework, and Challenge ResultsChandan K. A. Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, Puneet Rana, Sriram Srinivasan, Johannes Gehrke摘 要:
原 文:http://arxiv.org/pdf/2005.13981v1
資 源:github.com/microsoft/P.808, github.com/microsoft/MS-SNSD, github.com/microsoft/DNS-Challenge, github.com/microsoft/onnxruntime
[24]The SIGMORPHON 2020 Shared Task on Unsupervised Morphological Paradigm CompletionKatharina Kann, Arya McCarthy, Garrett Nicolai, Mans Hulden摘 要:
原 文:http://arxiv.org/pdf/2005.13756v1
資 源:github.com/sigmorphon/2020
方法論Methodology[25]Boosting Few-Shot Learning With Adaptive Margin LossAoxue Li, Weiran Huang, Xu Lan, Jiashi Feng, Zhenguo Li, Liwei Wang摘 要:
原 文:http://arxiv.org/pdf/2005.13826v1
[26]ODEN: A Framework to Solve Ordinary Differential Equations using Artificial Neural NetworksLiam L. H. Lau, Denis Werth摘 要:
原 文:http://arxiv.org/pdf/2005.14090v1
資 源:github.com/deniswerth/ODEN
[27]Few-Shot Open-Set Recognition using Meta-LearningBo Liu, Hao Kang, Haoxiang Li, Gang Hua, Nuno Vasconcelos摘 要:
原 文:http://arxiv.org/pdf/2005.13713v1
神經網絡原理Neural Network Theory[28]QEBA: Query-Efficient Boundary-Based Blackbox AttackHuichen Li, Xiaojun Xu, Xiaolu Zhang, Shuang Yang, Bo Li摘 要:
原 文:http://arxiv.org/pdf/2005.14137v1
資 源:github.com/AI-secure/QEBA
綜述Survey[29]Generative Adversarial Networks (GANs): An Overview of Theoretical Model, Evaluation Metrics, and Recent DevelopmentsPegah Salehi, Abdolah Chalechale, Maryam Taghizadeh摘 要:
原 文:http://arxiv.org/pdf/2005.13178v1
[30]Language (Technology) is Power: A Critical Survey of "Bias" in NLPSu Lin Blodgett, Solon Barocas, Hal Daumé III, Hanna Wallach摘 要:
原 文:http://arxiv.org/pdf/2005.14050v1
[31]Adversarial Attacks and Defense on Textual Data: A ReviewAminul Huq, Mst. Tasnim Pervin摘 要:
原 文:http://arxiv.org/pdf/2005.14108v1
語音技術Audio & Speech[32]Subword RNNLM Approximations for Out-Of-Vocabulary Keyword SearchMittul Singh, Sami Virpioja, Peter Smit, Mikko Kurimo摘 要:
原 文:http://arxiv.org/pdf/2005.13827v1
強化學習Reinforcement Learning[33]Parameter Sharing is Surprisingly Useful for Multi-Agent Deep Reinforcement LearningJustin K Terry, Nathaniel Grammel, Ananth Hari, Luis Santos, Benjamin Black, Dinesh Manocha摘 要:
原 文:http://arxiv.org/pdf/2005.13625v1
資 源:github.com/openai/baselines
[34]ALBA : Reinforcement Learning for Video Object SegmentationShreyank N Gowda, Panagiotis Eustratiadis, Timothy Hospedales, Laura Sevilla-Lara摘 要:
原 文:http://arxiv.org/pdf/2005.13039v1
[35]Deep Reinforcement learning for real autonomous mobile robot navigation in indoor environmentsHartmut Surmann, Christian Jestel, Robin Marchel, Franziska Musberg, Houssem Elhadj, Mahbube Ardani摘 要:
原 文:http://arxiv.org/pdf/2005.13857v1
推薦系統Recommendation System[36]User Behavior Retrieval for Click-Through Rate PredictionJiarui Qin, Weinan Zhang, Xin Wu, Jiarui Jin, Yuchen Fang, Yong Yu摘 要:
原 文:http://arxiv.org/pdf/2005.14171v1
資 源:github.com/qinjr/UBR4CTR
[37]Operationalizing the Legal Principle of Data Minimization for PersonalizationAsia J. Biega, Peter Potash, Hal Daumé III, Fernando Diaz, Michèle Finck摘 要:
原 文:http://arxiv.org/pdf/2005.13718v1
醫療與健康Medical Science & Health Care[38]CNN-based Approach for Cervical Cancer Classification in Whole-Slide Histopathology ImagesFerdaous Idlahcen, Mohammed Majid Himmi, Abdelhak Mahmoudi摘 要:
原 文:http://arxiv.org/pdf/2005.13924v1
應用Application[39]Code Duplication and Reuse in Jupyter NotebooksAndreas Koenzen, Neil Ernst, Margaret-Anne Storey摘 要:
原 文:http://arxiv.org/pdf/2005.13709v1
資 源:github.com/mkery/Verdant, github.com/nteract/papermill