今日論文|GPT-3:少次學習演化方向,1750億參數可以抵達的地方&INTERSPEECH噪聲抑制賽&變分問答/翻譯&MORE

2021-02-19 AI日讀
5月29日人工智慧領域新增論文248篇,AI日讀精選其中39篇推薦給大家。這些論文主要來自NeurIPS,CVPR,ACL,ICLR,INTERSPEECH,SIGIR,CIKM,WSDM,Computational Linguistics,IEEE VL/HCC等會議與期刊。其中包含計算機視覺論文6篇[1-6],自然語言處理論文14篇[7-20],方法論論文3篇[25-27],神經網絡原理論文1篇[28],語音技術論文1篇[32],強化學習論文3篇[33-35],推薦系統論文2篇[36-37],醫療與健康論文1篇[38],應用論文1篇[39]。


首先來看計算機視覺論文:
- [1]提出了一個新的YOLO,它具有更好的性能,並擴展了實例分割,稱為Poly-YOLO。Poly-YOLO以YOLOv3的原始思想為基礎,消除了它的兩個缺點:大量重寫的標籤和低效的錨分布。Poly-YOLO使用超柱(Hypercolumn)技術將輕量級SE-Darknet-53主幹的特徵進行聚合,使用階梯向上採樣,從而減少問題的出現,並生成具有高解析度的單尺寸輸出。與YOLOv3相比,Poly-YOLO只有60%的可訓練參數,但是相對提高了40%的mAP。文章還提供了參數更少、輸出解析度更低的Poly-YOLO lite。它具有與YOLOv3相同的精度,但比YOLOv3小三倍,快兩倍,因此適合於嵌入式設備。最後,Poly-YOLO使用包圍多邊形來執行實例分割。該網絡在經過訓練後,可以檢測在極性網格上定義的與大小無關的多邊形。每個多邊形的頂點都有各自的置信度,因此Poly-YOLO生成具有不同數量頂點的多邊形。


自然語言處理方面:
- 最近的研究工作通過對大量文本進行預訓練,然後對特定任務進行微調,在許多自然語言處理任務和基準方面取得巨大收穫。這類策略儘管在結構上通常是與任務無關的(task-agnostic),但是仍需包含成千上萬個樣例的、該任務獨有的數據集用於微調。相比之下,人類通常只通過幾個示例或簡單指令就可以執行新的語言任務——當前的NLP系統很大程度上仍難以做到這點。[9]表明,擴大語言模型可以極大提高其在任務無關、少次學習情況下的性能,有時這種調整甚至可以使模型與現有最佳方法取得相當的優異結果。具體而言,研究者訓練了GPT-3(一種具有1750億個參數的自回歸語言模型,比以前的任何非稀疏語言模型大10倍),並在少次學習設置(few-shot setting)中測試其性能。對所有任務,應用GPT-3無需進行任何梯度更新或微調,而僅通過與模型的文本交互指定任務和少次演示即可。GPT-3在許多NLP數據集上均具出色性能,包括翻譯、問答和完形填空、以及一些需要即時推理或領域自適應的任務,例如單詞解譯(unscrambling words),在句中使用新詞(using a novel word in a sentence),或進行3位數字運算(performing 3-digit arithmetic)。同時,研究者還明確了一些數據集,在其中即使如GPT-3去進行少次學習仍感到困難。另外還存在一些數據集,用於考察GPT-3在大型Web語料庫上進行訓練的相關方法論問題(methodological issues)。最後,研究者發現GPT-3可以生成新聞文章的樣本,人類評估人員很難將這種生成樣本與人類撰寫的文章區分開。研究者將討論這一發現以及GPT-3的廣泛社會影響。

- 在開放域對話系統中,確定每個用戶話語的主題(域)是所有後續語言理解和響應任務的關鍵步驟。特別是對於複雜的域,話語通常會尋路到負責該域的單個組件。因此,正確將用戶話語映射到正確域至關重要。為解決此問題,[10]介紹ConCET並發實體感知會話主題分類器,其將實體類型信息與話語內容功能結合在一起。具體而言,ConCET利用實體信息來豐富發聲表示,將字符、單詞和實體類型的嵌入組合為單個表示。但是,對於具有數百萬個可用實體的豐富域,將需要海量的帶標籤訓練數據。為補充所提模型,研究者又提出一種簡單有效的方法來生成綜合訓練數據,以使用通常可用的知識庫生成其他標記話語來增加通常有限數量的標記訓練數據。首先,研究者在一個公開的人與人對話數據集Self-Dialogue上廣泛評估ConCET和所提訓練方法,以將所提方法與當前最佳方法進行校準;其次,研究者在與真實用戶的大型人機對話數據集上評估了ConCET,該數據集是Amazon Alexa Prize的一部分。實驗結果表明,ConCET在這兩個數據集上,與最新深度學習方法相比,顯著提高了主題分類性能約8-10%。研究者通過對系統性能的詳細分析來補充定量結果,該分析可用於進一步改進會話代理。

- 問答(QA)中最關鍵的挑戰之一是標記數據的稀缺性,因為獲取帶有人工標註的目標文本域的QA對非常昂貴。解決問題的一種方法是使用從問題上下文或大量非結構化文本(如Wikipedia)中自動生成的QA對。[7]提出一種分層條件變分自編碼器(Hierarchical Conditional Variational Autoencoder,HCVAE),用於在給定非結構化文本作為上下文的情況下生成QA對,同時最大化生成QA對之間的互信息以確保它們的一致性。通過僅使用生成的QA對(基於QA評估)或通過使用生成的和人為標記的對(半監督學習)評估QA模型(基於BERT的性能),研究者在幾個基準數據集上驗證了所提的信息最大化層級變分自編碼器(Info-HCVAE)。結果表明,即使僅使用部分數據訓練,該模型仍在兩項任務的所有基線上均獲得令人印象深刻的性能提升。

- 變分神經機器翻譯(Variational Neural Machine Translation,VNMT)是一個有吸引力的框架,可用於對目標翻譯的生成進行建模,結果不僅取決於源語句,且取決於某些潛在的隨機變量。潛在變量建模可能會引入有用的統計依存關係,從而提高翻譯準確性。但是學習帶有信息的潛在變量並不簡單,因為潛在空間可能過大,且在訓練時許多翻譯模型都容易忽略潛在編碼(latent codes)。現有研究對潛在代碼的分布強加了假設,並限制了NMT架構的選擇。[11]提議將VNMT框架應用於當前最佳Transformer,並基於歸一化流引入一個更靈活的近似後驗。研究者證明所提方法在域內和域外條件下都具有有效性,且明顯優於強基準。

- 語音識別(ASR)和機器翻譯(MT)的端到端模型,相比於傳統的單獨的ASR和MT的級聯模型,結合的更加緊密,具有更簡單的模型體系結構和減少錯誤傳播的潛力。他們的表現往往被認為是優越的,雖然在許多情況下還不是這樣。[8]比較了高、中、低資源條件下的級聯和端到端模型,並表明級聯模型仍然是更強的基線。此外,文章還介紹了兩種將手機特徵納入ST模型的方法。文章展示了這些特性改進了這兩個架構,縮小了端到端模型和級聯模型之間的差距,並且比以前的學術工作表現更好。


除此之外,本期還有如下看點:
- IMDb.com是依靠用戶規範維持的電影評分門戶網站,也是訪問量最大的門戶之一,這為創建巨大的資料庫提供了機會。分析與電影有關或由用戶提供的網際網路電影資料庫IMDb上的信息,將有助於揭示每部電影成功途徑的決定性因素。基於此,[21]使用統計方法和機器學習模型為以後的分析創建了一個大規模數據集,這是針對前述目標的一系列論文中的第一篇,其中簡要介紹了創建的數據集和數據分析演示。

- INTERSPEECH 2020深度噪聲抑制(Deep Noise Suppression,DNS)挑戰賽旨在促進實時單通道語音增強中的協作研究,目標是最大程度增強語音的主觀(感知)質量。評估噪聲抑制方法的一種典型策略是在通過劃分原始數據集而獲得的測試集上使用客觀指標。儘管綜合測試集的性能很好,但實際記錄的模型性能通常會大幅降低。此外,大多數常規客觀指標與主觀測試之間的關聯度不高,且實驗室主觀測試無法針對大型測試集進行擴展。在該競賽中,[23]開源了一個大型乾淨語音和噪聲語料庫,用於訓練噪聲抑制模型和具有代表性的測試集,以適應由合成和真實錄音組成的真實場景。研究者還開放了基於ITU-T P.808的在線主觀測試框架,供研究人員可靠測試其研發框架。研究者在盲測裝置上使用P.808評估結果,並討論了挑戰的結果和主要經驗教訓。

- 近年來,少次學習(Few-Shot learning,FSL)吸引了越來越多的關注,但由於的確很難從幾個樣例裡進行概括,因而該任務仍具有挑戰。[25]提出一種自適應邊際原理(adaptive margin principle),以提高基於度量的元學習方法對少次學習問題的泛化能力。具體而言,首先研發與類相關的加法邊際損失,其中考慮每對類之間的語義相似性以將特徵嵌入空間中的樣本與相似類分開。其次,將語義上下文納入樣本訓練任務中的所有類別間,並開發與任務相關的額外邊際損失(additive margin loss),以更好區分不同類的樣本。所提方法可以輕鬆擴展到更現實的廣義FSL場景中。大量實驗表明,該方法在標準FSL和廣義FSL設置下均可提高當前基於度量的元學習方法的性能。

- 統計信號處理和機器學習中最重要的挑戰之一是如何獲得一個生成模型,它可以生成大規模數據分布的樣本,例如圖像和語音。生成對抗網絡(GAN)是解決這一問題的有效方法。GANs提供了一種適當的方法來學習深層表示,而不需要使用大量的標記訓練數據。該方法無需對概率密度函數(PDF)進行精確建模就能生成大量數據,引起了計算機視覺領域眾多研究者的關注。在GANs中,生成模型是通過同時訓練生成器和鑑別器網絡的競爭過程來估計的。生成器學習生成可信的數據,鑑別器學習將生成器生成的虛假數據與真實數據樣本區分開來。鑑於近年來GANs的快速發展及其在各個領域的應用,有必要對這些網絡進行準確的研究。[29]在介紹GAN的主要概念和理論的基礎上,對兩種新的深層生成模型進行了比較,並對文獻中使用的評價指標和GANs面臨的挑戰進行了說明。

- [30]調查了146篇分析自然語言處理(NLP)系統中關於「偏移」(bias)的論文,發現儘管分析「偏移」是一個固有的規範過程,但其動機常常是模糊、不一致和缺乏規範性推理的。研究者進一步發現,這些論文提出的用於測量或緩解「偏移」的定量技術與其動機很不匹配,且與NLP之外的相關文獻不符。基於這些發現,研究者力圖通過提出三個建議來指導NLP系統相關工作未來對「偏移」的分析方法。這些提議基於對語言和社會層級之間關係的更多認識,鼓勵研究人員和從業人員闡明其對「偏移」的概念化,即,哪種系統行為有害、以何種方式、對誰、為什麼,以及這些陳述所依據的規範性推理。同時圍繞受NLP系統影響的社區成員的生活經驗進行集中研究,並審視和重新構想技術人員與此類社區之間的權力關係。

- 「非平穩性」協作多智能體強化學習(MARL)中一個基本的棘手問題:由於其他智能體在學習,每個智能體必須重新學習關於其他智能體策略的信息,導致信息在智能體之間形成了「環」,因此收斂速度變慢。MAILP模型(Terry et al., 2020)是一種新的多agent學習過程中的信息傳遞模型。[33]使用MAILP模型來表明,增加訓練的集中化可以緩解由於非平穩性而導致的收斂速度減慢。最集中化的學習策略是參數共享,這是一種不常用的MARL方法,專門用於具有同構代理的環境。文章在Gupta等人(2017)的MARL基準集上實驗複製了增加學習集中化導致更好性能的結果。文章在文獻中首次將參數共享進一步應用於8種「更現代」的單代理深度強化學習方法。基於此,文章在一組MARL基準上獲得了最好的記錄性能,並且與現有的參數共享方法相比,文章提出的方法在少至7%的時間內獲得了高達720%的平均回報。


最後,本期還包含2個新構造的數據集[21-22],2個新提出的任務[23-24],3篇綜述[29-31],以及其他技術。





計算機視覺Computer Vision[1]Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3Petr Hurtik, Vojtech Molek, Jan Hula, Marek Vajgl, Pavel Vlasanek, Tomas Nejezchleba摘 要:

原 文:http://arxiv.org/pdf/2005.13243v1



[2]P2B: Point-to-Box Network for 3D Object Tracking in Point CloudsHaozhe Qi, Chen Feng, Zhiguo Cao, Feng Zhao, Yang Xiao摘 要:

原 文:http://arxiv.org/pdf/2005.13888v1

資 源:github.com/HaozheQi/P2B



[3]Improve bone age assessment by learning from anatomical local regionsDong Wang, Kexin Zhang, Jia Ding, Liwei Wang摘 要:

原 文:http://arxiv.org/pdf/2005.13452v1



[4]L^2UWE: A Framework for the Efficient Enhancement of Low-Light Underwater Images Using Local Contrast and Multi-Scale FusionTunai Porto Marques, Alexandra Branzan Albu摘 要:

原 文:http://arxiv.org/pdf/2005.13736v1



[5]Deep Learning for Automatic Pneumonia DetectionTatiana Gabruseva, Dmytro Poplavskiy, Alexandr A. Kalinin摘 要:

原 文:http://arxiv.org/pdf/2005.13899v1

資 源:github.com/tatigabru/kaggle-rsna, github.com/yhenon/pytorch-retinanet



[6]Network Fusion for Content Creation with Conditional INNsRobin Rombach, Patrick Esser, Björn Ommer摘 要:

原 文:http://arxiv.org/pdf/2005.13580v1



自然語言處理Natural Language Processing[7]Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEsDong Bok Lee, Seanie Lee, Woo Tae Jeong, Donghwan Kim, Sung Ju Hwang摘 要:

原 文:http://arxiv.org/pdf/2005.13837v1

資 源:github.com/seanie12/Info-HCVAE



[8]Phone Features Improve Speech TranslationElizabeth Salesky, Alan W Black摘 要:

原 文:http://arxiv.org/pdf/2005.13681v1



[9]Language Models are Few-Shot LearnersTom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei摘 要:

原 文:http://arxiv.org/pdf/2005.14165v1

資 源:github.com/openai/gpt-3



[10]ConCET: Entity-Aware Topic Classification for Open-Domain Conversational AgentsAli Ahmadvand, Harshita Sahijwani, Jason Ingyu Choi, Eugene Agichtein摘 要:

原 文:http://arxiv.org/pdf/2005.13798v1

資 源:github.com/jfainberg/

self_dialogue_corpus, 

github.com/emory-irlab/ConCET, 

github.com/zonetrooper32/VDCNN



[11]Variational Neural Machine Translation with Normalizing FlowsHendra Setiawan, Matthias Sperber, Udhay Nallasamy, Matthias Paulik摘 要:

原 文:http://arxiv.org/pdf/2005.13978v1



[12]HAT: Hardware-Aware Transformers for Efficient Natural Language ProcessingHanrui Wang, Zhanghao Wu, Zhijian Liu, Han Cai, Ligeng Zhu, Chuang Gan, Song Han摘 要:

原 文:http://arxiv.org/pdf/2005.14187v1

資 源:github.com/moses-smt/mosesdecoder



[13]Neural Temporal Opinion Modelling for Opinion Prediction on TwitterLixing Zhu, Yulan He, Deyu Zhou摘 要:

原 文:http://arxiv.org/pdf/2005.13486v1



[14]Contextual Dialogue Act Classification for Open-Domain Conversational AgentsAli Ahmadvand, Jason Ingyu Choi, Eugene Agichtein摘 要:

原 文:http://arxiv.org/pdf/2005.13804v1

資 源:github.com/emory-irlab/CDAC, github.com/cgpotts/swda



[15]User Intent Inference for Web Search and Conversational AgentsAli Ahmadvand摘 要:

原 文:http://arxiv.org/pdf/2005.13808v1



[16]Joint Modelling of Emotion and Abusive Language DetectionSanthosh Rajamanickam, Pushkar Mishra, Helen Yannakoudakis, Ekaterina Shutova摘 要:

原 文:http://arxiv.org/pdf/2005.14028v1



[17]Attention in Natural Language ProcessingAndrea Galassi, Marco Lippi, Paolo Torroni摘 要:

原 文:http://arxiv.org/pdf/1902.02181v2



[18]Language Representation Models for Fine-Grained Sentiment ClassificationBrian Cheang, Bailey Wei, David Kogan, Howey Qiu, Masud Ahmed摘 要:

原 文:http://arxiv.org/pdf/2005.13619v1



[19]Would you Like to Talk about Sports Now? Towards Contextual Topic Suggestion for Open-Domain Conversational AgentsAli Ahmadvand, Harshita Sahijwani, Eugene Agichtein摘 要:

原 文:http://arxiv.org/pdf/2005.13803v1



[20]Good Counterfactuals and Where to Find Them: A Case-Based Technique for Generating Counterfactuals for Explainable AI (XAI)Mark T. Keane, Barry Smyth摘 要:

原 文:http://arxiv.org/pdf/2005.13997v1



數據集Dataset[21]IMDb data from two generations (1979 to 2019). Part one: DatasetM. Bahraminasr, A. Vafaei Sadr摘 要:

原 文:http://arxiv.org/pdf/2005.14147v1



[22]A Corpus for Large-Scale Phonetic TypologyElizabeth Salesky, Eleanor Chodroff, Tiago Pimentel, Matthew Wiesner, Ryan Cotterell, Alan W Black, Jason Eisner摘 要:

原 文:http://arxiv.org/pdf/2005.13962v1



任務與挑戰Task & Challenge[23]The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Testing Framework, and Challenge ResultsChandan K. A. Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, Puneet Rana, Sriram Srinivasan, Johannes Gehrke摘 要:

原 文:http://arxiv.org/pdf/2005.13981v1

資 源:github.com/microsoft/P.808, github.com/microsoft/MS-SNSD, github.com/microsoft/DNS-Challenge, github.com/microsoft/onnxruntime



[24]The SIGMORPHON 2020 Shared Task on Unsupervised Morphological Paradigm CompletionKatharina Kann, Arya McCarthy, Garrett Nicolai, Mans Hulden摘 要:

原 文:http://arxiv.org/pdf/2005.13756v1

資 源:github.com/sigmorphon/2020



方法論Methodology[25]Boosting Few-Shot Learning With Adaptive Margin LossAoxue Li, Weiran Huang, Xu Lan, Jiashi Feng, Zhenguo Li, Liwei Wang摘 要:

原 文:http://arxiv.org/pdf/2005.13826v1



[26]ODEN: A Framework to Solve Ordinary Differential Equations using Artificial Neural NetworksLiam L. H. Lau, Denis Werth摘 要:

原 文:http://arxiv.org/pdf/2005.14090v1

資 源:github.com/deniswerth/ODEN



[27]Few-Shot Open-Set Recognition using Meta-LearningBo Liu, Hao Kang, Haoxiang Li, Gang Hua, Nuno Vasconcelos摘 要:

原 文:http://arxiv.org/pdf/2005.13713v1



神經網絡原理Neural Network Theory[28]QEBA: Query-Efficient Boundary-Based Blackbox AttackHuichen Li, Xiaojun Xu, Xiaolu Zhang, Shuang Yang, Bo Li摘 要:

原 文:http://arxiv.org/pdf/2005.14137v1

資 源:github.com/AI-secure/QEBA



綜述Survey[29]Generative Adversarial Networks (GANs): An Overview of Theoretical Model, Evaluation Metrics, and Recent DevelopmentsPegah Salehi, Abdolah Chalechale, Maryam Taghizadeh摘 要:

原 文:http://arxiv.org/pdf/2005.13178v1



[30]Language (Technology) is Power: A Critical Survey of "Bias" in NLPSu Lin Blodgett, Solon Barocas, Hal Daumé III, Hanna Wallach摘 要:

原 文:http://arxiv.org/pdf/2005.14050v1



[31]Adversarial Attacks and Defense on Textual Data: A ReviewAminul Huq, Mst. Tasnim Pervin摘 要:

原 文:http://arxiv.org/pdf/2005.14108v1



語音技術Audio & Speech[32]Subword RNNLM Approximations for Out-Of-Vocabulary Keyword SearchMittul Singh, Sami Virpioja, Peter Smit, Mikko Kurimo摘 要:

原 文:http://arxiv.org/pdf/2005.13827v1



強化學習Reinforcement Learning[33]Parameter Sharing is Surprisingly Useful for Multi-Agent Deep Reinforcement LearningJustin K Terry, Nathaniel Grammel, Ananth Hari, Luis Santos, Benjamin Black, Dinesh Manocha摘 要:

原 文:http://arxiv.org/pdf/2005.13625v1

資 源:github.com/openai/baselines



[34]ALBA : Reinforcement Learning for Video Object SegmentationShreyank N Gowda, Panagiotis Eustratiadis, Timothy Hospedales, Laura Sevilla-Lara摘 要:

原 文:http://arxiv.org/pdf/2005.13039v1



[35]Deep Reinforcement learning for real autonomous mobile robot navigation in indoor environmentsHartmut Surmann, Christian Jestel, Robin Marchel, Franziska Musberg, Houssem Elhadj, Mahbube Ardani摘 要:

原 文:http://arxiv.org/pdf/2005.13857v1



推薦系統Recommendation System[36]User Behavior Retrieval for Click-Through Rate PredictionJiarui Qin, Weinan Zhang, Xin Wu, Jiarui Jin, Yuchen Fang, Yong Yu摘 要:

原 文:http://arxiv.org/pdf/2005.14171v1

資 源:github.com/qinjr/UBR4CTR



[37]Operationalizing the Legal Principle of Data Minimization for PersonalizationAsia J. Biega, Peter Potash, Hal Daumé III, Fernando Diaz, Michèle Finck摘 要:

原 文:http://arxiv.org/pdf/2005.13718v1



醫療與健康Medical Science & Health Care[38]CNN-based Approach for Cervical Cancer Classification in Whole-Slide Histopathology ImagesFerdaous Idlahcen, Mohammed Majid Himmi, Abdelhak Mahmoudi摘 要:

原 文:http://arxiv.org/pdf/2005.13924v1



應用Application[39]Code Duplication and Reuse in Jupyter NotebooksAndreas Koenzen, Neil Ernst, Margaret-Anne Storey摘 要:

原 文:http://arxiv.org/pdf/2005.13709v1

資 源:github.com/mkery/Verdant, github.com/nteract/papermill





相關焦點

  • 1750億參數,史上最大AI模型GPT-3上線:不僅會寫文章、答題,還懂數學
    它的參數量要比 2 月份剛剛推出的、全球最大深度學習模型 Turing NLP 大上十倍,而且不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力。這樣強大的深度學習,不禁讓人產生一種錯覺:真正的 AI 要來了嗎?首先,GPT-3 最令人驚訝的還是模型體量,它使用的最大數據集在處理前容量達到了 45TB。
  • 1750億參數,史上最大AI模型GPT-3上線:不僅會寫文,答題,還懂數學
    它的參數量要比 2 月份剛剛推出的、全球最大深度學習模型 Turing NLP 大上十倍,而且不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力。這樣強大的深度學習,不禁讓人產生一種錯覺:真正的 AI 要來了嗎?首先,GPT-3 最令人驚訝的還是模型體量,它使用的最大數據集在處理前容量達到了 45TB。
  • GPT-3 1750億參數少樣本無需微調,網友:「調參俠」都沒的當了
    OpenAI最強預訓練語言模型GPT-3周四發表在預印本 arXiv 上,1750億參數!GPT系列的預訓練語言模型一直是大力出奇蹟的典型代表,但是一代和二代在偏重理解的自然語言處理任務中表現欠佳,遜色於BERT家族。
  • 強大如GPT-3,1750億參數也搞不定中文?-虎嗅網
    2019 年,GPT-2 憑藉將近 30 億條參數的規模拿下來「最強 NLP 模型」的稱號;2020 年,1750 億條參數的 GPT-3 震撼發布,並同時在工業界與學術界掀起了各種爭論。註:OpenAI 已經於 2019 年發布了三種 GPT-2 模型:「小型的」1.24 億參數模型,「中型的」3.55 億參數模型,以及 7.74 億參數模型。
  • OpenAI耗資8500萬、1750億參數煉出的GPT-3,它真的不香嗎?!
    第二,也是GPT3自身特點有異於正常模型的地方,它非常非常非常大,訓練非常非常非常燒錢。大到什麼地步呢,相對於之前最大的T-NLG直接提高了一個量級,這是一個什麼概念,可以看看下圖其參數量達到1750億,相當於1600個它爺爺GPT1的大小
  • OpenAI耗資8500萬、1750億參數煉出的GPT-3,它真的不香嗎?!
    第二,也是GPT3自身特點有異於正常模型的地方,它非常非常非常大,訓練非常非常非常燒錢。大到什麼地步呢,相對於之前最大的T-NLG直接提高了一個量級,這是一個什麼概念,可以看看下圖👇其參數量達到1750億,相當於1600個它爺爺GPT1的大小,光把它用fp16半精度載入內存都得300GB,這還不包括實際訓練中需要存儲地梯度等中間變量。
  • 剛剛,史上最大 AI 模型 GPT-3 終於上線了!訓練一次要花 1300 萬美元...
    GPT-3 在許多 NLP 數據集上均具有出色的性能,包括翻譯、問答和文本填空任務,這還包括一些需要即時推理或領域適應的任務,例如給一句話中的單詞替換成同義詞,或執行 3 位數的數學運算。當然,GPT-3 也可以生成新聞報導的樣本,我們很難將機器寫的文章與人類寫的區分開來。
  • NeurIPS 2020獎項出爐:GPT-3等三項研究獲最佳論文獎
    機器之心報導機器之心編輯部一萬八千人參會的NeurIPS 2020 相比去年數量暴漲了三成,在大會上,1750 億參數模型 GPT-3 再次成為了人們熱議的話題。NeurIPS 2020 最熱門的三個投稿方向和以往相比沒有太大變化,仍是「算法」、「深度學習」和「應用」,不過後兩個方向熱度有所降低。值得注意的是,今年的 NeurIPS 大會引入了「機器學習的社會影響」方向,探討的內容包括公平與隱私。
  • NeurIPS 2020 獎項出爐:GPT-3等三項研究獲最佳論文獎
    機器之心報導機器之心編輯部一萬八千人參會的NeurIPS 2020 相比去年數量暴漲了三成,在大會上,1750 億參數模型 GPT-3 再次成為了人們熱議的話題。北京時間 12 月 8 日凌晨,正在線上舉行的全球人工智慧頂會 NeurIPS 2020 公布了最佳論文等獎項。
  • 「萬能生成器」GPT-3斬獲NeurIPS最佳論文
    大會組委會公布了參會者和全球AI研究者、實踐者最為期待的獎項名單,結果也在意料之中:科研勁旅 OpenAI 提交的超強生成模型 GPT-3 論文(和另外兩篇論文一起)斬獲本屆 NeurIPS 最佳論文獎!
  • 31位學者聯手,GPT-3原作獲NeurIPS 2020最佳論文獎!
    從論文的主題來看,算法佔比29%,深度學習佔比19%,應用佔比18%,強化學習和規劃(planning)佔比9%,理論佔比7%,概率方法佔比5%,機器學習社會方面( Social aspects of machine learning)佔比5%,優化佔比5%,神經科學和認知科學佔比3%。
  • NeurIPS2020獎項出爐:GPT-3等三項研究獲最佳論文獎,華人一作論文...
    原創 Synced 機器之心機器之心報導機器之心編輯部一萬八千人參會的NeurIPS 2020 相比去年數量暴漲了三成,在大會上,1750 億參數模型 GPT-3 再次成為了人們熱議的話題。
  • 有人做出了中文版GPT-2,可用於寫小說、詩歌、新聞等;15億參數版GPT-2被兩名研究生復現
    乾明 發自 凹非寺 量子位 報導 | 公眾號 QbitAIGPT-2,逆天的語言AI模型,編故事以假亂真,問答翻譯寫摘要都行
  • 2020年arXiv十大熱門論文來了!不止GPT-3、SimCLR、YOLOv4...
    到2020年末,metacurate.io總共檢索了94,000多個論文連結。然後,匯總到一起,並根據7天的社交媒體熱度對所有論文進行熱度評分,最後選出來了十大arXiv熱門論文,其中就有GPT-3、SimCLR、YOLOv4等研究工作。以下是就是這十篇熱門的arxiv論文,排名不分先後。
  • 一天star量破千,特斯拉AI總監寫了個GPT的Pytorch訓練庫
    最近,「史上最大 AI 模型」GPT-3 風靡全球。GPT 系列可以說是人工智慧領域「暴力美學」的代表作了。2018 誕生的 GPT,1.17 億參數;2019 年 GPT-2,15 億參數;2020 年 GPT-3,1750 億參數。短短一年時間,GPT 模型的參數量就呈指數級增長。
  • OpenAI 新研究:通過自適應參數噪聲提升強化學習性能
    OpenAI 的研究人員發現,改善強化學習算法參數中的自適應噪聲性能可以提升性能。這種探索方式易於實現,同時很少降低系統表現,因此值得一試。代碼地址:https://github.com/openai/baselines參數噪聲可以幫助算法更有效地探索周圍的環境,思考所有可能的動作。在經過 216 次 DDPG 無噪聲的訓練迭代之後,模型將會變得效率低下,而加入參數噪聲的訓練方法將會讓模型的的效果大大提升。
  • 性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型
    在NLP領域,談到超大模型必然想到預訓練語言模型GPT-3,自今年3月份對外開放以來,其因超大模型和超強性能頻頻刷屏。GPT-3擁有1750億參數量,約有700G大小,一次訓練成本高達上百萬美元。1750億是什麼概念?去年2月份,OpenAI推出的GPT-2參數量為僅15億,是它的1\116。
  • GPT-2:OpenAI的NLP商業化野望
    這一大規模無監督NLP模型,可以生成連貫的文本段落,刷新了7大數據集SOTA表現,並且能在未經預訓練的情況下,完成閱讀理解、問答、機器翻譯等多項不同的語言建模任務。首先,CPT-2、BERT與GPT一樣,延續Transformer的Self-Attention(自注意)作為底層結構。
  • 對話出門問問李志飛:GPT-3 是「暴力美學」的一次勝利
    圖為 GPT-3 寫的圖像分類模型也有人用 GPT-3 開發了一個可以設計網站的應用,輸入「一個長得像蘋果官網的 Twitter 網站」,就可以直接看到頁面。另外,GPT-3 還可以做數學題,做翻譯,做問答。甚至有人問它「新冠疫情何時結束」,它回答「2023 年 12 月 31 日」,當然,這個答案的準確與否我們暫且無從判斷。
  • 陳丹琦團隊最新論文:受GPT-3啟發,用小樣本學習給語言模型做微調...
    不僅講故事的本職工作做得風生水起,還跨界玩起了網頁設計、運維、下象棋……不過,儘管表現驚豔,GPT-3背後到底是實實在在的1750億參數,想要在實際應用場景中落地,難度著實不小。結果顯示:基於提示的微調在很大程度上優於標準微調;自動提示搜索能匹敵、甚至優於手動提示;加入示例對於微調而言很有效,並提高了少樣本學習的性能。