WebGPT: Browser-assisted question-answering with human feedback
Multi-caption Text-to-Face Synthesis: Dataset and Algorithm
Strong-Field Gravity Tests with the Double Pulsar
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning
A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING
Learning to Compose Visual Relations
PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:WebGPT: Browser-assisted question-answering with human feedback摘要:如果 AI 學會上網,那麼它就擁有了無限獲取知識的方式,之後會發生什麼就不太好預測了。於是著名 AI 研究機構 OpenAI 教那個開啟了通用人工智慧大門、體量巨大的人工智慧模型 GPT-3 學會了上網。現在,這個模型能正確地處理一些棘手的問題:比如,有人詢問了一個錯誤的問題:「莎士比亞什麼時候寫的《哈利 · 波特》系列小說?」該模型回答:莎士比亞沒有寫《哈利 · 波特》小說。這些小說是由 J.K. 羅琳完成的……從回答的內容來看,這個模型完全正確,此外,該模型還給讀者提供了引用文獻,如藍體數字所示,答案的最後還給出了相關連結,點擊每個連結,還能連結到相應的網頁。OpenAI 對 GPT-3 進行了微調,以使用基於文本的網絡瀏覽器更準確地回答開放式問題,這允許模型搜索和瀏覽網頁。該模型原型複製了人類在線研究問題答案的方式,涉及提交搜索查詢,跟蹤連結,以及向上和向下滾動網頁。模型經過訓練後,它會引用信息源,這使得模型提供反饋更容易,從而提高事實的準確性。此外,該模型還提供了一個開放式問題和瀏覽器狀態摘要,並且必須具有諸如「Search……」、「Find in page:……」或「Quote:……」之類的命令。通過這種方式,模型從網頁中收集段落,然後使用這些段落來撰寫答案。通過設置任務,OpenAI 能夠使用模仿學習(imitation learning)在不同任務上訓練模型,然後根據人類反饋優化答案質量。OpenAI 在 ELI5 上對模型進行了訓練和評估,其中 ELI5 是一個由 Reddit 用戶提問的問題集。總體而言,OpenAI 對 GPT-3 模型家族的模型進行了微調,重點研究了具有 760M、13B 和 175B 參數的模型。從這些模型出發,OpenAI 使用了四種主要的訓練方法:行為克隆(Behavior cloning,BC):OpenAI 使用監督學習對演示進行了微調,並將人類演示者發出的命令作為標籤;
建模獎勵(Reward modeling,RM):從去掉 unembedding 層的 BC 模型開始,OpenAI 訓練的模型可以接受帶有引用的問題和答案,並輸出標量獎勵,獎勵模型使用交叉熵損失進行訓練;
強化學習(RL):OpenAI 使用 Schulman 等人提出的 PPO 微調 BC 模型。對於環境獎勵,OpenAI 在 episode 結束時獲取獎勵模型分數,並將其添加到每個 token 的 BC 模型的 KL 懲罰中,以減輕獎勵模型的過度優化;
剔除抽樣(best-of-n):OpenAI 從 BC 模型或 RL 模型(如果未指定,則使用 BC 模型)中抽取固定數量的答案(4、16 或 64),並選擇獎勵模型排名最高的答案。
推薦:OpenAI 教 GPT-3 學會上網,「全知全能」的 AI 模型上線了。論文 2:Multi-caption Text-to-Face Synthesis: Dataset and Algorithm摘要:文本人臉合成指的是基於一個或多個文本描述,生成真實自然的人臉圖像,並儘可能保證生成的圖像符合對應文本描述,可以用於人機互動,藝術圖像生成,以及根據受害者描述生成犯罪嫌疑人畫像等。針對這個問題,中科院自動化所聯合北方電子設備研究所提出了一種基於多輸入的文本人臉合成方法(SEA-T2F),並建立了第一個手工標註的大規模人臉文本描述數據集(CelebAText-HQ)。該方法首次實現多個文本輸入的人臉合成,與單輸入的算法相比生成的圖像更加接近真實人臉。相關成果論文《Multi-caption Text-to-Face Synthesis: Dataset and Algorithm》已被 ACM MM 2021 錄用。相較於文本到自然圖像的生成,文本到人臉生成是一個更具挑戰性的任務,一方面,人臉具有更加細密的紋理和模糊的特徵,難以建立人臉圖像與自然語言的映射,另一方面,相關數據集要麼是規模太小,要麼直接基於屬性標籤用網絡生成,目前為止,還沒有大規模手工標註的人臉文本描述數據集,極大地限制了該領域的發展。此外,目前基於文本的人臉生成方法 [1,2,3,4] 都是基於一個文本輸入,但一個文本不足以描述複雜的人臉特徵,更重要的是,由於文本描述的主觀性,不同人對於同一張圖片的描述可能會相互衝突,因此基於多個文本描述的人臉生成具有很重大的研究意義。針對該問題,團隊提出了一個基於多輸入的文本人臉生成算法。算法採用三階段的生成對抗網絡框架,以隨機採樣的高斯噪聲作為輸入,來自不同文本的句子特徵通過 SFIM 模塊嵌入到網絡當中,在網絡的第二第三階段分別引入了 AMC 模塊,將不同文本描述的單詞特徵與中間圖像特徵通過注意力機制進行融合,以生成更加細密度的特徵。為了更好地在文本中學習屬性信息,團隊設計了一個屬性分類器,並引入屬性分類損失來優化網絡參數。推薦:中科院自動化所聯合北方電子設備研究所提出多輸入文本人臉合成方法,數據代碼已開源。論文 3:Strong-Field Gravity Tests with the Double Pulsar摘要:廣義相對論是愛因斯坦在 1915 年完成、1916 年正式發表的重要引力理論。該理論在天體物理學中有著非常重要的應用:它直接推導出某些大質量 恆星會終結為一個黑洞。從 1916 年正式發表以來,物理學界對於這一理論的實驗驗證就從未停止。其中,東英吉利大學(UEA)和曼徹斯特大學的研究人員聯合進行了一項長達 16 年的實驗。這個國際研究團隊通過遍布全球的七臺射電望遠鏡觀察一對脈衝星,以此來進行一些迄今為止最嚴格的廣義相對論測試。結果證明,廣義相對論經受住了考驗。該研究於 12 月 13 日發表在《Physical Review X》雜誌上。「過去 16 年裡,我們對雙脈衝星的觀測被證明與愛因斯坦的廣義相對論驚人地一致,精確程度在 99.99% 以內。」論文作者表示。在馬克斯普朗克射電天文研究所 Michael Kramer 的帶領下,來自十個國家的國際研究團隊對愛因斯坦的理論進行了迄今為止最嚴格的測試。該研究基於由團隊成員在 2003 年發現的雙脈衝星進行實驗,它是目前用來測試愛因斯坦理論最精確的實驗室。儘管廣義相對論是在這類極端恆星以及用於研究它們的技術都未知的時候構思出來的。研究團隊發現的雙脈衝星由兩顆脈衝星組成,它們在短短 147 分鐘內以大約 100 萬公裡 / 小時的速度相互環繞。其中一顆脈衝星(主星)旋轉得非常快,大約每秒 44 次,而另一顆脈衝星(伴星)的自轉周期約為 2.8 秒。它們圍繞彼此的運動幾乎可以用作完美的引力實驗室,可以在存在非常強的引力場的情況下測試引力理論。該研究測試了愛因斯坦理論的基石,即引力波攜帶的能量。其精度是諾貝爾獎得主發現的 Hulse-Taylor 脈衝星的 25 倍,是目前使用的引力波探測器的精度的 1000 倍。推薦:愛因斯坦廣義相對論剛剛通過了一場歷時 16 年的嚴格檢驗。論文 4:PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning摘要:本文引入了一個新的名為 PTR 的大規模診斷型視覺推理數據集。PTR 包含大約七萬 RGBD 合成圖像,帶有關於語義實例分割、顏色屬性、空間和幾何關係以及某些物理屬性(例如穩定性)的物體和局部標註。這些圖像配有五種類型的問題:概念型推理,關係型推理,類比型推理,數學推理和物理推理。這些類型均來自於人類認知推理的重要方面,但在以往的工作中並沒有被充分探索過。本文在這個數據集上檢驗了幾個最先進的視覺推理模型。研究者觀察到它們的表現遠遠不及人類表現,特別是在一些較新的推理類型(例如幾何,物理問題)任務上。該研究期待這個數據集能夠促進機器推理向更複雜的人類認知推理推進。PTR 數據集有七萬的 RGBD 圖片和 70 萬基於這些圖片的問題。本文作者提供了詳細的圖片標註,包括語義實例分割、幾何、物理狀態的標註。數據集的生成採取了精細的偏差和噪聲控制。下圖總結了 PTR 數據集涵蓋的概念。可以看出,PTR 數據集具有豐富的認知層面的概念和關係。在物體整體方面,具有空間關係、物理狀態等概念,在局部方面,有幾何關係等概念。整體 - 部分的加入大大增加了視覺推理的層次性和豐富性。PTR 數據集包含了五類問題:概念型推理,關係型推理,類比型推理,數學推理和物理推理。推薦:MIT、UCLA、斯坦福聯合提出新一代視覺推理數據集。論文 5:A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING摘要:強化學習 (RL) 可用於自動駕駛汽車、機器人等一系列應用,其在現實世界中表現如何呢?現實世界是動態、開放並且總是在變化的,強化學習算法需要對環境的變化保持穩健性,並在部署期間能夠進行遷移和適應沒見過的(但相似的)環境。然而,當前許多強化學習研究都是在 Atari 和 MuJoCo 等基準上進行的,其具有以下缺點:它們的評估策略環境和訓練環境完全相同;這種環境相同的評估策略不適合真實環境。目前,許多研究者已經意識到這個問題,開始專注於改進 RL 中的泛化。來自倫敦大學學院、UC 伯克利機構的研究者撰文《 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING 》,對深度強化學習中的泛化進行了研究。該研究提出了一種形式和術語,以用於討論泛化問題,這一工作是建立在之前研究 [12, 13, 14, 15, 16] 的基礎上進行的。本文將先前的工作統一成一個清晰的形式描述,這類問題在 RL 中被稱為泛化。
該研究提出了對現有基準的分類方法,可用於測試泛化。該研究的形式使我們能夠清楚地描述泛化基準測試和環境設計的純 PCG(Procedural Content Generation) 方法的弱點:完整的 PCG 環境會限制研究精度。該研究建議未來的環境應該使用 PCG 和可控變異因素的組合。
該研究建議對現有方法進行分類以解決各種泛化問題,其動機是希望讓從業者能夠輕鬆地選擇給定具體問題的方法,並使研究人員能夠輕鬆了解使用該方法的前景以及可以做出新穎和有用貢獻的地方。該研究對許多尚未探索的方法進行進一步研究,包括快速在線適應、解決特定的 RL 泛化問題、新穎的架構、基於模型的 RL 和環境生成。
該研究批判性地討論了 RL 研究中泛化的現狀,推薦了未來的研究方向。特別指出,通過構建基準會促進離線 RL 泛化和獎勵函數進步,這兩者都是 RL 中重要的設置。此外,該研究指出了幾個值得探索的設置和評估指標:調查上下文效率和在持續的 RL 設置中的研究都是未來工作必不可少的領域。
推薦:倫敦大學學院、UC 伯克利學者聯手,撰文綜述深度強化學習泛化研究。論文 6:Learning to Compose Visual Relations作者:Nan Liu, Shuang Li, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba
論文地址:https://arxiv.org/abs/2111.09297
摘要:在一篇 NeurIPS 2021 Spotlight 論文中,來自 MIT 的研究者開發了一種可以理解場景中對象之間潛在關係的模型。該模型一次表徵一種個體關係,然後結合這些表徵來描述整個場景,使得模型能夠從文本描述中生成更準確的圖像。該研究提出使用 Energy-Based 模型將個體關係表徵和分解為非規一化密度。關係場景描述被表徵為關係中的獨立概率分布,每個個體關係指定一個單獨的圖像上的概率分布。這樣的組合方法可以建模多個關係之間的交互。該研究表明所提框架能夠可靠地捕獲和生成帶有多個組合關係的圖像,並且能夠推斷潛在的關係場景描述,並且能夠穩健地理解語義上等效的關係場景描述。在泛化方面,該方法可以推廣到以前未見過的關係描述上,包括對象和描述來自訓練期間未見過的數據集。這種泛化對於通用人工智慧系統適應周圍世界的無限變化至關重要。此外,該系統還可以反向工作——給定一張圖像,它可以找到與場景中對象之間的關係相匹配的文本描述。該模型還可通過重新排列場景中的對象來編輯圖像,使它們與新的描述相匹配。推薦:MIT 新研究讓 AI 像人一樣「看」世界。論文 7:PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers摘要:來自中國科學技術大學、微軟亞研等機構的研究者提出了學習感知 codebook( perceptual codebook ,PeCo),用於視覺 transformer 的 BERT 預訓練。目前,BEiT 成功地將 BERT 預訓練從 NLP 領域遷移到了視覺領域。BEiT 模型直接採用簡單的離散 VAE 作為視覺 tokenizer,但沒有考慮視覺 token 語義層面。相比之下,NLP 領域中的離散 token 是高度語義化的。這種差異促使研究者開始學習感知 codebook,他們發現了一個簡單而有效的方法,即在 dVAE 訓練期間強制執行感知相似性。該研究證明 PeCo 生成的視覺 token 能夠表現出更好的語義,幫助預訓練模型在各種下遊任務中實現較好的遷移性能。例如,該研究使用 ViT-B 主幹在 ImageNet-1K 上實現了 84.5% 的 Top-1 準確率,在相同的預訓練 epoch 下比 BEiT 高 1.3。此外,該方法還可以將 COCO val 上的目標檢測和分割任務性能分別提高 +1.3 box AP 和 +1.0 mask AP,並且將 ADE20k 上的語義分割任務提高 +1.0 mIoU。該研究提出,在不包含像素損失的情況下,對模型強制執行原始圖像和重構圖像之間的感知相似性。感知相似性不是基於像素之間的差異得到的,而是基於從預訓練深度神經網絡中提取的高級圖像特徵表示之間的差異而得到。該研究希望這種基於 feature-wise 的損失能夠更好地捕捉感知差異並提供對低級變化的不變性。下圖從圖像重構的角度展示了模型使用不同損失的比較,結果表明圖像在較低的 pixel-wise 損失下可能不會出現感知相似:圖 1. 不同損失下的圖像重構比較。每個示例包含三個圖像,輸入(左)、使用 pixel-wise 損失重構圖像(中)、使用 pixel-wise 損失和 feature-wise 損失重構圖像(右)。與中間圖像相比,右側圖像在感知上與輸入更相似。推薦:視覺 Transformer BERT 預訓練新方式:中科大、MSRA 等提出 PeCo,優於 MAE、BEiT。ArXiv Weekly Radiostation機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:1. You Only Need One Model for Open-domain Question Answering. (from Christopher D. Manning)2. Am I Me or You? State-of-the-Art Dialogue Models Cannot Maintain an Identity. (from Jason Weston)3. Adapting Document-Grounded Dialog Systems to Spoken Conversations using Data Augmentation and a Noisy Channel Model. (from Hermann Ney)4. Pay More Attention to History: A Context Modeling Strategy for Conversational Text-to-SQL. (from Yan Zhang)5. Amortized Noisy Channel Neural Machine Translation. (from Kyunghyun Cho)6. Event Linking: Grounding Event Mentions to Wikipedia. (from Dan Roth)7. Design Challenges for a Multi-Perspective Search Engine. (from Dan Roth)8. DocAMR: Multi-Sentence AMR Representation and Evaluation. (from Salim Roukos)9. Learning to Transpile AMR into SPARQL. (from Salim Roukos)10. Maximum Bayes Smatch Ensemble Distillation for AMR Parsing. (from Salim Roukos)1. Label, Verify, Correct: A Simple Few Shot Object Detection Method. (from Andrew Zisserman)2. Mining Minority-class Examples With Uncertainty Estimates. (from Jian Pei, Qi Tian)3. More Control for Free! Image Synthesis with Semantic Diffusion Guidance. (from Trevor Darrell)4. Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal Misinformation. (from Trevor Darrell)5. Interpolated Joint Space Adversarial Training for Robust and Generalizable Defenses. (from Rama Chellappa)6. IFR-Explore: Learning Inter-object Functional Relationships in 3D Indoor Scenes. (from Qi Li, Leonidas Guibas)7. PartGlot: Learning Shape Part Segmentation from Language Reference Games. (from Leonidas Guibas)8. Object Pursuit: Building a Space of Objects via Discriminative Weight Generation. (from Leonidas Guibas)9. Efficient Geometry-aware 3D Generative Adversarial Networks. (from Leonidas Guibas)10. TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning. (from Shuicheng Yan, Ling Shao)1. ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning. (from Michael I. Jordan)2. Learning soft interventions in complex equilibrium systems. (from Bernhard Schölkopf)3. Graph Structure Learning with Variational Information Bottleneck. (from Philip S. Yu)4. A Self-supervised Mixed-curvature Graph Neural Network. (from Philip S. Yu)5. GEO-BLEU: Similarity Measure for Geospatial Sequences. (from Toru Shimizu)6. Measuring Complexity of Learning Schemes Using Hessian-Schatten Total-Variation. (from Michael Unser)7. Spatial-Temporal-Fusion BNN: Variational Bayesian Feature Layer. (from Leszek Rutkowski, Dacheng Tao)8. Deep Q-Network with Proximal Iteration. (from Michael L. Littman)9. Characterizing and addressing the issue of oversmoothing in neural autoregressive sequence modeling. (from Kyunghyun Cho)10. M3E2: Multi-gate Mixture-of-experts for Multi-treatment Effect Estimation. (from Martin Ester)© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:content@jiqizhixin.com