7 Papers|GCN大佬公開博士論文;谷歌提出擴展型BERT架構

2020-12-23 機器之心Pro

機器之心 & ArXiv Weekly Radiostation

參與:杜偉、楚航、羅若天

本周的重要論文包括谷歌提出的擴展型 BERT 架構 Tapas,以及 GCN 作者的博士論文。

目錄:

SYNTHESIZER: Rethinking Self-Attention in Transformer Models

Interactive Video Stylization Using Few-Shot Patch-Based Training

Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking

How to Train Your Energy-Based Model for Regression

TAPAS: Weakly Supervised Table Parsing via Pre-training

memeBot: Towards Automatic Image Meme Generation

Deep Learning with Graph-Structured Representations

ArXiv Weekly Radiostation:NLP、CV、ML更多精選論文(附音頻)

論文 1:SYNTHESIZER: Rethinking Self-Attention in Transformer Models

作者:Yi Tay、Dara Bahri、Che Zheng 等

論文連結:https://arxiv.org/pdf/2005.00743v1.pdf

摘要:眾所周知,點積自注意力(dot product self-attention)對於 SOTA Transformer 模型是至關重要且不可或缺的。但有一個疑問,點積自注意力真的這麼重要嗎?

在本文中,來自谷歌研究院的幾位作者研究了點積自注意力機制對於 Transformer 模型性能的真正重要點和貢獻。通過一系列實驗,研究者發現(1)隨機對齊矩陣(random alignment matrice)的執行效果出人意料地好;(2)從 token-token(查詢 - 鍵)交互中學習注意力權重並不是那麼重要。基於此,研究者提出了 Synthesizer,這是一個無需 token-token 交互即可學習合成注意力權重的模型。

本研究提出的 Synthesizer 模型架構圖。

在 WMT』14 英語 - 德語、WMT』14 英語 - 法語機器翻譯任務以及 10 億語言建模(LM1B)任務上的 NMT 和 LM 效果對比。

在摘要式歸納(CNN / 每日郵報)和對話生成(PersonalChat)任務上歸納和對話效果對比。

推薦:本研究提出的 Synthesizer 在 MT、語言建模、摘要式歸納、對話生成以及多任務語言理解等一系列任務上的性能均媲美於最原始的(vanilla)Transformer 模型。

論文 2:Interactive Video Stylization Using Few-Shot Patch-Based Training

作者:Ondej Texler、David Futschik、Daniel Skora 等

論文連結:https://ondrejtexler.github.io/res/Texler20-SIG_patch-based_training_main.pdf

摘要:在本文中,捷克理工大學和 Snap 公司的研究者提出了一種用於關鍵幀視頻風格化的學習方法,藉助這種學習方法,藝術家可以將風格從少數選定的關鍵幀遷移至序列其他部分。這種學習方法的主要優勢在於最終的風格化在語義上有意義,也就是說,運動目標(moving object)的特定部分根據藝術家的意圖進行風格化處理。

與以往的風格遷移方法相比,本研究提出的學習方法既不需要任何冗長的預訓練過程,也不需要大型訓練數據集。研究者展示了在僅使用少數風格化範例且隱式保持時序一致性的情況下,如何從零開始訓練外觀轉換網絡。由此得出的視頻風格化框架支持實時推理、並行處理以及任意輸出幀的隨機訪問。

此外,這種學習方法還可以合併多個關鍵幀中的內容,同時不需要執行顯式混合操作。研究者驗證了這種學習方法在各種交互場景中的實用性,在這些場景中,用戶在選定關鍵幀中繪畫,並且繪畫風格可以遷移至已有的記錄序列或實時視頻流中。

利用本研究中學習方法的風格化序列範例。

具有關鍵幀的視頻風格化設置。

完整幀訓練方法與本研究中少樣本 Patch 訓練方法的效果比較。

推薦:本研究中少樣本 Patch 訓練方法的亮點在於它可以在與幀無關的模式下運行,這對當前嚴重依賴隨機訪問和並行處理的專業視頻編輯工具非常有利。

論文 3:Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking

作者:Hongjun Wang、Guangrun Wang、Liang Lin 等

論文連結:https://arxiv.org/pdf/2004.04199.pdf

摘要:在本文中,來自中山大學、廣州大學和暗物智能科技的研究者們通過提出以一種學習誤排序的模型來擾亂系統輸出的排序,從而檢驗當前性能最佳的 re-ID 模型的不安全性

由於跨數據集的可遷移性在 re-ID 域中至關重要,因此作者還通過構建新穎的多級網絡體系結構進行半黑盒式攻擊,該體系結構將不同級別的特徵金字塔化,以提取對抗性擾動的一般和可遷移特徵。該體系可以通過使用可微分的採樣來控制待攻擊像素的數量。為了保證攻擊的不顯眼性,研究者還提出了一種新的感知損失,以實現更好的視覺質量。

在四個最大的 re-ID 基準數據集(即 Market1501、CUHK03、DukeMTMC 和 MSMT17)上進行的廣泛實驗不僅顯示了該方法的有效性,而且還為 re-ID 系統的魯棒性提供了未來改進的方向。

Market-1501 和 CUHK03 上 AlignedReID 被攻擊前後的 Rank-10 結果。綠色代表正確匹配。紅色代表錯誤匹配。

整體架構圖。

多階段判別器圖示。

推薦:本文的亮點在於將將 SOTA 行人再識別系統精度降至 1.4%,並已被 CVPR 大會接收為 Oral 論文。

論文 4:How to Train Your Energy-Based Model for Regression

作者:Fredrik K. Gustafsson、Martin Danelljan、 Thomas B. Schon 等

論文連結:https://arxiv.org/pdf/2005.01698v1.pdf

摘要:近年來,基於能量的模型(Energy-based Model,EBM)在計算機視覺領域越來越流行。雖然這些模型通常用於生成圖像建模,但最近的研究已經將 EMB 應用於回歸任務(Regression Task),並在目標檢測和視覺跟蹤領域實現 SOTA。但是訓練 EBM 不是一件簡單的事情。另外,生成式建模(Generative Modeling)可以利用多種多樣的方法,但將 EBM 應用於回歸任務沒有獲得充分的研究。因此,如何訓練 EBM 實現最佳的回歸性能目前尚不清楚。

在本文中,來自瑞典烏普薩拉大學和蘇黎世聯邦理工學院的研究者對這些問題展開了詳實研究,提出了一種噪聲對比估計(Noise Contrastive Estimation, NCE)的簡單高效擴展,並與 1D 回歸和目標檢測任務上的 6 種流行方法進行了性能對比。對比結果表明,本研究提出的訓練方法應被認為實最佳。研究者還將他們的方法應用到視覺跟蹤任務上,在 5 個數據集上實現新的 SOTA。

對於邊界框回歸等任務,本研究提出以噪聲對比估計的簡單高效擴展(文中表示為 NCE+)來訓練基於能量的模型(EBM)。

1D 回歸實驗訓練方法的 D_KL 和訓練成本對比。

圖左:用於 1D 回歸實驗的四種表現最佳方法的詳細比較;圖右:COCO-2017 Val 數據集上,用於目標檢測實驗的四種表現最佳方法的詳細比較。四種方法均分別為 ML-IS、KLD-IS、NCE 和本研究提出的 NCE+。

推薦:本研究中的跟蹤器在 LaSOT 目標跟蹤數據集上實現了 63.7% 的 AUC,在 TrackingNet 目標跟蹤數據集上實現了 78.7% 的 Success

論文 5:TAPAS: Weakly Supervised Table Parsing via Pre-training

作者:Jonathan Herzig、Pawe Krzysztof Nowak、Julian Martin Eisenschlos 等

論文連結:https://arxiv.org/pdf/2004.02349.pdf

摘要:谷歌在本文中提出了一種擴展型的 BERT 架構。該架構可對問題與表格數據結構進行聯合編碼,最終得到的模型可直接指向問題答案。並且,這種新方法所創建的模型適用於多個領域的表格。

要想得到優良的模型,優質的數據自然是不可或缺的。谷歌首先使用了數百萬個維基百科表格對模型進行預訓練,然後又在三個學術級表格問答數據集上進行實驗,結果表明新方法的準確度表現極具競爭力。不僅如此,谷歌開源了模型訓練和測試代碼,還公開分享了他們在維基百科數據上得到的預訓練模型。

本研究提出的 Tapas 模型以及對於問題 「排名前二的總天數(total number of days for the top two)」 的示例模型輸出。

問題 「查詢(query)」 的編碼以及使用 Tapas 特定嵌入的簡單表格。

表格(左)與對應的問題示例(右)。問題 5 是會話式。

推薦:谷歌的這篇論文將 BERT 模型應用到了基於表格的問答場景中,為弱監督式的表格解析性能帶來了顯著提升。

論文 6:memeBot: Towards Automatic Image Meme Generation

作者:Aadhavan Sadasivam、Kausic Gunasekar、Yezhou Yang 等

論文連結:https://arxiv.org/pdf/2004.14571v1.pdf

摘要:近日,來自美國亞利桑那州立大學的研究者對 meme 圖生成方法進行了改進提升。在這篇論文中,研究者提出了一種根據給定的輸入語句來生成匹配圖片的方法。這是一項很有挑戰性但有趣的 NLP 任務。通過對 meme 圖生成機制的深入了解,研究者決定將 meme 圖生成與自然語言翻譯相結合。

在自然語言翻譯工作中,為了將輸入的語句轉換為目標語言,必須對語句的完整含義進行解碼,分析其含義,然後將源語句的含義編碼為目標語句。類似地,此處也可以通過將源語句的含義編碼為一對圖像和標題,傳達與源語句相同的含義或情感,從而將語句翻譯成「梗」。受到這種方法的啟發,研究者提出了一種端到端的編碼 - 解碼模型「memeBot」,面向任意給定的語句來生成 meme 圖。同時在訓練的過程中,他們製作出了首個大型 meme 圖字幕數據集。

memeBot 示意圖。

memeBot 模型架構圖。對於給定輸入序列,通過結合模板選擇模塊(template selection module)選擇的和標籤生成 transformer(caption generation transformer)生成的表情包標籤來創建新的表情包。

附錄 A:實驗中所用 meme 字幕數據集包括的模版和圖像。

推薦:在製作沙雕表情包這件事上,AI也略勝一籌。

論文 7:Deep Learning with Graph-Structured Representations

作者:Thomas Kipf

論文連結:https://pure.uva.nl/ws/files/46900201/Thesis.pdf

摘要:近日,GoogleAI 大腦團隊研究科學家、GCN 作者、阿姆斯特丹大學機器學習博士生 Thomas Kipf 宣布其博士論文《深度學習圖結構表徵》(Deep Learning with Graph-Structured Representations)可以下載了。在論文中,作者提出了利用結構化數據進行機器學習的新方法,這些方法主要基於結構化表示以及圖表示的神經網絡模型計算,由此當從具有顯式和隱式模塊結構的數據學習時可以提升泛化性能。

GCN 作者 Thomas Kipf 宣布公開其博士論文(178 頁)。

論文部分目錄。

推薦:這篇博士論文涵蓋了深度學習領域的一系列新興主題,如圖卷積網絡和結構發現等。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

本周 10 篇 NLP 精選論文是:

1. A Survey on Dialog Management: Recent Advances and Challenges. (from Yinpei Dai, Huihua Yu, Yixuan Jiang, Chengguang Tang, Yongbin Li, Jian Sun)

2. Topological Sort for Sentence Ordering. (from Shrimai Prabhumoye, Ruslan Salakhutdinov, Alan W Black)

3. Exploring Controllable Text Generation Techniques. (from Shrimai Prabhumoye, Alan W Black, Ruslan Salakhutdinov)

4. CODA-19: Reliably Annotating Research Aspects on 10,000+ CORD-19 Abstracts Using Non-Expert Crowd. (from Ting-Hao 'Kenneth' Huang, Chieh-Yang Huang, Chien-Kuang Cornelia Ding, Yen-Chia Hsu, C. Lee Giles)

5. AdapterFusion: Non-Destructive Task Composition for Transfer Learning. (from Jonas Pfeiffer, Aishwarya Kamath, Andreas Rücklé, Kyunghyun Cho, Iryna Gurevych)

6. Extracting Headless MWEs from Dependency Parse Trees: Parsing, Tagging, and Joint Modeling Approaches. (from Tianze Shi, Lillian Lee)

7. Soft Gazetteers for Low-Resource Named Entity Recognition. (from Shruti Rijhwani, Shuyan Zhou, Graham Neubig, Jaime Carbonell)

8. Cross-lingual Entity Alignment for Knowledge Graphs with Incidental Supervision from Free Text. (from Muhao Chen, Weijia Shi, Ben Zhou, Dan Roth)

9. TORQUE: A Reading Comprehension Dataset of Temporal Ordering Questions. (from Qiang Ning, Hao Wu, Rujun Han, Nanyun Peng, Matt Gardner, Dan Roth)

10. Structured Tuning for Semantic Role Labeling. (from Tao Li, Parth Anand Jawale, Martha Palmer, Vivek Srikumar)

本周 10 篇 CV 精選論文是:

1. The AVA-Kinetics Localized Human Actions Video Dataset. (from Ang Li, Meghana Thotakuri, David A. Ross, Joo Carreira, Alexander Vostrikov, Andrew Zisserman)

2. Adversarial Training against Location-Optimized Adversarial Patches. (from Sukrut Rao, David Stutz, Bernt Schiele)

3. Streaming Object Detection for 3-D Point Clouds. (from Wei Han, Zhengdong Zhang, Benjamin Caine, Brandon Yang, Christoph Sprunk, Ouais Alsharif, Jiquan Ngiam, Vijay Vasudevan, Jonathon Shlens, Zhifeng Chen)

4. StereoGAN: Bridging Synthetic-to-Real Domain Gap by Joint Optimization of Domain Translation and Stereo Matching. (from Rui Liu, Chengxi Yang, Wenxiu Sun, Xiaogang Wang, Hongsheng Li)

5. Dual-Sampling Attention Network for Diagnosis of COVID-19 from Community Acquired Pneumonia. (from Xi Ouyang, Jiayu Huo, Liming Xia, Fei Shan, Jun Liu, Zhanhao Mo, Fuhua Yan, Zhongxiang Ding, Qi Yang, Bin Song, Feng Shi, Huan Yuan, Ying Wei, Xiaohuan Cao, Yaozong Gao, Dijia Wu, Qian Wang, Dinggang Shen)

6. CONFIG: Controllable Neural Face Image Generation. (from Marek Kowalski, Stephan J. Garbin, Virginia Estellers, Tadas Baltruaitis, Matthew Johnson, Jamie Shotton)

7. Self-Supervised Human Depth Estimation from Monocular Videos. (from Feitong Tan, Hao Zhu, Zhaopeng Cui, Siyu Zhu, Marc Pollefeys, Ping Tan)

8. Occlusion resistant learning of intuitive physics from videos. (from Ronan Riochet, Josef Sivic, Ivan Laptev, Emmanuel Dupoux)

9. Multi-Head Attention with Joint Agent-Map Representation for Trajectory Prediction in Autonomous Driving. (from Kaouther Messaoud, Nachiket Deo, Mohan M. Trivedi, Fawzi Nashashibi)

10. Enhancing Geometric Factors in Model Learning and Inference for Object Detection and Instance Segmentation. (from Zhaohui Zheng, Ping Wang, Dongwei Ren, Wei Liu, Rongguang Ye, Qinghua Hu, Wangmeng Zuo)

本周 10 篇 ML 精選論文是:

1. Partially-Typed NER Datasets Integration: Connecting Practice to Theory. (from Shi Zhi, Liyuan Liu, Yu Zhang, Shiyin Wang, Qi Li, Chao Zhang, Jiawei Han)

2. Time Dependence in Non-Autonomous Neural ODEs. (from Jared Quincy Davis, Krzysztof Choromanski, Jake Varley, Honglak Lee, Jean-Jacques Slotine, Valerii Likhosterov, Adrian Weller, Ameesh Makadia, Vikas Sindhwani)

3. Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture. (from Christopher Brix, Parnia Bahar, Hermann Ney)

4. Interpreting Rate-Distortion of Variational Autoencoder and Using Model Uncertainty for Anomaly Detection. (from Seonho Park, George Adosoglou, Panos M. Pardalos)

5. Physics-informed neural network for ultrasound nondestructive quantification of surface breaking cracks. (from Khemraj Shukla, Patricio Clark Di Leoni, James Blackshire, Daniel Sparkman, George Em Karniadakiss)

6. Bullseye Polytope: A Scalable Clean-Label Poisoning Attack with Improved Transferability. (from Hojjat Aghakhani, Dongyu Meng, Yu-Xiang Wang, Christopher Kruegel, Giovanni Vigna)

7. Plan2Vec: Unsupervised Representation Learning by Latent Plans. (from Ge Yang, Amy Zhang, Ari S. Morcos, Joelle Pineau, Pieter Abbeel, Roberto Calandra)

8. Demand-Side Scheduling Based on Deep Actor-Critic Learning for Smart Grids. (from Joash Lee, Wenbo Wang, Dusit Niyato)

9. APo-VAE: Text Generation in Hyperbolic Space. (from Shuyang Dai, Zhe Gan, Yu Cheng, Chenyang Tao, Lawrence Carin, Jingjing Liu)

10. EDD: Efficient Differentiable DNN Architecture and Implementation Co-search for Embedded AI Solutions. (from Yuhong Li, Cong Hao, Xiaofan Zhang, Xinheng Liu, Yao Chen, Jinjun Xiong, Wen-mei Hwu, Deming Chen)

相關焦點

  • 谷歌搜索:幾乎所有的英文搜索都用上BERT了
    2019 年 9 月,谷歌宣布將 BERT 用到搜尋引擎中,但僅有 10% 的英文搜索結果得到改善;2019 年 12 月,谷歌將 BERT 在搜尋引擎中的使用擴展到 70 多種語言。如今,這家搜索巨頭終於宣布:幾乎所有英文搜索都能用上 BERT 了。BERT 對於搜尋引擎意味著什麼?
  • 谷歌的KDD 2017:九篇錄用+雙料博士論文獎,超百位員工參與
    一直以來,谷歌都是 KDD 的積極參與者,自然,今年的 KDD 也不例外,一起和雷鋒網 AI 科技評論來看看谷歌是如何深度參與 KDD 的吧。博士論文獎Bryan Perozzi  論文名稱:Local Modeling of Attributed Graphs: Algorithms and Applications論文地址:http://perozzi.net/publications/16_thesis.pdfSIGKDD 2017 的博士論文獎被谷歌的
  • 2020最佳博士論文;南開等提出新型自校準卷積
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括 SIGGRAPH 2020 最佳博士論文,以及南開大學等提出的自校準卷積和相應網絡。
  • 張善政公開論文被瘋傳,網友諷蔡英文:博士論文也不是機密啊?
    據臺灣「中時電子報」報導,國民黨臺灣地區副領導人候選人張善政的美國博士學位被放在選舉公報的經歷欄,引發討論。張善政今天(2日)表示,他的「美國康奈爾大學土木工程博士」學位被放在選舉公報的「經歷」欄而非「學歷」欄,是因趕不上將畢業證書送抵認證,並秀出畢業證書。
  • 7 Papers&Radios|字節跳動全球最大鋼琴MIDI數據集;谷歌新型...
    機器之心 & ArXiv Weekly Radiostation 參與:杜偉、楚航、羅若天 本周的重要論文包括字節跳動發布的全球最大鋼琴 MIDI 數據集,以及谷歌新型 Performer
  • 7 Papers|周志華等NeuralPS2019接收論文;網易用GAN建遊戲角色
    Siddhivinayak Kulkarni論文地址:https://arxiv.org/ftp/arxiv/papers/1908/1908.11863.pdf摘要:在當今時代,生成對抗網絡(GAN)在促進無監督學習取得進展的過程中發揮了至關重要的作用。從文本或其他圖像的圖像合成示例來看,這些對抗網絡的性能較傳統方法有了極大的提升。
  • 谷歌BERT模型狂破11項紀錄,全面超越人類!
    谷歌AI團隊新發布的BERT模型,在機器閱讀理解頂級水平測試SQuAD1.1中表現出驚人的成績:全部兩個衡量指標上全面超越人類!並且還在11種不同NLP測試中創出最佳成績,包括將GLUE基準推至80.4%(絕對改進7.6%),MultiNLI準確度達到86.7% (絕對改進率5.6%)等。
  • 7 Papers|MIT學神開源微分太極;北大等提出沒有乘法的神經網絡
    此外,機器之心聯合由楚航、羅若天發起的 ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括 NLP、CV、ML 領域各 10 篇精選,並提供音頻形式的論文摘要簡介。
  • 169 篇論文帶你看 BERT 在 NLP 中的 2019 年!
    :https://raw.githubusercontent.com/nslatysheva/BERT_papers/master/BERT_Papers.csv如圖為在各篇 BERT 論文上移動滑鼠時出現的數據。
  • 7 Papers & Radios | EMNLP 2020最佳論文;新型優化器AdaBelief
    南加州大學的這項研究提出了一個深度潛變量模型,可以聯合學習技能的嵌入空間和來自離線智能體經驗的技能先驗。研究者將常見的最大熵強化學習方法進行擴展,以使用技能先驗引導下遊學習。該研究在複雜的導航和機器人操作任務中對提出的方法 SPiRL (Skill-Prior RL) 進行驗證,結果表明學得的技能先驗對於從豐富數據集上進行高效技能遷移是必要的。
  • 7 Papers|谷歌等用神經網絡給照片打光,沈向洋等神經語言處理綜述
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文有谷歌等研究機構用神經光傳輸為照片二次打光的探索,以及沈向洋等從建模、學習和推理三方面展開的神經 NLP 綜述。
  • 谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!
    【新智元導讀】谷歌在近期召開的Search On2020大會上,宣布BERT已經佔領了谷歌搜索的高地,幾乎每一個英語查詢背後都有BERT的影子,而BERT竟然只是谷歌「蜂鳥」系統的冰山一角。2018年BERT橫空出世,帶著碾壓級的成績刷榜各種NLP任務。
  • 7 Papers & Radios | 王者榮耀AI絕悟完全體;目標檢測新範式
    目前,研究人員提出大量高效 Transformer 模型(「xformer」),試圖解決該問題。其中很多展示出了媲美原版 Transformer 的性能,同時還能有效降低自注意力機制的內存複雜度。谷歌和 DeepMind 的研究人員提出了一個新基準 Long-Range Arena (LRA),用來對長語境場景下的序列模型進行基準測試。
  • Papers with Code新增CS、物理、數學等多學科
    這次它向多個科學領域擴展,除了機器學習以外,還增加了物理學、數學、計算機科學、統計學和天文學的論文及代碼,並且同樣支持在 arXiv 頁面上添加代碼連結。機器學習資源網站 Papers with Code 自創立以來,憑藉豐富的開放資源和卓越的社區服務,成為機器學習研究者最常用的資源網站之一。
  • 太極二作李子懋獲SIGGRAPH最佳博士論文獎,華人連續三年獲此殊榮
    獲獎博士論文現在我們來看這篇博士論文《Differentiable Visual Computing》的具體內容。這篇博士論文介紹了三個工具,用來解決獲取和應用複雜圖算法導數時遇到的挑戰。可微圖像處理傳統上,從業者往往只能使用有限數量的粗粒度算子或手動導出的導數來編寫程序。該研究利用反向自動微分擴展圖像處理語言 Halide,及其自動優化梯度計算的能力。
  • Jeff Dean在谷歌成眾矢之的:開除「論文不合格」AI倫理研究員,被...
    幾天時間裡,雙方隔空喊話,聲勢愈演愈烈,已有1400名谷歌員工和1900名AI學術圈人士對谷歌的行為表示譴責,其中不乏AI圈的大佬。一向口碑不錯的Jeff Dean,一下子成了「眾矢之的」。這到底是怎麼回事?
  • 一切為了開放科學,Papers with Code新增CS、物理、數學、統計學等...
    這次它向多個科學領域擴展,除了機器學習以外,還增加了物理學、數學、計算機科學、統計學和天文學的論文及代碼,並且同樣支持在 arXiv 頁面上添加代碼連結。目前,Papers with Code 擁有 4583 篇計算機科學論文、3098 篇物理學論文、1724 篇數學論文、1699 篇天文學論文、1277 篇統計學論文。
  • 前谷歌AI倫理專家Timnit Gebru遭東家解僱:論文或為導火索
    據《麻省理工技術評論》報導,前谷歌AI倫理學家Timnit Gebru與人合著的一篇論文對谷歌提出了一些可能棘手的問題,比如AI語言模型是否太大以及科技公司在降低潛在風險方面做得是否足夠。該論文還對大型語言模型的環境成本和固有偏見提出了質疑。
  • 谷歌傳奇Jeff Dean獲2021年IEEE馮諾依曼獎,8頁本科論文被大學圖書...
    歷年來獲得該獎項的,妥妥都是大佬。比如計算機天才科學家Gordon Bell,圖靈獎得主John Edward Hopcroft,吳恩達的導師、UC伯克利分校Michael I. Jordan教授都曾獲得該獎項。谷歌傳奇Jeff DeanJeff Dean,於1968年7月出生在夏威夷。
  • 乾貨| BERT fine-tune 終極實踐教程
    預訓練是BERT很重要的一個部分,與此同時,預訓練需要巨大的運算資源。按照論文裡描述的參數,其Base的設定在消費級的顯卡Titan x 或Titan 1080ti(12GB RAM)上,甚至需要近幾個月的時間進行預訓練,同時還會面臨顯存不足的問題。不過所幸的是谷歌滿足了Issues#2裡各國開發者的請求,針對大部分語言都公布了BERT的預訓練模型。