2020最佳AI論文,都在這裡了

2021-01-08 品玩

由於全球新冠疫情仍未結束，今年不少學術會議延期或取消，召開的也大多在線上舉行。儘管2020年發生了很多事情，研究者們仍然為人工智慧技術的進步做出了大量重要的貢獻。

位於蒙特婁的 AI 內容創作者 Louis Bouchard (他的 YouTube 帳號叫 What's AI) 匯總了一份2020年最值得關注的 AI 論文名單（https://github.com/louisfb01/Best_AI_paper_2020 ）。除了在相關領域內的各項指標上創造了新紀錄，在應用層面帶來了新的思路，這些論文也對偏見等 AI 道德方面的議題有所探討。

為了讀者的方便，Bouchard 還非常貼心地為入選的每篇論文，都提供了視頻、短文介紹、論文連結和代碼地址，幫助大家更快速理解論文的核心內容，還能最快速度上手用起來。

但首先，Bouchard 用一條視頻匯總了這些論文的內容，還加上了包括 Gary Marcus、李飛飛、Luis Lamb 等 AI 大牛在今年發表過的對 AI 的展望：

以下是 Bouchard 整理的2020最佳AI論文列表，排名不分先後：

YOLOv4: Optimal Speed and Accuracy of Object Detection

簡介：全稱 You Only Look Once，YOLO 是一個超快速識別物體的計算機視覺算法，在今年4月已經升級到了第四版，來自作者 Alexey Bochkovsky 等人。

這篇論文最大的進步來自於研究者採用的數據增強方法，叫做"Mosaic and Self-adversarial training"（馬賽克和自我對抗訓練），使得 YOLOv4 的實時物體識別速度依然驚人，並且這一次在識別準確率上也有了非常大的提升。YOLOv4 在很多需要物體識別的場景都能排上用場，對於那些需要實時、高精度識別的場景更是十分關鍵。

論文連結：https://arxiv.org/abs/2004.10934

作者撰寫的介紹文章：https://bit.ly/3rM3ubJ

代碼：https://github.com/AlexeyAB/darknet

DeepFaceDrawing: Deep Generation of Face Images from Sketches

這篇論文提出的算法很有意思，正如上圖所示，給它一張隨筆肖像，它就能生成惟妙惟肖的「真」人頭像——當然，肯定是假的，但看起來足以亂真。

這個 AI 也有很大用處，比如警察辦案查找疑犯，或者各種需要大量「真」人頭像填充的設計用途。但同時值得提及的是，不合理的使用這項技術可能會引發道德問題。

比如，今年就有一些海外媒體曾被爆出，一些評論員文章的作者其實都是假的，這些人有偽造的姓名、供職單位和教育經歷，再配上一張頭像，創建一個社交網絡帳號，迷惑性極強。

論文連結：https://bit.ly/37Y54za

What's AI 短文介紹：https://bit.ly/2JtvJdI

代碼：https://github.com/IGLICT/DeepFaceDrawing-Jittor

Learning to Simulate Dynamic Environments with GameGAN

這項研究由英偉達多倫多AI實驗室和日本遊戲大廠萬代南夢宮 *BANDAI NAMCO) 一同開發，技術來自前者，數據來自後者。

簡單來說，僅對簡單的遊戲錄像和玩家輸入進行學習，GameGAN 就能夠模擬出接近真實遊戲的環境，還不需要遊戲引擎和底層代碼。它的底層是在 AI 領域很有名的生成對抗網絡 (GAN)。

正是因為它的學習方式很簡單，任何遊戲它都能模擬出來，除了吃豆人這樣的2D遊戲，連 DOOM 這種3D遊戲都可以。英偉達指出，這項技術有助於遊戲開發者為已有的遊戲開發全新的關卡。

論文連結：https://arxiv.org/pdf/2005.12126.pdf

英偉達論文介紹：https://bit.ly/2WXLg8G

代碼：https://github.com/nv-tlabs/GameGAN_code

PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models

在歐美電影裡，你一定見過特工們對著一個模糊的監控錄像說「增強」，旁邊的技術員一通操作就真的做到了……這曾經是個經典熒幕梗，但隨著 AI 技術的進步，竟然還就真的實現了。

PULSE 是一個所謂的「超級解析度」算法，可以把一張最低16*16的照片增強到1080p的清晰度。當然，出來的照片肯定還是假的，畢竟是計算計算出來的，但 PULSE 採用了自我監督，用多張同一個人不同表情的高清照片進行壓縮訓練，結果是生成的高清假照片，其實和低清晰度照片的主人非常接近。

論文連結：https://arxiv.org/abs/2003.03808

論文介紹：https://bit.ly/2WXkPzX

代碼：https://github.com/adamian98/pulse

Unsupervised Translation of Programming Languages

在兩種程式語言之間互譯，需要「原始碼到原始碼編譯器」(transcompiler)。這類編譯器通常依賴大量人工鋪路搭橋，比如手寫規則，非常耗時，而且效果不太好，翻譯出來的語法也經常不對，需要進一步的人工編輯。

正如標題，Facebook AI 開發的這個 AI 結合了機器翻譯方面的一些最佳研究,採用非監督學習技術，能夠在 C++ 和 Python 兩種程式語言的函數之間進行互譯，而且能夠理解不同語言的語法，能夠泛化到 Java 等其它語言。

論文連結：https://arxiv.org/abs/2006.03511

論文介紹：https://medium.com/what-is-artificial-intelligence/this-ai-translates-code-from-a-programming-language-to-another-facebook-transcoder-explained-3017d052f4fd

代碼：https://bit.ly/3aSrZO5

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

這篇論文我們寫過：G7領導人大跳神曲？這個三維生成AI要被網友玩壞了。它提出了一種全新的基於神經網絡的算法：只用一張人物全身正面照片，幾分鐘的計算時間，就可以自動重建高解析度細節豐富的3D模型。

和已存在的類似技術相比，PIFuHD的長處是：1）對於來源照片裡並不存在的身體部位，比如背部，它可以」猜「出一個大概的，符合常理的結果。2）能夠同時高精度還原照片中的人體模型和服裝細節。

網友用這個算法進行了很多很搞笑的二次創作，比如把 G7 領導人複製成3D模型，強迫他們跳舞：

論文連結：https://arxiv.org/pdf/2004.00452.pdf

論文介紹：閱讀此文

代碼：https://github.com/facebookresearch/pifuhd

High-Resolution Neural Face Swapping for Visual Effects

過去幾年，各種換臉工具我們都見過、玩過不少了。迪士尼也在研究這項技術，他們的研究員在這片論文裡提出了一個算法，能夠生成百萬像素解析度的換臉視頻。換臉視頻往往會出現各種瑕疵讓人一看就知道是假的，不過迪士尼在這一點上想要做到盡善盡美。

這項技術在電影拍攝中很有用處。比方說，過去讓大牌演員演打戲，往往都要用到武替，一般都是不露面或者快速閃過側臉，儘量讓觀眾看不出來，但凡露面的，都需要大量的後期逐幀修改。現在有了這項技術，就可以直接把演員的臉嵌套到原始素材上，極大地降低後期製作成本，提高電影製作的效率。

論文連結：https://bit.ly/2WRMnH0

論文介紹：https://bit.ly/2X8i7rL

GPT-3: Language Models are Few-Shot learners

GPT-3 我們已經寫過很多次了，你可以通過此文了解這個史無前例版巨大的1750億參數量的文本生成模型。隨著 GPT-3 的發布，開發機構 OpenAI 也提供了可調用的 API 給開發者使用，而開發者用它做出了各種各樣的神奇 demo。

論文連結：https://arxiv.org/abs/2005.14165

中文介紹：閱讀此文

代碼：https://github.com/openai/gpt-3

Learning Joint Spatial-Temporal Transformations for Video Inpainting

我們都知道摳圖這件事，也就是從一張照片中把背景去掉，摳出主題的人和物。但如果你想要把前臺的主題摳掉，保留一個完整的背景那就難了，畢竟主題把背景蓋住了。

這篇論文解決的就是摳背景的難題，而且還是在視頻上做。研究者設計了一個空間-時間 Transformer 神經網絡，同時對視頻的所有幀進行填補，效果優於已知的類似技術。

論文連結：https://arxiv.org/abs/2007.10247

論文簡介：https://bit.ly/34VFbOr

Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments

操控機器人很容易，你只需要告訴它前進、後退、左轉和右轉。用自然語言對一個基於計算機視覺的機器人進行導航控制，難度則在另一個級別上了。正因為此，過去幾年裡有一些在此方面實現了重大突破的論文，在各大學術會議上都拿了獎。

來自俄勒岡州立大學、喬治亞理工和 Facebook AI 實驗室的研究員，共同開發了這樣一個自然語言導航模型，能夠讓機器人在完全未知的三維場景下，僅通過」前面過門往左轉「、」停在茶几旁邊「諸如此類的自然語言命令來實現三維視覺導航。

論文地址：https://arxiv.org/abs/2004.02857

論文簡介：https://bit.ly/3pMfPLd

代碼：https://github.com/jacobkrantz/VLN-CE

以上就是我們從 Louis Bouchard 匯總的2020最佳AI論文裡精選的十篇優秀論文。你還可以訪問 https://github.com/louisfb01/Best_AI_paper_2020 繼續翻閱其它入選論文，比如老照片翻新、修改照片人物年齡、用計算機視覺算法取代綠幕等等——都很值得一看。

本文內容大部分來自 Bouchard 的匯總結果，矽星人僅提供部分中文翻譯和一些補充解讀。

2020最佳AI論文,都在這裡了

相關焦點

AI界的State of the Art都在這裡了

就算戴上口罩，AI也知道你在說啥丨EMNLP2020最佳論文

ICRA 2020最佳論文授予加州理工和清華:首個自適應外骨骼步態AI算法

CoRL 2020獎項公布,斯坦福最佳論文,華為等獲得最佳系統論文獎

【ICCV2017視覺盛宴概況】何愷明博士包攬最佳論文和最佳學生論文獎!Facebook成大贏家!

最佳論文最佳學生論文一作均為華人,清華最高產機構

ACCV 2020最佳論文等三項大獎出爐!華為諾亞獲最佳學生論文獎

CoRL2020獎項公布,斯坦福獲最佳論文獎,華為等摘得最佳系統論文獎

CIKM 2020最佳論文出爐!NUS和RMIT同獲最佳長論文獎

強調應用的WACV 2021,5篇最佳論文都在這裡了

ACM MM 2020大獎項出爐!南開獲最佳論文獎,西安交大獲最佳學生論文獎

ACL 2018最佳論文公布!計算語言學最前沿研究都在這裡了

300篇 CVPR 2019 Oral 論文精選匯總,值得一看的 CV 論文都在這裡

北大圖靈班本科生吳克文獲STOC 2020最佳論文獎

AI專家們推薦的13篇「必讀」論文

浙大畢業,李飛飛高徒朱玉可加盟UTAustin,曾獲ICRA2019最佳論文

推薦系統頂會RecSys2020大獎出爐!騰訊摘獲最佳長論文獎

漫畫翻譯、嵌字 AI,東京大學論文被 AAAI』21 收錄

全球三十大最佳 AI 創業公司公布

7 Papers & Radios | EMNLP 2020最佳論文;新型優化器AdaBelief