由於全球新冠疫情仍未結束,今年不少學術會議延期或取消,召開的也大多在線上舉行。儘管2020年發生了很多事情,研究者們仍然為人工智慧技術的進步做出了大量重要的貢獻。
位於蒙特婁的 AI 內容創作者 Louis Bouchard (他的 YouTube 帳號叫 What's AI) 匯總了一份2020年最值得關注的 AI 論文名單(https://github.com/louisfb01/Best_AI_paper_2020 )。除了在相關領域內的各項指標上創造了新紀錄,在應用層面帶來了新的思路,這些論文也對偏見等 AI 道德方面的議題有所探討。
為了讀者的方便,Bouchard 還非常貼心地為入選的每篇論文,都提供了視頻、短文介紹、論文連結和代碼地址,幫助大家更快速理解論文的核心內容,還能最快速度上手用起來。
但首先,Bouchard 用一條視頻匯總了這些論文的內容,還加上了包括 Gary Marcus、李飛飛、Luis Lamb 等 AI 大牛在今年發表過的對 AI 的展望:
以下是 Bouchard 整理的2020最佳AI論文列表,排名不分先後:
YOLOv4: Optimal Speed and Accuracy of Object Detection簡介:全稱 You Only Look Once,YOLO 是一個超快速識別物體的計算機視覺算法,在今年4月已經升級到了第四版,來自作者 Alexey Bochkovsky 等人。
這篇論文最大的進步來自於研究者採用的數據增強方法,叫做"Mosaic and Self-adversarial training"(馬賽克和自我對抗訓練),使得 YOLOv4 的實時物體識別速度依然驚人,並且這一次在識別準確率上也有了非常大的提升。YOLOv4 在很多需要物體識別的場景都能排上用場,對於那些需要實時、高精度識別的場景更是十分關鍵。
論文連結:https://arxiv.org/abs/2004.10934
作者撰寫的介紹文章:https://bit.ly/3rM3ubJ
代碼:https://github.com/AlexeyAB/darknet
DeepFaceDrawing: Deep Generation of Face Images from Sketches這篇論文提出的算法很有意思,正如上圖所示,給它一張隨筆肖像,它就能生成惟妙惟肖的「真」人頭像——當然,肯定是假的,但看起來足以亂真。
這個 AI 也有很大用處,比如警察辦案查找疑犯,或者各種需要大量「真」人頭像填充的設計用途。但同時值得提及的是,不合理的使用這項技術可能會引發道德問題。
比如,今年就有一些海外媒體曾被爆出,一些評論員文章的作者其實都是假的,這些人有偽造的姓名、供職單位和教育經歷,再配上一張頭像,創建一個社交網絡帳號,迷惑性極強。
論文連結:https://bit.ly/37Y54za
What's AI 短文介紹:https://bit.ly/2JtvJdI
代碼:https://github.com/IGLICT/DeepFaceDrawing-Jittor
Learning to Simulate Dynamic Environments with GameGAN這項研究由英偉達多倫多AI實驗室和日本遊戲大廠萬代南夢宮 *BANDAI NAMCO) 一同開發,技術來自前者,數據來自後者。
簡單來說,僅對簡單的遊戲錄像和玩家輸入進行學習,GameGAN 就能夠模擬出接近真實遊戲的環境,還不需要遊戲引擎和底層代碼。它的底層是在 AI 領域很有名的生成對抗網絡 (GAN)。
正是因為它的學習方式很簡單,任何遊戲它都能模擬出來,除了吃豆人這樣的2D遊戲,連 DOOM 這種3D遊戲都可以。英偉達指出,這項技術有助於遊戲開發者為已有的遊戲開發全新的關卡。
論文連結:https://arxiv.org/pdf/2005.12126.pdf
英偉達論文介紹:https://bit.ly/2WXLg8G
代碼:https://github.com/nv-tlabs/GameGAN_code
PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models在歐美電影裡,你一定見過特工們對著一個模糊的監控錄像說「增強」,旁邊的技術員一通操作就真的做到了……這曾經是個經典熒幕梗,但隨著 AI 技術的進步,竟然還就真的實現了。
PULSE 是一個所謂的「超級解析度」算法,可以把一張最低16*16的照片增強到1080p的清晰度。當然,出來的照片肯定還是假的,畢竟是計算計算出來的,但 PULSE 採用了自我監督,用多張同一個人不同表情的高清照片進行壓縮訓練,結果是生成的高清假照片,其實和低清晰度照片的主人非常接近。
論文連結:https://arxiv.org/abs/2003.03808
論文介紹:https://bit.ly/2WXkPzX
代碼:https://github.com/adamian98/pulse
Unsupervised Translation of Programming Languages在兩種程式語言之間互譯,需要「原始碼到原始碼編譯器」(transcompiler)。這類編譯器通常依賴大量人工鋪路搭橋,比如手寫規則,非常耗時,而且效果不太好,翻譯出來的語法也經常不對,需要進一步的人工編輯。
正如標題,Facebook AI 開發的這個 AI 結合了機器翻譯方面的一些最佳研究,採用非監督學習技術,能夠在 C++ 和 Python 兩種程式語言的函數之間進行互譯,而且能夠理解不同語言的語法,能夠泛化到 Java 等其它語言。
論文連結:https://arxiv.org/abs/2006.03511
論文介紹:https://medium.com/what-is-artificial-intelligence/this-ai-translates-code-from-a-programming-language-to-another-facebook-transcoder-explained-3017d052f4fd
代碼:https://bit.ly/3aSrZO5
PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization這篇論文我們寫過:G7領導人大跳神曲?這個三維生成AI要被網友玩壞了。它提出了一種全新的基於神經網絡的算法:只用一張人物全身正面照片,幾分鐘的計算時間,就可以自動重建高解析度細節豐富的3D模型。
和已存在的類似技術相比,PIFuHD的長處是:1)對於來源照片裡並不存在的身體部位,比如背部,它可以」猜「出一個大概的,符合常理的結果。2)能夠同時高精度還原照片中的人體模型和服裝細節。
網友用這個算法進行了很多很搞笑的二次創作,比如把 G7 領導人複製成3D模型,強迫他們跳舞:
論文連結:https://arxiv.org/pdf/2004.00452.pdf
論文介紹:閱讀此文
代碼:https://github.com/facebookresearch/pifuhd
High-Resolution Neural Face Swapping for Visual Effects過去幾年,各種換臉工具我們都見過、玩過不少了。迪士尼也在研究這項技術,他們的研究員在這片論文裡提出了一個算法,能夠生成百萬像素解析度的換臉視頻。換臉視頻往往會出現各種瑕疵讓人一看就知道是假的,不過迪士尼在這一點上想要做到盡善盡美。
這項技術在電影拍攝中很有用處。比方說,過去讓大牌演員演打戲,往往都要用到武替,一般都是不露面或者快速閃過側臉,儘量讓觀眾看不出來,但凡露面的,都需要大量的後期逐幀修改。現在有了這項技術,就可以直接把演員的臉嵌套到原始素材上,極大地降低後期製作成本,提高電影製作的效率。
論文連結:https://bit.ly/2WRMnH0
論文介紹:https://bit.ly/2X8i7rL
GPT-3: Language Models are Few-Shot learnersGPT-3 我們已經寫過很多次了,你可以通過此文了解這個史無前例版巨大的1750億參數量的文本生成模型。隨著 GPT-3 的發布,開發機構 OpenAI 也提供了可調用的 API 給開發者使用,而開發者用它做出了各種各樣的神奇 demo。
論文連結:https://arxiv.org/abs/2005.14165
中文介紹:閱讀此文
代碼:https://github.com/openai/gpt-3
Learning Joint Spatial-Temporal Transformations for Video Inpainting我們都知道摳圖這件事,也就是從一張照片中把背景去掉,摳出主題的人和物。但如果你想要把前臺的主題摳掉,保留一個完整的背景那就難了,畢竟主題把背景蓋住了。
這篇論文解決的就是摳背景的難題,而且還是在視頻上做。研究者設計了一個空間-時間 Transformer 神經網絡,同時對視頻的所有幀進行填補,效果優於已知的類似技術。
論文連結:https://arxiv.org/abs/2007.10247
論文簡介:https://bit.ly/34VFbOr
Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments操控機器人很容易,你只需要告訴它前進、後退、左轉和右轉。用自然語言對一個基於計算機視覺的機器人進行導航控制,難度則在另一個級別上了。正因為此,過去幾年裡有一些在此方面實現了重大突破的論文,在各大學術會議上都拿了獎。
來自俄勒岡州立大學、喬治亞理工和 Facebook AI 實驗室的研究員,共同開發了這樣一個自然語言導航模型,能夠讓機器人在完全未知的三維場景下,僅通過」前面過門往左轉「、」停在茶几旁邊「諸如此類的自然語言命令來實現三維視覺導航。
論文地址:https://arxiv.org/abs/2004.02857
論文簡介:https://bit.ly/3pMfPLd
代碼:https://github.com/jacobkrantz/VLN-CE
以上就是我們從 Louis Bouchard 匯總的2020最佳AI論文裡精選的十篇優秀論文。你還可以訪問 https://github.com/louisfb01/Best_AI_paper_2020 繼續翻閱其它入選論文,比如老照片翻新、修改照片人物年齡、用計算機視覺算法取代綠幕等等——都很值得一看。
本文內容大部分來自 Bouchard 的匯總結果,矽星人僅提供部分中文翻譯和一些補充解讀。