ML算法實現10萬高壓非晶矽原子模擬;E2E單階段目標檢測

2021-01-11 澎湃新聞

機器之心 & ArXiv Weekly Radiostation

參與:杜偉、楚航、羅若天

本周的重要論文包括牛津大學等機構的學者利用機器學習算法實現 10 萬高壓非晶矽原子的模擬,以及香港大學和字節跳動 AI 實驗室研究者提出的端到端單階段目標檢測器 OneNet。

目錄:

Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis

OneNet: Towards End-to-End One-Stage Object Detection

Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search

Origins of Structural and Electronic Transitions in Disordered Silicon

DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION

AutoDropout: Learning Dropout Patterns to Regularize Deep Networks

ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

論文 1:Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis

作者:Wen Liu、Zhixin Piao、Zhi Tu 等

論文連結:https://arxiv.org/pdf/2011.09055.pdf

摘要:去年,來自上海科技大學和騰訊 AI Lab 的研究者的研究論文《Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis》入選計算機視覺頂會 ICCV 2019。經過一年的努力,該論文所提方法的改進版誕生了。

改進版的優勢在於源圖像的數量從一張變為一組。以動作合成為例,源圖像是一組不同視角的圖像,因此合成結果從多個角度看起來效果更好。具體而言,為了較好地表徵源圖像的識別性信息,該研究採用去噪卷積自動編碼器提取源特徵。此外,該方法還可以支持來自多源的更靈活的 warping。為了進一步提高未知源圖像的泛化能力,該研究採用了 one/few-shot 對抗學習。

訓練 pipeline

LWB 和 AttLWB 的結構

川普版「雞你太美」

推薦:舞蹈的轉身和面向背後的動作合成效果都有所提升。

論文 2:OneNet: Towards End-to-End One-Stage Object Detection

作者:Peize Sun 等

論文連結:https://arxiv.org/abs/2012.05780

摘要:在本文中,來自香港大學和字節跳動 AI 實驗室的研究者發現:標籤分配中樣本與真值之間缺乏分類代價是 one-stage 檢測器移除非最大抑制(NMS)並實現端到端的主要障礙。現有的 one-stage 目標檢測僅通過位置代價來分配標籤,例如框 IoU、點距離。在缺少分類代價的情況,單獨的位置代價將將導致高置信度得分在推理中產生冗餘框,從而使 NMS 成為必要的後處理。

為了設計一種端到端 one-stage 目標檢測器,研究者提出了最小代價分配(Minimum Cost Assignment)。代價是樣本與真值之間的分類代價和位置代價的總和。對於每個目標真值,僅將一個最小代價樣本分配為正樣本,其他都是負樣本。為了評估該方法的有效性,研究者設計了一個非常簡單的 one-stage 檢測器 OneNet。實驗結果表明,在經過「最小代價分配」訓練後,OneNet 避免了產生重複框,並實現了端到端目標檢測。在 COCO 數據集上,OneNet 實現了 35.0 AP/80 FPS 和 37.7 AP/50 FPS,圖像大小為 512 像素。

算法 1 給出了最小代價分配的說明性示例。

OneNet 的流程。

多頭訓練策略。

推薦:首次實現了在 dense detector 中無需 NMS 後處理。

論文 3:Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search

作者:Linnan Wang、Rodrigo Fonseca、Yuandong Tian

論文連結:https://arxiv.org/pdf/2007.00708.pdf

摘要:現實世界的大多數系統是沒有辦法給出一個確切的函數定義,比如機器學習模型中的調參,大規模數據中心的冷藏策略等問題。這類問題統統被定義為黑盒優化。黑盒優化是在沒辦法求解梯度的情況下,通過觀察輸入和輸出,去猜測優化變量的最優解。在過去的幾十年發展中,遺傳算法和貝葉斯優化一直是黑盒優化最熱門的方法。

不同於主流算法,布朗大學的研究者和 Facebook 田淵棟團隊在本文中聯合介紹一個基於蒙特卡洛樹搜索(MCTS)的全新黑盒優化算法,隱動作集蒙特卡洛樹搜索 (LA-MCTS)。LA-MCTS 發表在 2020 年的 NeurIPS,僅僅在文章公開幾個月後,就被來自俄羅斯 JetBrains 和韓國的 KAIST 的隊伍獨立復現,並用來參加 2020 年 NeurIPS 的黑盒優化挑戰,分別取得了第三名和第八名的好成績 。

Evolution 算法的優化過程。

算法的大體框架。

NeurIPS 2020 黑盒優化挑戰賽 leaderboard。

推薦:論文一作王林楠是布朗大學第四年博士生,他的研究方向為人工智慧和超級計算。

論文 4:Origins of Structural and Electronic Transitions in Disordered Silicon

作者:Volker L. Deringer、Noam Bernstein、Gábor Csányi 等

論文連結:https://www.nature.com/articles/s41586-020-03072-z

摘要:依靠算法推斷能力和強大的算力,很多人都認為 AI 在材料設計、材料篩選和材料性能預測等領域擁有很大潛力。為了對一般無序結構材料有更深的理解,人們廣泛研究了非晶矽在高壓條件下的富相行為。然而在和原子打交道的層面上,人們一直需要藉助量子力學來理解材料的結構和鍵合,這僅限於尺度很小的模型系統,如果用機器學習算法從量子力學數據中「學習」會是怎麼樣?

在 2021 年的第一期《自然》雜誌封面研究中,來自牛津大學的 Volker Deringer 等人展示了模擬加壓非晶矽的原子機器學習模型,成功解決了這一挑戰,並捕獲了實驗中遇到的所有結構變化。這種計算方法可以為實驗條件極富挑戰性的材料預測建模開啟全新的方式。這是 2020 年 12 月 DeepMind 人工智慧解決生物學 50 年來重大挑戰之後,人工智慧在又一個新的領域展現強大能力。現在,人類已經能夠實現 10 納米尺度,十萬個矽原子系統的模擬——使用常規方法的話,即使是超級計算機也需要耗費大量時間。

研究者通過機器學習,對包含 10 萬個矽原子的系統從冷卻的液態到 20 萬大氣壓(20GPa)壓縮過程提供了前所未有的結構和鍵能信息。

液態矽的壓縮過程。

過冷液態矽的玻璃化。

推薦:自生物領域之後,材料領域也被人工智慧攻陷了。

論文 5:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION

作者:Pengcheng He、Xiaodong Liu、Jianfeng Gao、Weizhu Chen

論文連結:https://arxiv.org/pdf/2006.03654v2.pdf

摘要:去年 6 月,來自微軟的研究者提出一種新型預訓練語言模型 DeBERTa,該模型使用兩種新技術改進了 BERT 和 RoBERTa 模型。8 月,該研究開源了模型代碼,並提供預訓練模型下載。最近這項研究又取得了新的進展。

微軟最近通過訓練更大的版本來更新 DeBERTa 模型,該版本由 48 個 Transformer 層組成,帶有 15 億個參數。本次擴大規模帶來了極大的性能提升,使得單個 DeBERTa 模型 SuperGLUE 上宏平均(macro-average)得分首次超過人類(89.9 vs 89.8),整體 DeBERTa 模型在 SuperGLUE 基準排名中居於首位,以 90.3 的得分顯著高出人類基線(89.8)。最近該研究在 arXiv 上提交了 DeBERTa 的最新論文,文中詳細介紹了 DeBERTa 模型的方法及最新的實驗結果。

DeBERTa 架構。

在 GLUE 開發集上的結果對比。

SuperGLUE 排行榜,2021 年 1 月 6 日。

推薦:目前該模型以 90.8 的宏平均(macro-average)得分高居 GLUE 基準排名的首位。

論文 6:AutoDropout: Learning Dropout Patterns to Regularize Deep Networks

作者:Hieu Pham、Quoc V. Le

論文連結:https://arxiv.org/pdf/2101.01761.pdf

摘要:最近,來自谷歌大腦的兩位研究者通過研究以往工作中的 dropout 模式,發現這些模式不僅難以設計,而且還需要針對每個模型架構、任務和域進行專門調整。

為了解決這些難題,研究者提出了 AutoDropout,它可以實現專用 dropout 模式設計過程的自動化。AutoDropout 的主要貢獻是一個新穎的結構化 dropout 模式搜索空間。在這個搜索空間中,人們可以為每個模型架構和任務找到適合的 dropout 模式。此外,該搜索空間還泛化了很多現有的 dropout 模式。

實驗結果表明,AutoDropout 找到的 dropout 模式能夠顯著提升常見 ConvNet 和 Transformer 架構的性能。在 ImageNet 數據集上,AutoDropout 將 ResNet-50 的 top-1 準確率從 76.5% 提升至 78.7%,EfficientNet-B7 的性能則從 84.1% 提升至 84.7%。在 CIFAR-10-4000 的半監督設置下,AutoDropout 也將 Wide-ResNet-28-2 的準確率從 94.9% 提升至 95.8%。對於語言建模任務而言,AutoDropout 將 Transformer-XL 在 Penn Treebank 數據集上的困惑度從 56.0 降至 54.9。

AutoDropout 搜索空間中的一種 dropout 模式。

搜索空間中的基本模式是連續矩形。

研究者使用 Transformer 網絡對控制器進行參數化。

推薦:Dropout 也能自動化了,谷歌 Quoc Le 等人利用強化學習自動找尋模型專用 Dropout。

論文 7:ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora

作者:Xuan Ouyang、Shuohuan Wang、Chao Pang 等

論文連結:https://arxiv.org/pdf/2012.15674.pdf

摘要:2021 年伊始,百度在自然語言處理領域取得最新突破,發布多語言預訓練模型 ERNIE-M。ERNIE-M 通過對 96 門語言的學習,使得一個模型能同時理解 96 種語言,該項技術在 5 類典型跨語言理解任務上刷新世界最好效果。在權威跨語言理解榜單 XTREME 上,ERNIE-M 也登頂榜首,超越微軟、谷歌、Facebook 等機構提出的模型。據了解,基於飛槳實現的 ERNIE-M 模型也會於近期開源。

leaderboard。

ERNIE-M 的兩階段預訓練算法。

ERNIE-M 在 Cross-lingual Transfer 和 Multi-language Fine-tuning 兩種模式下驗證了效果,研究者用英語對 ERNIE-M 進行微調訓練,在漢語、德語、烏爾都語等語言上測試,能達到平均準確率 82.0% 的效果。

推薦:同時掌握 96 門語言,取得多項世界突破,百度發布預訓練模型 ERNIE-M。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

本周 9 篇 NLP 精選論文是:

1. Can RNNs learn Recursive Nested Subject-Verb Agreements?. (from Stanislas Dehaene)

2. Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing. (from Jian Sun)

3. Personalized Food Recommendation as Constrained Question Answering over a Large-scale Food Knowledge Graph. (from Mohammed J. Zaki)

4. Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies. (from Dan Roth)

5. I-BERT: Integer-only BERT Quantization. (from Michael W. Mahoney, Kurt Keutzer)

6. Reinforcement Learning based Collective Entity Alignment with Adaptive Features. (from Xuemin Lin)

7. Multitask Learning for Emotion and Personality Detection. (from Erik Cambria)

8. Curriculum-Meta Learning for Order-Robust Continual Relation Extraction. (from Guilin Qi)

9. Taxonomy Completion via Triplet Matching Network. (from Lei Li)

本周 10 篇 CV 精選論文是:

1. LAEO-Net++: revisiting people Looking At Each Other in videos. (from Andrew Zisserman)

2. Learning Temporal Dynamics from Cycles in Narrated Video. (from Cordelia Schmid)

3. Where2Act: From Pixels to Actions for Articulated 3D Objects. (from Leonidas Guibas, Abhinav Gupta)

4. GAN-Control: Explicitly Controllable GANs. (from Gerard Medioni)

5. Safety-Oriented Pedestrian Motion and Scene Occupancy Forecasting. (from Raquel Urtasun)

6. Efficient 3D Point Cloud Feature Learning for Large-Scale Place Recognition. (from Jian Yang)

7. Partial Domain Adaptation Using Selective Representation Learning For Class-Weight Computation. (from Baoxin Li)

8. MSED: a multi-modal sleep event detection model for clinical sleep analysis. (from Poul Jennum)

9. Progressive Self-Guided Loss for Salient Object Detection. (from Weisi Lin)

10. PVA: Pixel-aligned Volumetric Avatars. (from James Hays)

本周 10 篇 ML 精選論文是:

1. Distribution-Free, Risk-Controlling Prediction Sets. (from Jitendra Malik, Michael I. Jordan)

2. AutoDropout: Learning Dropout Patterns to Regularize Deep Networks. (from Quoc V. Le)

3. GraphHop: An Enhanced Label Propagation Method for Node Classification. (from C.-C. Jay Kuo)

4. Reinforcement Learning with Latent Flow. (from Yang Gao, Pieter Abbeel)

5. Cauchy-Schwarz Regularized Autoencoder. (from Maja Pantic)

6. GeCo: Quality Counterfactual Explanations in Real Time. (from Dan Suciu)

7. Few-Shot Learning with Class Imbalance. (from Amos Storkey)

8. Robust Text CAPTCHAs Using Adversarial Examples. (from Cho-Jui Hsieh)

9. Geometric Entropic Exploration. (from Rémi Munos)

10. Do We Really Need Deep Learning Models for Time Series Forecasting?. (from Lars Schmidt-Thieme)

原標題:《7 Papers & Radios | ML算法實現10萬高壓非晶矽原子模擬;E2E單階段目標檢測》

閱讀原文

相關焦點

  • 2021首期自然封面:ML算法實現10萬高壓非晶矽原子的模擬
    依靠算法推斷能力和強大的算力,很多人都認為 AI 在材料設計、材料篩選和材料性能預測等領域擁有很大潛力。為了對一般無序結構材料有更深的理解,人們廣泛研究了非晶矽在高壓條件下的富相行為。然而在和原子打交道的層面上,人們一直需要藉助量子力學來理解材料的結構和鍵合,這僅限於尺度很小的模型系統,如果用機器學習算法從量子力學數據中「學習」會是怎麼樣?
  • 2021首期Nature封面:牛津大學ML算法實現10萬高壓非晶矽原子的模擬
    依靠算法推斷能力和強大的算力,很多人都認為 AI 在材料設計、材料篩選和材料性能預測等領域擁有很大潛力。為了對一般無序結構材料有更深的理解,人們廣泛研究了非晶矽在高壓條件下的富相行為。然而在和原子打交道的層面上,人們一直需要藉助量子力學來理解材料的結構和鍵合,這僅限於尺度很小的模型系統,如果用機器學習算法從量子力學數據中「學習」會是怎麼樣?
  • 整合全部頂尖目標檢測算法:FAIR開源Detectron
    facebookresearch/DetectronDetectron Detectron 是 Facebook AI Research 實現頂尖目標檢測算法Detectron 目前包含以下目標檢測算法的實現:Mask R-CNN (https://arxiv.org/abs/1703.06870)—Marr Prize at ICCV 2017RetinaNet (https
  • 基於CNN的單階段目標檢測器
    R.Joseph基於YOLO作出了一些列的改進,已經提出的v2和v3版本在保持很高的檢測速度的情況下,更進一步提高了檢測的準確度。儘管檢測速度的很大提高,但是相比於兩階段檢測器,其定位的準確性有一定的下降,尤其是對於一些小目標。YOLO隨後的版本和後邊提出的SSD開始聚焦這個問題。
  • 融合視頻目標檢測與單目標、多目標跟蹤,港中文開源視頻感知平臺
    首個開源一體化視頻目標感知平臺對視頻內的目標進行感知識別一直是學界、業界都非常關心的問題。這個問題在學界常被細分為不同的子問題,比如視頻目標檢測、多目標跟蹤與單目標跟蹤。具體來說,視頻目標檢測只需對視頻內的每一幀進行檢測,不要求對不同幀中的同一目標進行關聯。多目標檢測在完成視頻目標檢測的基礎上,更加側重於對視頻內的同一目標進行關聯。
  • ...檢測與單目標、多目標跟蹤,港中文開源一體化視頻感知平臺MM...
    首個開源一體化視頻目標感知平臺對視頻內的目標進行感知識別一直是學界、業界都非常關心的問題。這個問題在學界常被細分為不同的子問題,比如視頻目標檢測、多目標跟蹤與單目標跟蹤。具體來說,視頻目標檢測只需對視頻內的每一幀進行檢測,不要求對不同幀中的同一目標進行關聯。
  • 機器學習模擬1億原子:中美團隊獲2020「超算諾貝爾獎」戈登貝爾獎
    雖然近年來分子動力學領域湧現了一些其他的基於機器學習的模擬方法,但獲獎論文的作者表示,他們的研究首次在保持「從頭算」精度的前提下實現了 1 億個原子的高效分子動力學模擬。 具體來說,之前模擬的系統最大包含 100 萬個矽原子(速度 = 4X 10^(-3) s/step/atom),模擬速度最快達到 1.3X 10^(-6) s/step/atom (9000 個水原子系統)。
  • 輕鬆識別小目標的物體檢測算法揭秘
    在眾多模型使用場景中,小目標物體的檢測比較常見,一般的目標檢測算法往往效果不理想;因此,EasyDL團隊針對小目標物體的檢測進行了專項優化,並取得了令人矚目的效果提升。自AlexNet在2012年ImageNet比賽上展露頭角以來,計算機視覺各個方向和神經網絡的聯繫變得越發緊密,物體檢測也不例外。
  • ILSVRC2016目標檢測任務回顧——視頻目標檢測(VID)
    一、單幀圖像目標檢測此階段通常將視頻拆分成相互獨立的視頻幀來處理,通過選取優秀的圖像目標檢測框架以及各種提高圖像檢測精度的技巧來獲取較為魯棒的單幀檢測結果。首先對ILSVRC2016 VID訓練數據進行分析: VID資料庫包含30個類別,訓練集共有3862個視頻片段,總幀數超過112萬。單從數字上看,這麼大的數據量訓練30個類別的檢測器似乎已經足夠。然而,同一個視頻片段背景單一,相鄰多幀的圖像差異較小。所以要訓練現有目標檢測模型,VID訓練集存在大量數據冗餘,並且數據多樣性較差,有必要對其進行擴充。
  • DAC快速目標檢測算法優化和架構設計優化方案
    其中系統設計競賽(System Design Contest, SDC)的任務為面向端側設備進行快速的目標檢測。該比賽由Xilinx、大疆和英偉達贊助。該比賽針對比賽方給定無人機視角的訓練數據集(9萬張解析度為360x640的圖片,單目標標註)進行訓練,在比賽方自有的5萬張測試數據集上進行測試。最終檢測精度IoU(Intersection over Union)高、且能量消耗低者勝出。
  • 基於DDS的單脈衝體制雷達目標模擬的實現
    利用DDS晶片AD9857設計了一種單脈衝體制雷達的目標模擬器。通過數字交匯技術將模擬目標和雷達掃描波束進行交匯,計算出DDS晶片的控制參數。在某雷達調試過程中,驗證了該目標模擬器的有效性。關鍵詞 單脈衝;目標模擬;比幅測角;和差波束 單脈衝體制雷達能在一個回波脈衝內獲得關於目標位置的全部信息,這使雷達在工作過程中節約了大量的時間和能量,所以得到廣泛應用。單脈衝測角方法主要有3種:幅度比較法、相位比較法和幅度相位比較法。
  • 非晶矽薄膜電池三年後或平價上網
    非晶矽薄膜電池從開發成功至今已近50年,非晶矽薄膜電池25年的使用壽命也為實踐所證明。美國科羅拉公司在洛杉磯建設的一處非晶矽薄膜電池電站就已經正常運行了17年。歐洲TV(德國技術監督協會)和美國UL(保險商實驗所)等認證機構對非晶矽薄膜電池認證進行苛刻的模擬試驗,也證明了薄膜電池具有25年使用壽命,且衰減率達到設計要求。可以說,25年是一個被實踐證明、被科學檢測證明的時限。
  • 增量學習不只有finetune,三星AI提增量式少樣本目標檢測算法|CVPR...
    論文的主要貢獻如下:在增量式少樣本目標檢測問題上,論文首次嘗試減少常規需要深度訓練的目標檢測算法對大量訓練數據進行批量訓練的依賴提出無限制CentreNet(OpeN-ended Centre nEt, ONCE),將CentreNet適應到增量式少樣本場景中
  • 【對比學習】非製冷紅外探測器:氧化釩與非晶矽優缺點?
    第四部分:氧化釩與非晶矽的相同點:1、 生產工藝相同微測輻射熱計技術與CMOS工藝兼容,能夠與CMOS讀出電路單片集成,可基於半導體製造工藝進行大規模生產,是非製冷紅外焦平面探測器的主流技術。2、 薄膜種類相同氧化釩薄膜與非晶矽薄膜都是半導體熱敏薄膜,薄膜TCR與電阻率都成正比關係。
  • 使用PyTorch實現目標檢測與跟蹤
    本文將展示如何使用預訓練的分類器檢測圖像中的多個對象,並在視頻中跟蹤它們。 圖像中的目標檢測 目標檢測的算法有很多,YOLO跟SSD是現下最流行的算法。在本文中,我們將使用YOLOv3。
  • 基於卷積神經網絡的目標檢測算法簡介
    什麼是目標檢測?目標檢測的主要任務是從圖像中定位感興趣的目標,需要準確判斷每個目標的具體類別,並給出每個目標的邊界框。2. 實現目標檢測需要哪些步驟?要實現目標檢測,傳統的方法主要分為預處理、窗口華東、特徵提取、特徵選擇、特徵分類和後處理六個步驟。
  • 「少即是多」的目標檢測算法Sparse R-CNN
    近幾年來,目標檢測算法發展迅速,許多新出現的目標檢測範式有著很強的相同之處,如Anchor-Free的方法中不依賴於Anchor的目標檢測範式:CenterNet兼有結構簡單和高的準確率;FCOS創新性目標檢測思路。
  • 大盤點|性能最強的目標檢測算法
    本文便對mAP最高的目標檢測算法進行了盤點。趁最近目標檢測(Object Detection)方向的論文更新較少,趕緊做個"最強目標檢測算法"大盤點。要知道衡量目標檢測最重要的兩個性能就是 精度和速度,特指mAP 和 FPS。
  • 科學網— 首次實現燃料燃燒高精度計算機模擬
    本報訊(記者黃辛)華東師範大學化學與分子工程學院朱通團隊結合人工智慧算法、量子化學理論以及分子動力學方法,實現了燃料燃燒的高精度計算機模擬
  • 未來暢想:如何實現100萬個量子比特的糾纏和量子計算
    當晶片集成比特數達到數千個以後,按照現有的模式,用室溫電子學控制設備控制每一個比特幾乎不可能實現,需要將比特的控制部分和量子晶片集成,能夠達到這個目標的唯一技術是超導電子學。目前超導電子學技術還處在非常基礎的階段,實際應用非常少,如何與量子晶片集成更是有待研究的全新課題; 四、大功率極低溫制冷機。