【ICML2018】63篇強化學習論文全解讀

2021-02-13 專知

【導讀】一年一度的國際機器學習會議( ICML ),於7月15日在瑞典斯德哥爾摩閉幕,ICML 的會議日程之緊湊,會議內容之豐富,令人目不暇接。今年從2,473份提交論文中接收了621篇,其中有63餘篇強化學習相關論文,作者將這些論文分成了多個類別,並對每篇文章的核心貢獻做了精煉的總結,這些文章也是追蹤強化學習最前沿技術的絕佳材料,精煉的總結也也便於我們快速查找與自己研究相關的文章。

作者 | Jian Zhang

編譯 | Sanglei, Shengsheng

A Comprehensive Summary and Categorization on Reinforcement Learning Papers at ICML 2018

會議概述

強化學習分類

我將接受的所有RL論文分類為以下主題:

強化學習理論(Theory)--- 8篇

強化學習網絡(Network)---3篇

強化學習算法(Algorithms)6篇

強化學習優化(Optimization)8篇

強化學習探索(Exploration)4篇

強化學習激勵(Reward) 4篇

基於模型的強化學習(Model-based)5篇

分布式強化學習(Distributed)3篇

層次強化學習(Hierarchical)5篇

多智能體(Multi-agent)6篇

元學習(Meta-learning)遷移(Transfer)終身學習(Lifelong Learning)   5篇

應用及其它(Applications)6篇

1. RL Theory:

Problem DependentReinforcement Learning Bounds Which Can Identify Bandit Structure in MDPs  -> 非標準轉換模型,學習將MPDs轉換為MACs。

Learning with Abandonment-> 非標準轉換模型,一個想要為每個用戶學習個性化策略的平臺,但該平臺面臨用戶在不滿意平臺操作時放棄平臺的風險。

Global Convergence ofPolicy Gradient Methods for the Linear Quadratic Regulator -> LQR證明

More Robust Doubly RobustOff-policy Evaluation -> 通過另一個策略生成的數據來估計策略的性能。

Best Arm Identification inLinear Bandits with Linear Dimension Dependency->利用全局線性結構來提高對接近最優臂的獎勵估計。

Convergent Tree Backup andRetrace with Function Approximation->穩定高效的基於梯度的算法,使用二次凸凹鞍點公式

Time Limits inReinforcement Learning -> 正式解釋了在案例中如何有效地處理時間限制,並解釋了為什麼不這樣做會引起經驗重複的狀態混淆和失效,導致次優策略和訓練不穩定。對於固定期限,由於時間限制的終止實際上是環境的一部分,因此剩餘時間的概念應該作為代理輸入的一部分,以避免違反Markov屬性。

Configurable MarkovDecision Processes-> 在許多現實問題中,有可能在一定程度上配置一些環境參數,以提高學習代理的性能。一種新的學習算法—安全策略模型迭代(SPMI),聯合自適應地優化策略和環境配置。

 

2. RL Network:

Structured Control Netsfor Deep Reinforcement Learning ->提出的結構化控制網將通用MLP分成兩個獨立的子模塊:非線性控制模塊和線性控制模塊。非線性控制用於前視和全局控制,而線性控制穩定圍繞全局控制殘差的局部動態

Gated Path PlanningNetworks ->將VINs重構為遞歸卷積網絡,這表明VINs將周期性卷積與非傳統的最大池化激活相結合。門控循環更新方程可以緩解困擾VIN的優化問題。

Universal Planning Networks: Learning GeneralizableRepresentations for Visuomotor Control ->這個規劃計算在一個潛在的空間中展開一個正向模型,通過梯度下降軌跡優化來推斷一個最優的行動計劃,優化一個監督模擬學習目標。在解決基於圖像的目標描述的新任務時,學習到的表示還提供了使用圖像指定目標的度量。

3. RL Algorithms:

SBEED: ConvergentReinforcement Learning with Nonlinear Function Approximation->使用Nesterov的平滑技術和Legendre-Fenchel 變換將Bellman方程重構為一個新的原始對偶優化問題,開發一種新的算法,稱為平滑Bellman誤差嵌入,以解決這個優化問題可以使用任何可微函數類。

Scalable Bilinear PiLearning Using State and Action Features->對於大規模馬爾可夫決策過程(MDP),我們研究近似線性規劃的原始對偶公式,並開發一種可擴展的,無模型的算法,稱為雙線性pi學習,用於在提供採樣oracle時的強化學習。

Beyond the One-Step GreedyApproach in Reinforcement Learning->分析了多步超前策略改進的情況;制定多步策略改進的變體,使用這些定義推導出新的算法並證明它們的收斂性。

Importance WeightedTransfer of Samples in Reinforcement Learning->從一組源任務中收集的經驗樣本的轉移,以改進給定目標任務中的學習過程。提出了一種基於模型的技術,該技術可以自動評估每個源樣本的相關性(重要性權重)來解決目標任務。

Addressing Function ApproximationError in Actor- Critic Methods->算法建立在雙Q學習的基礎上,通過取一對批評者之間的最小值來限制過高估計;延遲策略更新以減少每次更新錯誤。

Policy Optimization withDemonstrations->利用可用的演示,通過在已學習的策略和當前演示之間實施佔用度量匹配來指導探索,以實現隱式動態獎勵形成。

4. RL Optimization:

Policy Optimization asWasserstein Gradient Flows->在概率度量空間上,策略優化在分布優化方面變為凸,解釋為Wasserstein梯度流。

Clipped Action PolicyGradient ->利用被剪裁的動作的知識來減少估計的方差。

Fourier Policy Gradients ->將期望策略梯度產生的積分重新整合為卷積並將其轉換為乘法。

Structured Evolution withCompact Architectures for Scalable Policy Optimization ->通過使用結構化隨機正交矩陣的梯度近似進行黑盒優化,提供比基線更準確的估計,並具有可證明的理論保證。

StochasticVariance-Reduced Policy Gradient->利用重要性權重來保持梯度估計的無偏差。

The Mirage ofAction-Dependent Baselines in Reinforcement Learning ->分解了策略梯度估計量的方差,數值模擬表明,在通常測試的基準域中,學習的依賴狀態動作的基線實際上並沒有減少與狀態相關的基線的方差。

Smoothed Action ValueFunctions for Learning Gaussian Policies->一個由高斯平滑的期望Q值定義的行為值的新概念。由平滑Q值函數的梯度和Hessian可以恢復參數化高斯策略的預期獎勵的梯度和協方差。在訓練過程中學習均值和協方差的能力可以顯著提高標準連續控制基準的結果。

Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor->提出了soft actor-critic,基於最大熵強化學習框架的非策略行動者-評論者(actor-critic)深度RL算法。行動者的目標是最大化預期的回報,同時也最大化熵——在任務中儘可能隨機地成功。

5. RL Exploration:

Self-Imitation Learning ->利用過去的良好經驗可以間接地推動深度探索。

Coordinated Exploration inConcurrent Reinforcement Learning ->強化學習代理團隊,該團隊通過種子取樣,同時學習如何在一個共同的環境中操作。具有三個屬性- 適應性,承諾和多樣性 – 是有效協調探索所必需的。

GEP-PG: DecouplingExploration and Exploitation in Deep Reinforcement Learning Algorithms ->依次結合目標探索過程和DDPG。兩階段方法:第一個探索階段發現一系列簡單的策略,最大化行為多樣性,忽略獎勵功能;然後是更標準的深度RL階段進行微調,其中DDPG使用重播緩衝區,其中填充了GEP生成的示例。

Learning to Explore viaMeta-Policy Gradient ->元策略梯度算法學習探索,使我們能夠自適應地學習DDPG中的探索策略。訓練不依賴於參與者策略的靈活的探索行為,從而產生一種全局性的探索,極大地加快了學習過程。

6. RL Reward:

Learning byPlaying — Solving Sparse Reward Tasks from Scratch->計劃輔助控制(SAC-X), 代理配備了一組通用輔助任務,它試圖通過非策略RL同時學習。主動(學習)調度和輔助策略的執行允許代理有效地探索其環境 -使其在稀疏獎勵RL方面表現優異。

Automatic Goal Generationfor Reinforcement Learning Agents ->使用生成模型(在本例中為GANs)來學習生成理想的「目標」(狀態空間的子集),並使用生成模型而不是目標的統一抽樣。使用基於生成模型的自動課程生成算法來解決多任務問題,該生成模型跟蹤學習代理的性能。

Learning the RewardFunction for a Misspecified Model ->本文提出了一個新的誤差界限,用來解釋從模型中採樣的狀態下獎勵模型的行為。該界限用於擴展現有的幻覺DAgger-MC算法,該算法在確定性的MDPs中提供了理論性能保證,而不是假設一個完美的模型可以被學習。

Mix & Match — AgentCurricula for Reinforcement Learning ->一個自動形成代理課程的程序;通過有效地從簡單的代理中找到解決方案開始,逐步訓練更複雜的代理;


7. Model-based RL:

Lipschitz Continuity inModel-based Reinforcement Learning ->提供了一個新的邊界,在這個邊界上,我們用Wasserstein度量來量化Lipschitz模型的多步預測誤差。

ProgrammaticallyInterpretable Reinforcement Learning ->生成可解釋和可驗證的代理策略,可編程的解釋性強化學習使用一種高級的、特定於域的程式語言來表示策略。神經導向的程序搜索通過首先學習使用DRL的神經策略網絡,然後對程序策略執行局部搜索,以儘量減少與神經「oracle」之間的距離。

Feedback-Based Tree Searchfor Reinforcement Learning -> 提出了一種基於模型的強化學習技術,該技術迭代地將MCTS應用於原始的無限大範圍的馬爾可夫決策過程中。MCTS過程生成的建議隨後作為反饋提供,以便通過分類和回歸改進下一個迭代的葉子節點評估程序。多玩家在線戰鬥競技場(MOBA)遊戲之王的競爭代理。

Machine Theory of Mind->Theory of Mind(ToM)廣泛地指人類表達他人心理狀態的能力, 包括他們的欲望,信仰和意圖。ToMnet使用元學習來學習代理人未來行為的強大先驗模型,並且僅使用少量的行為觀察,可以引導到更豐富的關於代理特徵和心理狀態的預測。

Measuring abstractreasoning in neural networks ->提出一個數據集和挑戰,旨在探索抽象推理,靈感來自一個著名的人類智商測試。為了在這一挑戰中取得成功,模型必須應對訓練和測試數據以明確定義的方式存在差異的各種歸納「機制」。提出WildRelation Network(WReN),多次應用關係網絡模塊(Santoro et al., 2017)來推斷小組間關係。


8. Distributed RL:

Implicit Quantile Networksfor Distributional Reinforcement Learning ->使用分位數回歸來近似風險敏感策略的狀態-行為回報分布的完全分位數函數;展示了57款Atari2600遊戲的改進性能。

RLlib: Abstractions forDistributed Reinforcement Learning->開源Ray項目中的一個庫,為RL提供可擴展的軟體基元,該庫主張通過自頂向下的層次控制調整算法,以組合的方式分布RL組件,從而在短期運行的計算任務中封裝並行性和資源需求。

IMPALA: ScalableDistributed Deep-RL with Importance Weighted Actor-Learner Architectures->IMPALA(重要性加權行動者學習者架構)可擴展到數千臺機器而不會犧牲數據 效率或資源利用率; 通過將解耦作用和學習與一種新的非策略修正方法V-trace相結合,實現高吞吐量下的穩定學習。在DMLab-30(DeepMind Lab環境中的30個任務集(Beattie et al., 2016))和Atari-57 (Arcade Learningenvironment中所有可用的Atari遊戲(Bellemare et al., 2013a)上進行測試)。

9. Hierarchical RL:

Latent Space Policies forHierarchical Reinforcement Learning ->以自下而上的分層方式構建層次表示;每一層都經過訓練,通過最大熵目標來完成任務。每一層都增加了潛在隨機變量,這些變量是從該層訓練期間的先驗分布中抽取的。最大熵目標使這些潛在變量被納入到層的策略中,高層可以通過這個潛在空間直接控制下層的行為。

Self-Consistent TrajectoryAutoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings ->層次結構中學習較低層的問題轉化為學習軌跡級生成模型的問題。學習軌跡的連續潛在表示,這有效地解決了時間擴展和多階段的問題。他的模型通過預測閉環策略行為的結果,提供了一個內置的預測機制。

An Inference-Based PolicyGradient Method for Learning Options->為了使用選項自動學習策略,所提出的算法使用推理方法來同時改進代理可用的所有選項,因此可以以非策略方式使用,而無需觀察選項標籤。所採用的可微差別推理過程產生了易於解釋的選項。

Hierarchical Imitation andReinforcement Learning ->分層指導利用底層問題的層次結構來整合不同的專家交互模式。在Montezuma’sRevenge上測試過。

Using Reward Machines forHigh-Level Task Specification and Decomposition in Reinforcement Learning ->獎勵機器是一種有限狀態機,支持獎勵函數的規範,同時將獎勵函數結構暴露給學習者並支持分解。提出了獎勵機器的Q-Learning(QRM),一種適當分解獎勵機制的算法,並利用off-policy Q-Learning同時學習不同組件的子策略。

10. Multi-Agent:

Learning to Coordinatewith Coordination Graphs in Repeated Single-Stage Multi-Agent Decision Problems ->利用鬆散耦合,即代理之間的條件獨立性。預期獎勵可以表示為協調圖。

Learning to Act inDecentralized Partially Observable MDPs->首先接近最優的協作多智能體,通過混合整數線性規劃替換貪婪最大化。來自文獻的許多有限域的實驗。

Learning PolicyRepresentations in Multiagent Systems->將代理建模作為表示學習的問題;構建模仿學習和代理識別啟發的新目標,設計一種代理策略表示的無監督學習算法。

Competitive Multi-agentInverse Reinforcement Learning with Sub-optimal Demonstrations ->當已知專家證明不是最優的時候,在零和隨機博弈中進行逆強化學習; 引入了一種新的目標函數,直接將專家與納什均衡策略對立起來,以深度神經網絡作為模型逼近,在逆強化學習的背景下求解獎勵函數。

11. RL Meta-learning, Transfer, Continuing and Lifelong Learning::

Been There, Done That:Meta-Learning with Episodic Recall ->提出了一種生成開放但重複的環境的形式主義,然後開發一個元學習體系結構來解決這些環境。該架構將標準的LSTM工作記憶與可微的神經情景記憶融合在一起。

Transfer in Deep RL usingSuccessor Features in GPI->使用通用的策略改進和繼承特性來進行傳輸技能。以兩種方式擴展SF和GPI框架。使用獎勵函數本身作為未來任務的特性,沒有任何表達性的損失,因此無需預先指定一組特性。

Policy and Value Transferin Lifelong Reinforcement Learning ->使用先前的經驗,在一系列從任務分配中抽取的任務實例中引導終身學習。對於基於值函數的傳輸,保留PAC的值函數初始化方法,同時最小化兩種學習算法所需的學習,從而產生MaxQInit。

State Abstractions forLifelong Reinforcement Learning ->在終身強化學習中,代理必須有效地跨任務傳遞知識,同時解決探索,信用分配和一般問題。狀態抽象壓縮代理使用的表示,從而減少了學習的計算和統計負擔。提出新的抽象類:(1)傳遞狀態抽象,其最優形式可以被有效地計算,以及(2)PAC狀態抽象,保證相對於任務的分布。

Continual ReinforcementLearning with Complex Synapses->通過為表格和深層強化學習代理配備合併了一種生物複雜性的突觸模型(Benna & Fusi,2016),災難性遺忘可以在多個時間尺度上得到緩解。整合過程與數據分布變化的時間尺度無關。

12. RL Applications and others::

Spotlight: OptimizingDevice Placement for Training Deep Neural Networks->使用多階段馬爾可夫決策過程來模擬設備布局問題。

End-to-end Active ObjectTracking via Reinforcement Learning ->ConvNet-LSTM函數逼近器用於直接幀到動作的預測。需要用獎勵函數來增強環境。

Deep ReinforcementLearning in Continuous Action Spaces: a Case Study in the Game of SimulatedCurling ->基於內核的MonteCarlo樹搜索學習遊戲策略,該搜索在連續空間內查找動作。為了避免手工特徵,我們使用監督學習來訓練我們的網絡,然後使用高保真的冰壺奧林匹克運動模擬器進行強化學習;贏得了國際數字冰壺比賽。

Can Deep ReinforcementLearning Solve Erdos- Selfridge-Spencer Games?->介紹了一個有趣的雙人零和遊戲系列,具有可調的複雜性,稱為Erdos-Selfridge-Spencer遊戲,作為RL的一個新域。作者報告了大量的實證結果,使用了各種各樣的訓練方法,包括監督學習和多種RL (PPO, A2C,DQN)以及 單代理   與多代理訓練。

Investigating Human Priorsfor Playing Video Games ->調查各種有助於人類學習的先驗知識,並發現對象的一般先驗在指導人類遊戲玩法中起著最關鍵的作用。

Visualizing andUnderstanding Atari Agents->介紹一種生成有用的顯著性地圖的方法,並使用它來顯示1)強代理關注什麼,2)代理是否出於正確或錯誤的原因做出決策,3)代理如何在學習過程中進化。

總結

深度強化學習是最大和最熱門的話題之一,有著最多的論文數量和最大的會議場地。

除了訓練算法,學習模型,信用分配,分層次,元學習和網絡架構是RL流行的子方向。

考慮到網絡架構上關於視覺問題的論文數量,對於RL在網絡架構上的探索還有很大的空間,在已被接受的論文中只有少數是這一方面的。例如,StructuredControl Nets for Deep Reinforcement Learning and Gated Path Planning Networks。

ML的公平性和可解釋性是一個大主題。對於RL也應該有更多的解釋和分析工作。一個好的方向是運用控制理論。與此相關的是,BenRecth的《控制優化教程》非常棒。主要思想是RL與控制理論之間應該有更多的交叉。在已被接受的論文中,一個很好的例子是Structured ControlNets for Deep Reinforcement Learning。

附最佳論文總結

【兩篇最佳論文(best papers)】

Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

 

[注]:也就是這篇在年初曾引起軒然大波,一作Anish Athalye質疑ICLR2018中的7/8篇對抗防禦的論文太渣,並引起Goodfellow圍追堵截要說法。Anish Athalye這篇打臉ICLR的文章在ICML上證明了自己的實力。

 

相關閱讀:

https://zhuanlan.zhihu.com/p/33554466

 

混淆梯度, 是一種梯度掩蔽,在防禦對抗的例子中導致一種錯誤的安全感。

ICLR 2018的白盒安全防禦系統,9種當中的7種防禦系統依賴於混淆梯度。

對於發現的三種類型的混淆梯度中的每一種,作者都開發了攻擊技術來克服它。

在每篇論文所考慮的原始威脅模型中,新的攻擊成功地完全繞過了6種,只有一個是部分繞過。

 

「DelayedImpact of Fair Machine Learning

訓練以儘量減少預測誤差的機器學習系統, 往往會表現出基於種族和性別等敏感特徵的歧視性行為。原因之一可能是由於數據中存在歷史偏差。

這項工作使機器學習的決策與長期的社會福利目標保持一致。

下圖顯示了作者提出的結果模型, 以減輕機器學習算法的不良社會影響。

依賴於群體的閾值可能面臨法律挑戰,不可避免的是,它們錯失了固定閾值決策可能引發的差異結果。

公平約束(Fairnessconstraints)使群體之間的決策相等,以保護弱勢群體。但是,公平約束也會減少已經處於不利地位的人群的福利。

構建一個精確的模型來預測決策對人口結果的影響,可能有助於減輕應用公平約束(fairness constraints)的潛在危害。

 

【三篇最佳論文提名獎(Best Papers Runner-ups)】


1.     「The Mechanics of n-Player Differentiable Games」

l  開發新的技術來理解和控制一般遊戲的動力學,例如GAN

l  關鍵的結果是將二階動力學分解為兩個分量:

l  第一個是與潛在的遊戲有關,它會降低隱函數的梯度下降;

l  第二個與哈密頓博弈(Hamiltonian games)有關,哈密頓博弈是一種遵守守恆定律的新遊戲,類似於經典機械系統中的守恆定律。

l  分解激發了Symplecti梯度調整(SGA),這是一種新的算法,用於在一般遊戲中尋找穩定的定點。

l  基本實驗表明,SGA與最近提出的在GANs中找到穩定的固定點的算法相比是有競爭力的,同時在更多普通的遊戲中也適用,並且有保證。

 

2.     「Near Optimal Frequent Directions for Sketching Dense and SparseMatrices」

復旦大學的論文Near Optimal Frequent Directions forSketching Dense and Sparse Matrices十分引人注目,這篇斬獲「最佳提名獎」的論文由大數據學院副教授黃增峰獨立完成,研究的是流模型(streaming model)中的協方差情況。文章提出了一種新型空間優化算法,把流模型運行時間縮短到極致。

 

計算一個比給定的大矩陣小得多的草圖矩陣,使協方差誤差最小化。

我們考慮了流模型中存在的問題,該算法在有限的工作空間下只能對輸入進行一次傳遞。

Liberty(2013)及其變體的Frequent Directions算法實現了最佳的空間誤差權衡。 但是,是否可以改善運行時間仍然是一個懸而未決的問題。

在本文中,我們幾乎解決了這個問題的時間複雜度。 特別是,我們提供新的空間優化算法,運行時間更短。 此外,我們還證明了算法的運行時間幾乎是最優的,除非矩陣乘法的最先進的運行時間可以顯著提高。

 

 3.     「Fairness Without Demographics in Repeated Loss Minimization」

l  最小化平均損失導致表示差異 - 少數群體(例如,非母語人士)對訓練目標貢獻較少,因此往往遭受更大的損失。由於模型的準確性會影響用戶保留率,少數群體的數目會隨著時間的推移而縮小。

l  作者指出,經驗風險最小化(ERM)隨著時間的推移會擴大表徵差異,這甚至會使最初的公平模型變得不公平。

l  開發一種基於分布魯棒優化(DRO)的方法,該方法將經驗分布附近所有分布的最壞情況風險最小化。

l  演示了DRO在ERM失敗的示例上防止差異放大,並展示了在真實文本自動完成任務中少數群體用戶滿意度的改進。

 

 

原文連結:

https://medium.com/@jianzhang_23841/a-comprehensive-summary-and-categorization-on-reinforcement-learning-papers-at-icml-2018-787f899b14cb

-END-

專 · 知

人工智慧領域26個主題知識資料全集獲取與加入專知人工智慧服務群: 歡迎微信掃一掃加入專知人工智慧知識星球群,獲取專業知識教程視頻資料和與專家交流諮詢!

請PC登錄www.zhuanzhi.ai或者點擊閱讀原文,註冊登錄專知,獲取更多AI知識資料!

請加專知小助手微信(掃一掃如下二維碼添加),加入專知主題群(請備註主題類型:AI、NLP、CV、 KG等)交流~

請關注專知公眾號,獲取人工智慧的專業知識!

點擊「閱讀原文」,使用專知

相關焦點

  • 【乾貨】ICML2018:63篇強化學習論文精華解讀!
    從2473份提交論文中接收了621篇,其中有63餘篇強化學習相關論文,作者將這些論文分成了多個類別,並對每篇文章的核心貢獻做了精煉的總結,這些文章也是追蹤強化學習最前沿技術的絕佳材料,精煉的總結也也便於我們快速查找與自己研究相關的文章。
  • ICML進行時|一文看盡獲獎論文及Google、Facebook、微軟、騰訊的最新科研成果
    ICML 2018 共有 2473 篇論文投稿,共有 621 篇論文殺出重圍入選獲獎名單,接受率接近25%。其中 Google 強勢領跑,Deep Mind 、FaceBook和微軟也是精彩紛呈;而在高校中 UC Berkeley 和 Stanford 、CMU 以近 30 篇榮登 Top 榜。
  • ICML 2019最佳論文出爐 ETH、谷歌、劍橋分獲大獎
    除此之外,大會還公布了七篇獲得提名獎(Honorable Mentions)論文。據了解,今年ICML共提交3424篇論文,其中錄取774篇,論文錄取率為22.6%。錄取率較去年ICML 2018的25%有所降低。
  • 近期必讀的六篇 ICML 2020【對比學習】相關論文
    我們簡化了最近提出的對比自監督學習算法,並且不需要專門的體系結構或存儲庫。為了理解什麼使對比預測任務能夠學習有用的表示,我們系統地研究了我們框架的主要組成部分。我們表明:(1)數據增強部分在定義有效的預測任務中起著關鍵作用;(2)在表示和對比損失之間引入可學習的非線性變換大大提高了學習表示的質量;(3)與監督學習相比,對比學習受益於更大的batch和更多的訓練。
  • ICML2018 模仿學習教程
    【導讀】機器學習領域最具影響力的學術會議之一的ICML於2018年7月10日-15日在瑞典斯德哥爾摩舉行。
  • 不被Hinton認同,否定同行成果,谷歌這篇研究拿下ICML最佳論文
    最佳論文2:稀疏變分高斯過程回歸的收斂速率今年ICML的第二篇最佳論文是來自英國劍橋大學和機器學習平臺Prowler.io的研究。之前已經有人開發出了一種高斯過程後驗的極好變分近似。這篇文章的第一作者是來自劍橋大學信息工程系的博士研究生David Burt,他的主要研究領域是貝葉斯非參數和近似推理。作者之一Mark van der Wilk是Prowler.io的研究者,他也是劍橋大學機器學習專業的在讀博士研究生,主要的研究領域是貝葉斯推理、強化學習、高斯過程模型等。
  • 五大頂尖企業研究院的116篇論文ICLR2018錄用論文,七大趨勢全解讀
    谷歌、DeepMind、Facebook、OpenAI、微軟,這 5 個雷鋒網 AI 科技評論重點關注的科技公司在今年 ICLR 中共貢獻了 9 篇 oral(口頭報告)論文和 107 篇 poster(海報展示)論文,在會議接受論文總數的 23 篇 oral、314 篇 poster 中已經佔據了接近半壁江山。
  • 北理工研二學生獲傑出論文獎!ICML 2020 大陸論文量居前三,各獎項出爐!
    此次會議共收到 4990 篇論文,接收論文 1088 篇,接收率達 21.8%。與往年相比,接收率逐年走低。剛剛,ICML 2020 大會放出了傑出論文獎和傑出論文榮譽提名獎,一篇發表於 2009 年的論文獲得此次大會的時間檢驗獎。論文1:On Learning Sets of Symmetric Elements
  • ICML 2019必看!87頁超強幹貨博士筆記總結
    本屆大會共收到3424篇有效投稿論文,最終收錄774篇,接收率為 22.6%,低於去年接收率25%(ICML 2018共收到2473篇有效投稿論文,最終收錄論文621篇)。提交論文最多的子領域分別是:深度學習、通用機器學習、強化學習、優化等論文數量排名前五的公司分別是谷歌、谷歌大腦、微軟、DeepMind、Facebook,論文數量分別為:82、42、35、29、23。最終谷歌獨攬153篇,成為ICML論文收錄第一。
  • ICML 2019收錄774篇論文:谷歌153篇,清華北大26篇
    谷歌及其子公司佔據了前五名中的三席,總共有153篇論文被收錄。中國被收錄論文最多的公司是騰訊,數量為10篇。另外,阿里被收錄5篇、百度1篇。學校方面的排名前五的是:麻省理工學院47篇、加州大學伯克利分校45篇、史丹福大學40篇、卡內基梅隆大學35篇、喬治亞理工學院24篇。
  • ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習
    另外,還有七篇論文獲得提名獎。今年的論文錄取競爭異常激烈,ICML 2019共提交了3424篇論文,其中錄取774篇,論文錄取率為22.6%。錄取率較去年ICML 2018的25%有所降低。ICML 2019接收論文貢獻數排名前50的機構(學界機構和業界機構)論文錄取結果地址:https://icml.cc/Conferences
  • 幾個主要機構在ICML 2019投遞的論文中重點關注的方向
    對比 ICML 2018 排名前20的機構對比 為了進一步了解 ICML 2018 與 2019 兩年接收論文的情況,營長根據論文第一作者的通訊單位對這兩年的論文進行統計與可視化,這裡主要展示論文接收數量排名前 20 的高校或企業。
  • ICML 2018 | 從強化學習到生成模型:40篇值得一讀的論文
    訓練機器學習預測模型的數據並不總是足夠的,研究者在這篇論文中提出了一種可以利用來自相關但不同的來源的數據的新方法,即使用多個 GAN 架構來學習將一個數據集「翻譯」成另一個數據集,由此有效地擴增目標數據集。
  • 一文速覽ICML2020高引論文與華人作者
    月 18 日召開,早在一個月前,ICML 官方就以經放出了論文統計結果:據官方統計,ICML 2020 共提交 4990 篇論文,投稿數量再創新高,而最終接收論文 1088 篇,接收率 21.8%。接下來讓我們看看截至目前引用量較高的本次 ICML 會議論文以及中國機構和華人的表現吧。ICML AMiner:https://www.aminer.cn/conf/icml2020ICMl2020高引用量的論文Aminer 開發的 ICML 2020 頂會系統給出了本屆會議引用量排名靠前的論文。
  • 大會丨青年科研工作者眼中的ICML 2018
    大會共收到投稿2473篇,比去年增長了45%,其中621篇被接收。來自神經網絡結構和強化學習兩個子領域的投稿數量最多,強化學習領域的接受率更高,其它熱門方向還有深度學習、在線學習、統計學習、隱私安全等等。
  • NIPS2018深度學習(18)|亮點: 貝葉斯深度學習;圖卷積(論文及代碼)
    這篇文章提出一種新的模型,這種模型是對現有方法結構化預測能量網絡的一種泛化。幾種模型的對比如下代碼地址https://github.com/gablg1/ORGANJT-VAE對應的論文為Junction tree variational autoencoder for molecular graphgeneration代碼地址https://github.com/wengong-jin/icml18-jtnn
  • ICML 2018 | 清華排名國內居首:大會論文接收情況一覽
    本文介紹了在瑞典斯德哥爾摩舉行的機器學習技術國際會議(ICML)中接收論文的情況。[ 導讀 ] ICML 2018 於 7 月 10 日在瑞典斯德哥爾摩舉行,今日該會議公布了接收論文列表,本次會議共收到 2473 篇論文,621 篇被接收,接收率為 25.1%(與去年基本持平)。
  • ICML 2017首日公布兩大獎項:史丹福大學獲最佳論文獎
    據統計,ICML 2017 共評審了 1676 篇論文,接收了 434 篇,錄取率為 25.89%。在機器之心之前報導的論文中,也有眾多為 ICML 2017 所接收,比如百度有關 Deep Voice、Gram-CTC 的論文。據機器之心了解,騰訊 AI Lab 也有四篇論文入選 ICML 2017。
  • ICML 2021論文接收大排行!谷歌霸榜,國內北大第一、清華第二,華人學者表現亮眼......
    接收率僅21%為近五年最低,感謝審稿人不「殺」之恩而就在近日,ICML 2021的論文接收列表也終於放了出來:連結:https://icml.cc/Conferences/2021/AcceptedPapersInitial在論文接收列表出來之後,還是辣個男人,Criteo AI Lab機器學習研究科學家Sergey Ivanov,他又一次火速爬取了
  • 滴滴KDD 2018 論文詳解:基於強化學習技術的智能派單模型
    Li (AI Labs, Didi Chuxing); Qingwen Guan (AI Labs, Didi Chuxing); Dingshui Zhang (AI Labs, Didi Chuxing); Qiang Li (AI Labs, Didi Chuxing); Junxiao Nan (AI Labs, Didi Chuxing); Chunyang Liu (AI Labs,