從研究的角度來看,對抗學習仍將是 ICLR 的一大主題。
深度學習領域中目前最流行的就是生成對抗網絡。在本文中,我會統一介紹一下競爭事務裡的對抗樣本和環境。實際上,任何形式的極小極大化優化問題都可以看作是對抗學習。
我不知道 GAN 是不是真的很流行,或許這是我自己的偏見,因為我很喜歡這些方法,它們給人的感覺很強大。GAN 可以解釋為:通過使用網絡學習到的隱性損失來訓練生成器,而不是用人為定義的損失函數。這使你能適應生成器的能力,並且可以定義無需人工解釋的損失函數。
當然,這會使問題更加複雜。不過如果有足夠強的優化和建模能力,那麼隱性學習損失與其它方法相比,能提供更清晰的圖像。使用學習組件替換系統的部件的一個好處是,優化和建模能力的優勢能應用到問題的更多方面。學習損失函數的能力提升了,同時最小化這些學習損失的能力也提高了。
從更抽象的角度來看,這涉及到具有表達能力,可優化的函數集合,如神經網絡。極大極小值優化算法(Minimax)不是一個新概念,它已經有些年頭了。新的思想在於深度學習能基於高維度數據進行建模,並且學習複雜的損失函數。對我而言,GAN 的有趣之處不是圖像生成,而是它們在複雜數據,如圖像上的概念證明。整個框架並不要求使用圖像數據。
學習過程還有其他的部分可以用學習方法來代替,而不是用人工定義的方法,深度學習就是這樣一種方法。這樣做有意義嗎?也許有。問題是用的深度學習方法越多,讓每件事都具有學習性也變得越難。如果系統不穩定崩潰了,什麼也無濟於事。(烏龜塔理論,烏龜崩潰了,地球就沒有支撐點了)。
最近 Quanta Magazine 上有一篇文章,Judea Pearl 在上面表達了他的失望:深度學習只是學習相關性或曲線擬合,而這並不涵蓋所有的智能。我同意 Judea Pearl 的觀點,但作為深度學習的擁護者,我認為如果你把一個足夠大的神經網絡進行足夠好的優化,你可以學到一些看起來很像因果推理的東西,或者其它可以算作智能的東西。但這就接近哲學的領域了,所以我就講到這裡。
從與會者的角度來說,大量的海報展示相當討人喜歡。這是我第一次參加 ICLR,之前參加過的機器學習會議是 NIPS。NIPS 規模大得驚人,要閱讀每份海報是不可能的。而在 ICLR,這還是能做到的。
另一個值得稱讚的是,ICLR 上的企業招聘也不像 NIPS 那樣古怪。在 NIPS 上,有些企業會發放指尖陀螺等玩具,雖然這很獨特,不過實際上會給人帶來怪異的感覺。在 ICLR,我收到的最奇怪的東西就是一雙襪子,有點古怪但還不是那麼標新立異。
下面是我後續會關注的一些論文:
Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play
https://openreview.net/forum?id=SkT5Yg-RZ
Learning Robust Rewards with Adverserial Inverse Reinforcement Learning
https://openreview.net/forum?id=rkHywl-A-
Policy Optimization by Genetic Distillation
https://openreview.net/forum?id=ByOnmlWC-
Measuring the Intrinsic Dimension of Objective Landscapes
https://openreview.net/forum?id=ryup8-WCW
Eigenoption Discovery Through the Deep Successor Representation
https://openreview.net/forum?id=Bk8ZcAxR-
Self-Ensembling for Visual Domain Adaptation
https://openreview.net/forum?id=rkpoTaxA-
TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning
https://openreview.net/forum?id=HyiAuyb0b
Online Learning Rate Adaptation with Hypergradient Descent
https://openreview.net/forum?id=BkrsAzWAb
DORA The Explorer: Directed Outreaching Reinforcement Action-Selection
https://openreview.net/forum?id=ry1arUgCW
Learning to Multi-Task by Active Sampling
https://openreview.net/forum?id=B1nZ1weCZ
ICRA 是我參加的第一個機器人會議。我不知道該期待什麼,我最開始做的是機器學習研究,後來對機器人技術產生了興趣,所以我的興趣更接近於學習控制,而不是製作機器人。我認為理想格局是可以將實際物理世界的硬體看作抽象的。
這種想法再加上對控制理論的不完全理解,我對會議中的很多討論主題都不熟悉。不過,我還是很高興能參加該會議,因為有很多的學習領域論文。
在我能理解的一些研究題目中,我很驚訝有這麼多強化學習的論文。但沒有一篇採用存粹的無模型 (model-free RL)方法,這十分有趣。
對於 ICRA,如果你的算法在機器人上驗證過,相應的論文被採用的機會非常大。這會促使作者關注數據效率,因此對只採用 model-free 的 RL 有很大的偏見。在會場中,會不停聽到類似「我們在 X 中結合了無模型強化學習」的話,其中 X 是基於模型的強化學習(model-based RL),或者從人類表達(human demonstrations)中學習,或從運動規劃(motion planning)中學習,或從任何可以有助於問題解決的東西中學習。
從更廣泛的層面上來看,會議有其實用性。它雖然是一個研究性會議,很多觀點仍處於推理階段,但感覺人們對於有限的,目標明確的解決方案是可以接受的。這可以看作是作者必須使用實際硬體的另一個結果。如果需要實時運行模型,則不能忽略推理時間。如果要從實際機器人那裡收集數據,就不能忽視數據效率。真正的硬體不會關注你的問題是什麼。
(1) 網絡必須能夠運行。
(2) 不管做何努力,也不管賦予何種優先級,我們都無法提高光速。
(RFC 1925)
這讓許多 ML 領域中的人感到驚訝,但這個機器人技術會議並沒有像 NIPS/ICLR/ICML 一樣,完全地接受 ML,部分原因是 ML 並不總能奏效。機器學習是一個解決方案,但它不能確保總是有意義。我認為,ICRA 中只有少許人希望 ML 走向失敗的道路。如果 ML 能夠自證,其餘的人對於使用 ML 是完全沒意見的。而在某些領域,它已經證明了自己。我看到的每篇關於感知的論文都以不同的方式使用了卷積神經網絡(CNN)。但很明顯,極少數人使用深度學習來進行控制,因為控制有許多不確定因素。
和 ICLR 一樣,ICRA 上很多公司也會進行招聘或設置公司展臺。但和 ICLR 不同的是,ICRA 的展臺更有意思。大部分公司會攜帶機器人來演示。這肯定比聽一堆的招聘宣講有趣的多。
在去年的 NIPS 上,ML 公司的展臺讓我聯想到 Berkeley 招聘會上的一些問題。每個科技公司都想招聘 Berkeley 的應屆畢業生。這就像一場競賽,看誰能給出最好的待遇和最好的免費食物。感覺他們的目標是儘可能的讓自己看起來是最酷的公司,但是他們並沒有告訴應聘者以後要做的工作。同樣的,ML 公司在高檔酒吧舉辦的活動也越來越精緻。機器人技術領域還沒有走到這一步,它雖然在發展,但是沒有這麼多誇張的宣傳。
在一些 workshop 上,人們會談論在現實世界中怎樣使用機器人技術,都很有趣。研究會議通常傾向於討論研究和社交,這使人們容易忘記研究本身就具有清晰且即時的經濟價值。曾經有一個「農業中的機器人」報告,談到如何採用計算機視覺來檢測到雜草以及精準噴灑除草劑。這聽起來是很好的事情,用了更少的除草劑,殺死更少的農作物,同時降低了除草劑抗性的產生。
Rodney Brooks 也有一個類似的演講,他以 Roomba 為例,討論了將機器人轉化成消費產品所需的東西。他指出,在設計 Roomba 時,就已經考慮到價格,並且將所有的功能模塊控制在這個價格裡面。結果是,幾百美元的價位限制了傳感器和硬體的選擇,這樣在進行設備級推理時就帶來了很大的限制。
從組織的角度來看,ICRA 運轉的很好。會議中心右側緊鄰一個印刷店,因此在註冊時,組織者會說,如果與會者在特定期限內通過電子郵件發送 PDF 文件,他們會處理剩下的所有流程。與會者需要做的就是在線支付海報費用,並在會議上拿出來。所有的海報展示都在展臺進行,每個區域都有一個白板和一個展示臺,你可以在展示臺上用筆記本電腦播放演示視頻。
下面列出後續我會關注的一些文章:
Applying Asynchronous Deep Classification Network and Gaming Reinforcement Learning-Based Motion Planner to a Mobile Robot
http://ghryou.me/assets/pdf/ghryou_icra_2018.pdf
OptLayer - Practical Constrained Optimization for Deep Reinforcement Learning in the Real World
https://arxiv.org/abs/1709.07643
Synthetically Trained Neural Networks for Learning Human-Readable Plans from Real-World Demonstrations
https://arxiv.org/abs/1805.07054
Semantic Robot Programming for Goal-Directed Manipulation in Cluttered Scenes
https://www.youtube.com/watch?v=kOcdqUmXRRo
https://arxiv.org/abs/1604.03670
查看英文原文:
https://www.alexirpan.com/2018/06/06/iclr-icra.html
如果你喜歡這篇文章,或希望看到更多類似優質報導,記得給我留言和點讚哦!