如何有效預測未來的多種可能?LeCun的誤差編碼網絡給你帶來答案

2020-12-20 雷鋒網

雷鋒網 AI 科技評論按:許多自然問題都有一定的不確定性,比如一個杯子從桌上掉地,它可能躺在桌角、立在凳子下面,甚至直接摔碎。這種具有多種可能結果的未來預測一直是一個難題。深度學習三駕馬車之一的 Yann LeCun 近日就發布了一篇論文介紹他對這類問題的最新研究成果:誤差編碼網絡 ENN。雷鋒網 AI 科技評論把這篇論文的主要內容介紹如下。

多模態時間序列預測

學習關於時間序列的前饋預測模型是人工智慧中的一個重要問題,它可以應用於無監督學習、規劃以及壓縮。這類任務中的一個主要難點是,如何處理許多時間序列中都會展現出的多模態本質。如果一個時間序列有多種可能的演變方式,用經典的l1或者l2範數損失訓練的模型做出的預測就會是各個發展方向中不同結果的平均值或者中位數,那麼這個結果本身就是一個不會發生的結果、是一個無效的預測。

近年來,Ian Goodfellow 等人發明並發揚光大的生成式對抗性網絡GANs就是一種通用的框架,它把預測問題轉換為了預測函數和可訓練的鑑別器網絡(代表著損失)之間的極大極小值遊戲。通過這個可訓練的損失函數,理論上它可以處理多種輸出模式,因為如果生成器能生成每一種模式的樣本的話就肯定可以騙過鑑別器,從而走向收斂。然而,只能生成某一個模式的樣本的生成器其實也能騙過生成器走向收斂,實際中研究人員們也廣泛觀察到了這種現象。圍繞這種問題,大家開發出了一些解決或者緩解模式崩潰問題的方法,比如minibatch鑑別、增加參數化噪聲、通過展開的鑑別器做反向傳播以及用多個GANs覆蓋不同的模式等等。然而,其中的很多方法還是帶來了額外的麻煩,比如增加了實現的複雜度以及增加了計算量消耗。類似視頻預測這種輸出高度依賴輸入的條件生成任務中,模式崩潰的問題顯得更為嚴重。

誤差編碼網絡 ENN

在這篇論文中,作者們介紹了一種新的架構,它讓時間序列數據的條件預測也可以是多模態且健壯的。它的構建基於一個簡單的直覺,就是把未來狀態分成確定部分和隨機部分的組合;確定部分可以根據當前狀態直接做出預測,隨機的(或者說難以預測)的部分就代表了關於未來的不確定性。訓練這個確定性的網絡就能夠以網絡預測的形式獲得確定性因子,同時也得到了與真實狀態相比得到的預測誤差。這個誤差可以用低維隱含變量的形式編碼,然後送入第二個網絡中;這第二個網絡經過訓練後就可以利用這些額外的信息準確地更正前一個確定性網絡的預測結果。這就是論文中提出的誤差編碼網絡(Error Encoding Network,ENN)。

簡單來說,這個框架在三個時間步驟中分別含有三個函數映射:

第一個函數映射把當前狀態映射到未來狀態,它也就把未來狀態分成了確定性和不確定性的兩個部分

第二個函數映射是從不確定部分映射到低維隱含向量『

第三個函數映射是基於隱含向量的條件,把當前狀態映射到未來狀態,這個過程中也就編碼了未來狀態的模式信息。

模型的訓練過程中會用到全部的三個映射,推理部分只需要最後一個映射。

模型架構

前述的兩個網絡都是根據監督學習的目標函數端到端訓練的,隱含變量是通過學到的參數化函數計算的,這樣一來訓練過程就可以簡單、快速。

相關研究

以往的視頻預測模型中,有的做法只關注了確定性,忽略了時間序列預測的多模態性本質;也有的做法裡需要訓練數據帶有額外的標籤,才能以不同的動作為條件生成不同的預測。與這些方法相比,論文中提出的方法是以隱含變量為條件生成的,而這些隱含變量是以無監督的方式從視頻中學到的。

有一些研究在視頻預測中使用了對抗性損失,比如使用多尺度架構和多種不同的損失組合進行預測。增加的對抗性損失和梯度差異損失能夠提升圖像質量,尤其可以降低使用l損失時經常出現的模糊現象。然而,當時研究者們也指出生成器學會了忽略噪聲,生成的結果和不帶噪聲訓練的確定性模型的結果相似。

也有其它的視頻預測模型中用交替最小化的方式推測隱含變量。一種做法裡包含了一個離散的隱含變量,它的作用是在幾個用來預測未來視頻的隱藏狀態的不同模型間切換。這要比一個純粹的確定性模型靈活得多,然而一個離散的隱含變量仍然會把可能的未來模式顯示在一個離散的集合中。這篇論文中的模型則是通過一個學到的參數化函數推測連續的隱含變量。

近期也有研究表明,好的生成式模型可以通過在隱含空間聯合學習表徵和解碼器的參數得到。這樣做的要比訓練對抗式網絡簡單。生成式模型當然也可以通過交替最小化隱含變量和解碼器的參數得到,但每個樣本的隱含變量都可以在每次更新後存儲下來,當對應的樣本再次從訓練集中拿出時優化過程也還可以繼續。這種做法和論文中的方法有所關聯,不過區別是,這次沒有為每個樣本存儲隱含變量,而是通過確定性網絡的預測誤差學習一個函數。

實驗結果 - 定性部分

在遊戲(Atari Breakout,Atari Seaquest,Flappy Bird)、機器人操控、模擬駕駛的視頻數據集上的測試結果都表明,這種方法可以持續地產生未來幀內容的多模態預測。它們都具有完善定義的多模態結構,其中的環境可以根據智能體的動作而改變,又或者是隨機地改變,同時還能足夠多樣化的視覺環境。作者們訓練模型根據已知的4幀畫面,預測接下來的1到4幀。

比如下方打磚塊遊戲的預測結果,基準線的確定性模型預測的反彈板越來越模糊,這表明了模型對它的未來位置越來越不確定,不過同時靜態的背景一直非常清晰。殘差,也就是ground truth和基準模型之間的差別,值預測了確定性模型無法預測的小球和反彈板的運動。把殘差作為輸入,網絡學到的函數就可以把它編碼為隱含變量z。在訓練集內採樣不同的z值,就得到了以同一組幀為條件的三種不同生成結果。

打磚塊遊戲的生成結果。左側4幀是給定的,右側4幀是模型生成的。

在另一個遊戲Flappy Bird中,除了玩家的動作和新出現的管子的高度之外都是確定的。在第一個例子中可以看到,通過改變隱含變量可以得到兩種不同的結果,新的管子在不同的時間進入畫面、有不同的高度,或者乾脆沒有新的管子出現。

Flappy Bird,例1,最後一幀的管子有不同的高度。

在第二個例子中,改變隱含變量可以改變小鳥飛行的高度。這就說明環境中的兩種變量都可以被EEN建模。

Flappy Bird,例2,最後一幀的小鳥有不同的高度。

實驗結果 - 定量部分

論文中以信噪比為指標對比了一個基準的確定性模型和一個GAN。可以看到,隨著生成的樣本數量更多,論文中所提模型的表現也跟著提升;這表明它的生成結果足夠多樣化,起碼某些測試集中出現的模式都已經覆蓋到了。也可以看到,隨著增加生成樣本的數目,GAN的表現並沒有提升,這說明它的隱含變量對生成的樣本幾乎沒什麼影響。這也和其它研究中得到的結果相符。

另外還可以看到,不同模型之間用信噪比為指標對比的話,可比性不是很強,因為基準模型是直接優化l損失的,ENN是以給定的測試樣本為條件進行優化,GAN則是總體優化了另一個loss。這裡作者們主要想要表明,隨著生成的樣本變多,ENN的生成質量也會提高;而GAN就不會這樣。

結論

這篇論文提出了一種在帶有不確定的情況下進行時間預測的新框架,方法是把未來狀態中可預測和不可預測的部分分開。這種方法執行速度快、易於實現且便於訓練,不需要對抗性網絡或者交替最小化。論文中是在視頻數據集上的做的測試,但這也是一種通用化的方法,理論上可以用於任意值連續的時間序列預測問題中。

關於未來研究,這篇論文中採用了一個簡單的技巧,採樣隱含變量時不考慮是否依賴當前狀態;作者們認為可能還能找到更好的辦法。另外,這個模型的一個好處是,它可以快速從沒有見過的數據中提取隱含變量,因為畢竟它只需要在前饋網絡中運行一次。如果關於動作的隱含變量是易於解耦的,這就可以成為一種從大規模無標籤數據集中抽取動作、進行模仿學習的好方法。其它有意思的應用方式還包括用模型做預測、用它展開不同的未來可能性。

更多細節請查看原論文:https://arxiv.org/abs/1711.04994

雷鋒網 AI 科技評論編譯

相關焦點

  • 芥末翻|通過大腦預測誤差來進行社會學習
    人類和非人類動物如何發掘其他動物的內在狀態和經歷,長期以來都是傳統發展心理學在涉及自我和他人的學習和決策領域的研究熱點。本綜述中,研究者探究了心理學如何概念化表徵他人的過程及神經科學如何揭示強化學習原理,從代表自我和他人獎勵相關信息的角度探索社會學習潛在的神經機制。特別是,研究者討論了多個大腦結構中的自我參照和他人參照的獎勵預測誤差類型,探究了如何有效運用強化學習算法調解社會學習。
  • 芥末翻Summary|通過大腦預測誤差來進行社會學習
    在動態規劃模型中,這個差異就是獎勵預測誤差,其重要功能是用於更新函數,並最終用於智能體與其環境交互的決策。預測誤差是原始學習模式的基本屬性。簡而言之,預測誤差會計算人類在給定的事件或試驗中預期發生與實際發生的行為差異。這也可以稱為誤差信號。人類會對自己的行為及進行反思。預測誤差被有效地用作驅動自參照學習的信號。
  • 重磅 Yann LeCun撰文解讀:人工智慧未來的機會在哪裡?(附視頻)
    自動駕駛汽車、醫學圖像分析、更好的醫療診斷以及個性化醫療,人工智慧會為這個社會帶來很多變化。未來,它還會帶來很多極具創造力的應用以及服務。但是,對於許多人來說,它仍然顯得神秘莫測。為了揭開部分神秘之處,Facebook 正在創建一系列在線教育視頻,介紹人工智慧如何運作。我們希望這些簡單精煉的介紹會幫助每個人了解這一計算機科學中的複雜領域是如何運作的。
  • Kaggle比賽冠軍經驗分享:如何用 RNN 預測維基百科網絡流量
    比賽的目標是預測 14 萬多篇維基百科的未來網絡流量,分兩個階段進行,首先是訓練階段,此階段的結果是基於歷史數據的驗證集結果,接下來的階段則是真正的預測階段,對未來網絡流量的預測。來自莫斯科的 Arthur Suilin 在這場比賽中奪冠,他在 github 上分享了自己的模型,雷鋒網(公眾號:雷鋒網) AI 科技評論把 Arthur Suilin 的經驗分享編譯如下。
  • ...ACEnet上下文編碼網絡;卷積網絡生物系統;欺詐檢測;DialogueGCN等
    目錄ACEnet:用於神經解剖分割的解剖上下文編碼網絡圖延長卷積網絡:圖上的顯式多尺度機器學習及其在生物系統建模中的應用用於欺詐檢測的交織序列RNNs DialogueGCN:用於對話情感識別的圖卷積神經網絡模型
  • 金融界的圖靈測試:2.04%的AI預測誤差,只是開始…
    蘿蔔投資的AI預測能力已經覆蓋A股全市場,向港股、美股延伸,並於近日再次公開發布800家上市公司2020年年報營收預測數據。風乍起,從不食人間煙火,到滲透金融場景,AI技術是如何步步為營、推動投資方式變革的?
  • LeCun:賦予機器 「常識」,重新設計神經網絡將是AI 研究重點
    動態網絡、關聯存儲器結構以及稀疏激活等新的體系結構概念將影響未來需求的硬體體系結構類型。「這可能要求我們重新發明電路中運算的方式,」LeCun說。今天的計算機晶片通常沒有針對深度學習進行優化,即使使用不太精確的計算,深度學習也可以有效。
  • 親測有效:寶寶未來身高能預測!
    網絡上有很多算身高的公式啥的,都不太靠譜。我在國外的一些學術網站找了幾個預測身高的方法,給媽媽們做個參考。這些測量方法都是參考了大量的實驗數據而總結出來的。但影響身高的因素很多,每種方法都有一定的誤差,我們的目的僅在於滿足寶媽們的好奇心。
  • 教程 | 基於Keras的LSTM多變量時間序列預測
    長短期記憶循環神經網絡等幾乎可以完美地模擬多個輸入變量的問題,這為時間序列預測帶來極大益處。
  • Yann LeCun新作:473種模型大對比,中日韓文本分類到底要用哪種編碼?
    三、編碼機制(encoding Mechanism)本文選擇的深度學習模型為卷積網絡模型(ConvNets),根據網絡層數分為large Net(12層)和small Net(8層)。在卷積網絡模型訓練中,必須對文本進行編碼機器才能識別。
  • 歹徒如何利用人工智慧犯罪並預測未來可能的發展
    打開APP 歹徒如何利用人工智慧犯罪並預測未來可能的發展 趨勢科技 發表於 2020-11-29 09:35:49   一份由歐洲刑警組織(Europol)、聯合國區域犯罪與司法研究院(UNICRI)及安全廠商趨勢科技共同製作研究報告,披露歹徒如何利用人工智慧(AI)技術犯罪,並預測未來可能的發展。
  • NIPS2018深度學習(26)|亮點:代表樣本選擇;上下文卷積網絡;反饋編碼(論文及代碼)
    Yen, Pradeep RavikumarCarnegie Mellon Universityhttps://papers.nips.cc/paper/8141-representer-point-selection-for-explaining-deep-neural-networks.pdf這篇文章提出如何解釋深度神經網絡的預測, 即通過指向訓練集中的一組稱為代表樣本
  • 基於圖卷積神經網絡GCN的時間序列預測
    時間序列預測任務可以按照不同的方法執行。最經典的是基於統計和自回歸的方法。更準確的是基於增強和集成的算法,我們必須使用滾動周期生成大量有用的手工特性。另一方面,我們可以使用在開發過程中提供更多自由的神經網絡模型,提供對順序建模的可定製的特性。循環和卷積結構在時間序列預測中取得了巨大的成功。
  • 一文教你如何用Python預測股票價格
    這篇文章記錄了我使用Python開發的「stock explorer」工具——Stocker的預測功能。此前,我曾展示了如何使用Stocker進行分析,並且將完整的代碼貼在GitHub上,以方便大家。
  • 從零學習:從Python和R理解和編碼神經網絡(完整版)
    「從零學習」系列第一篇從Python和R理解和編碼神經網絡來自Analytics Vidhya博主、印度資深數據科學開發人員SUNIL RAY。本文將圍繞神經網絡構建的基礎知識展開,併集中討論網絡的應用方式,用Python和R語言實戰編碼。
  • 實例教你避開陷阱
    可以通過多種方式對其進行可視化,例如箱形圖、直方圖、累積分布函數和小提琴圖。但是,應該選擇能夠提供有關數據信息最多的圖。要查看分布(它是正態分布還是雙峰分布),直方圖最有幫助。儘管直方圖是一個很好的起點,但是箱形圖在識別異常值的數量和查看中位數四分位數的位置方面可能更為出色。根據這些圖,最有趣的問題是:你看到了預期的東西嗎?
  • 腦科學日報:神經網絡如何識別和編碼性別?墮胎藥可延長果蠅壽命
    1,Neuron | 洪暐哲團隊揭示大腦中的神經網絡如何識別和編碼性別 來源:BioArt 作者們發現,即使是在前額葉皮層這樣處理高度複雜信息的神經網絡,神經細胞也可以編碼性別。這種對性別的神經編碼在激發性神經元和抑制性神經元中都普遍存在,但是抑制性神經元比激發性神經元有更多的性別編碼細胞。
  • 水務一線 | XGBoost集成模型——靈活的邊界流量計日流量預測方法
    「水務一線」分享基層水廠、汙水廠日常工作中的科技創新、技改創新、應用創新或管理創新等,可供相關的水廠提供參考和借鑑,希望可以帶來更多思想的碰撞與火花。  本期摘要  流量計量的準確性,直接關係到水務企業日常運行管理的精細化水平,但受限於多方面原因,不可避免地存在一定的計量誤差,為水務企業管理能級的提升帶來瓶頸。
  • Java與Python:編碼大作戰
    Java也需要你在使用它們之前聲明你的變量的數據類型,而Python不會。因為它是靜態類型的,所以它期望它的變量在被賦值之前被聲明。Python更加靈活,在運行腳本時可以節省時間和空間。但是,它可能會在運行時造成您的問題。選擇一種語言歸結為你想用你的代碼實現的目標。性能在任何時候都不是軟體的本質,但始終值得記住。由於其優化和虛擬機執行,Java在提高性能方面效率更高。
  • 任務態fMRI研究:皮質—腦島環路編碼主觀價值預期
    最後,研究者發現腹內側前額葉(vmPFC)涉及編碼主觀價值的預期,背側前扣帶(dACC)和前腦島的活動與努力的折現和對主觀價值預期的誤差有關。該發現強調了當選擇的信息不充分時,大腦如何計算和監控基於主觀價值的預期。