雷鋒網(公眾號:雷鋒網) AI 科技評論按:被譽為神經計算和機器學習領域兩大頂級會議之一的NIPS於近日揭曉收錄論文名單,此次為第32屆會議,將於 12 月 3 日至 8 日在加拿大蒙特婁舉辦。
騰訊 AI Lab 第三次參加 NIPS,共有 20 篇論文入選,其中 2 篇被選為亮點論文(Spotlight),涵蓋遷移學習、模仿學習、半監督學習等多個研究主題,而去年他們入選論文8篇,含1篇口頭報告(Oral)。
此外,在今年的多個頂級學術會議中,騰訊AI Lab也入選多篇論文,位居國內企業前列,包括計算機視覺領域頂會CVPR(21篇)和ECCV(19篇)、機器學習領域頂會ICML(16篇)、NLP領域頂會EMNLP(16篇),以及語音領域頂會Interspeech(8篇)等。
本文對騰訊 AI Lab 今年入選 NIPS 的論文進行了解讀,雷鋒網 AI 科技評論獲得「騰訊 AI 實驗室」公眾號許可,進行轉載。
1.一種自適應於不同環境、不同任務的強化學習方法
Synthesize Policies for Transfer and Adaptation across Environments and Tasks
這項研究由騰訊 AI Lab 和南加州大學合作主導完成,是本屆 NIPS 的 Spotlight 論文之一,研究了同時在不同環境(Env)和不同任務(Task)之間遷移的問題,目的是利用稀疏的(Env, Task)組合就能學到在所有可能組合中遷移的能力。文中提出了一種新穎的部件神經網絡,它描述了如何從環境和任務來組成強化學習策略的元規則。值得注意的是,這裡的主要挑戰之一是環境和任務的特徵描述必須與元規則一起學習。為此,研究者又進一步提出了新的訓練方法來解鎖這兩種學習任務,使得最終的特徵描述不僅成為環境和任務的獨特籤名,更成為組建策略的有效模塊。研究者在GRIDWORLD和AI2-THOR上進行了大量實驗,結果表明新提出的模型可以有效地在 400 個(Env, Task)組合之間成功遷移,而模型的訓練只需要這些組合的大概40%。
2. SPIDER:一種基於隨機路徑積分的差分估計子的鄰近最優的非凸優化方法SPIDER
Near-Optimal Non-Convex Optimization via Stochastic Path Integrated Differential Estimator
這項研究由北京大學與騰訊 AI Lab 合作完成,探索了一種用於快速隨機求解非凸優化問題的方法,同時也是本屆 NIPS 的 Spotlight 論文之一。論文中提出了一種名為「隨機路徑積分的差分估計子(SPIDER)」的新技術,能以更低的計算複雜度追蹤許多我們感興趣的量。研究者還進一步將 SPIDER 與歸一化的梯度下降方法結合到了一起,提出了用於求解非凸隨機優化問題(僅需使用隨機梯度)的兩個算法:SPIDER-SFO和SPIDER-SSO。這兩個算法具有很快的收斂速度。特別值得一提的是,SPIDER-SFO 和 SPIDER-SSO 能夠以的隨機梯度複雜度分別解出一個滿足 ε 誤差的一階穩定點和滿足誤差的二階穩定點。除此之外,對於有限和並滿足梯度利普希茨連續的函數族,SPIDER-SFO 在獲取一階穩定點時幾乎達到了算法下界。
SPIDER-SFO
SPIDER-SSO
3. 基於分批歷史數據的指數加權模仿學習方法
Exponentially Weighted Imitation Learning for Batched Historical Data
這項研究由騰訊 AI Lab 獨立完成,主要研究了僅使用成批量的歷史數據的深度策略學習。這篇文章中我們主要考慮的是只使用歷史數據的深度策略學習。這個問題的主要挑戰在於,與大部分強化學習問題不同,我們不再有一個環境的模擬器來進行學習。為了解決這個問題,研究者提出一個單調優勢加權的模仿學習算法來從歷史數據中學習,並且可以應用到複雜非線性函數近似以及混合動作空間的問題中。這個方法並不依賴用來生成數據的行為策略的知識,所以可以被用來從一個未知的策略生成的數據中進行學習。在一些條件下,該算法(儘管非常簡單)可以證明策略提升的下界,並且在實驗中的效果超過了其它方法,並有望為複雜遊戲 AI 提供更好的模仿學習。論文中也提供了詳盡的數值實驗來展示所提出的算法的有效性。
4. 基於適應性採樣的快速圖表示學習
Adaptive Sampling Towards Fast Graph Representation Learning
論文地址:https://arxiv.org/abs/1809.05343
這項研究由騰訊 AI Lab 獨立完成,提出了一種適用於大規模社交網絡的節點分類方法。社交網絡可表示成圖(graph)的形式,而圖卷積網絡已經成為了圖節點表示學習的一種重要工具。在大規模圖上使用圖卷積網絡會產生巨大的時間和空間開銷,這主要是由無限制的鄰居擴張引起的。在這篇論文中,研究者設計了一種適應性的逐層採樣方法,可加速圖卷積網絡的訓練。通過自上而下地構建神經網絡的每一層,基於頂層的節點採樣出下層的節點,可使得採樣出的鄰居節點被不同的父節點所共享並且便於限制每層的節點個數來避免過擴張。更重要的是,新提出的採樣方法能顯式地減少採樣方差,因此能強化該方法的訓練。研究者還進一步提出了一種新穎且經濟的跳(skip)連接方法,可用於加強相隔比較遠的節點之間的信息傳播。研究者在幾個公開的數據集上進行了大量實驗,結果表明我們方法是有效的而且能很快收斂。
5. 具有非對稱損益重尾特性的金融收益序列低維簡約分位數回歸
Parsimonious Quantile Regression of Financial Asset Tail Dynamics via Sequential Learning
這項研究由騰訊 AI Lab 主導,與香港城市大學、香港中文大學合作完成。文中提出了一種低維簡約分位數回歸框架來學習金融資產收益的動態尾部行為。該方法由數據驅動, 即能廣泛的表徵金融時間序列的在損益兩端的重尾不對稱性,又能很好地抓住條件分位數函數的時變特性。該方法將序列神經網絡模型 LSTM 的優勢與一種新構建的用來表示資產價格條件收益的參數化分位數函數結合到了一起。研究者在長達68年(1950-2018)的歷史數據中, 對股票,債券,外匯三大類14種資產的研究表明,該方法的重要特點是能半參數的提取可能存在於數據中的條件分位函數的非線性演化過程。該機制對於抓住那些能驅動高階矩時變演化而又獨立于波動率的因子非常關鍵。對比表明新提出的模型的外樣本預測表現優於 GARCH 模型族。與此同時該方法既不會導致分位數交叉,也沒有參數化概率密度函數方法的不適定性問題。應用方面,該方法可用於對金融二級市場(包括股票、外匯、債券、大宗商品等)的波動率預測和尾部風險預測,能在金融機構的風險管理中發揮重要價值。
6.非局部神經網絡、非局部擴散與非局部建模
Nonlocal Neural Networks, Nonlocal Diffusion and Nonlocal Modeling
論文地址:https://arxiv.org/abs/1806.00681
這項研究由騰訊 AI Lab主導,與美國哥倫比亞大學合作完成。在這篇論文中,研究者對經過良好訓練的網絡的權重矩陣進行了譜分析,從而探索理解了非局部網絡的擴散和抑制效應的本質,並基於此提出了一種新的非局部模塊的構建方法。這種新模塊不僅能學習非局部的交互,而且還有穩定的動態特性,因此支持更深度的非局部結構——從而可以堆疊更多非局部模塊以充分利用其優勢。此外,研究者還從通用型非局部建模的角度對這種構建方法進行了分析,將新提出的非局部網絡與非局部擴散過程與非局部馬爾可夫跳變過程等其它非局部模型聯繫到了一起。非局部運算與卷積和循環模塊不同,可以通過直接計算特徵空間中每對位置之間的交互來實現長程依賴。這項研究對圖像或視頻分類、文本摘要和金融市場分析等諸多實際機器學習問題有重要的指導意義。
7.弱監督下對視頻進行稠密事件標註
Weakly Supervised Dense Event Captioning in Videos
這項研究由騰訊 AI Lab 與清華大學、麻省理工學院(MIT)和微軟亞洲研究院(MSRA)
合作完成。提出了一種使用弱監督方式標註視頻中的稠密事件的方法,從而能夠緩解模型訓練對成本高昂的人工標註數據的需求。這種方法不再需要每個事件的發生時間區間來進行模型訓練,而是基於一一對應假設,即每個時間區間只有一個語言描述,而每個語言描述只對應於一個時間區間。一一對應假設在當前公開任務和真實場景中都成立。基於此,研究者將原問題分解為了一對對偶問題:事件描述和語句定位,並提出了一個用於訓練模型的循環系統。研究者進行了大量實驗,結果表明該方法能同時解決視頻中的稠密事件標註和語句定位這兩個任務。
新提出的模型結構及其訓練連接如上圖所示。該模型由一個語句定位器和一個描述生成器組成。在訓練過程中,模型可使用視頻及其所有的事件描述。首先語句定位器會使用視頻和其中一個事件描述來獲得一個時間片段預測,然後描述生成器會使用這個時間片段來生成一個描述語句。
8. 基於可配置熵約束的半監督學習
Semi-Supervised Learning with Declaratively Specified Entropy Constraints
論文地址:https://arxiv.org/abs/1804.09238
這項研究由卡耐基梅隆大學(CMU)與騰訊 AI Lab 合作完成,提出了一種新的聲明式列舉規則的半監督學習的方法,可用於定製化半監督學習。這種方法可以組合多個半監督學習策略,同時可以結合多個協議(agreement)約束和熵正則化(entropic regularization)約束。此外,這種方法還可以用於模擬其它常見的模型,比如聯合訓練和針對全新域的啟發式方法。除了表徵單個的半監督學習啟發式方法,研究者還表明可以使用貝葉斯優化將多種啟發式方法組合到一起。在多個數據集上的實驗結果表明這種方法能穩定地優於其它方法,並在一個較困難的關係抽取任務上得到了當前最佳的結果。
聲明式地描述半監督學習規則
9. 基於廣義低秩近似的深度非盲反卷積
Deep Non-Blind Deconvolution via Generalized Low-Rank Approximation
這項研究由騰訊 AI Lab、中科院信工所、南京理工大學和美國加州大學默塞德分校等合作完成。本文提出了一種基於偽逆模糊核低秩特徵的深度非盲反卷積方法,可以處理不同模糊核造成的模糊圖片,尤其是對具有飽和像素的模糊圖片有更好的效果。研究者首先對大量模糊核進行廣義低秩分解,利用分解得到的左右特徵值向量對網絡參數進行初始化,從而使網絡更好的模擬偽逆模糊核。另外,基於廣義低秩近似的分解矩陣可以有效區分不同偽逆模糊核的變化特徵,因此可以幫助網絡更好的進行圖像恢復。研究者在大量具有飽和像素的模糊圖片上進行了實驗,結果證明該方法可以得到較好的圖像反卷積效果。據介紹,該方法可以應用於相機、車載記錄儀、監控等設備在已知運動軌跡情況下的圖像復原。
新提出的去卷積網絡的架構,其中通過廣義低秩近(GLRA)使用大量模糊核(blur kernel)的可分離過濾器來初始化第 1 層和第 3 層的參數,並使用為每個模糊核估計的 M 來固定第 2 個卷積核中的參數。另外還堆疊了額外的 3 個卷積層來去除偽影。
10. 超越二次指派模型:圖匹配形式化的一個推廣
Generalizing Graph Matching beyond Quadratic Assignment Model
這項研究由騰訊 AI Lab、上海交通大學、美國亞利桑那州立大學等合作完成。圖匹配在過去幾十年間一直受到持續觀注,該問題往往可以被形式化成一個二階指派問題。研究者在本文中展示:通過引入一系列在本文中被稱為可分離的函數,並調整近似控制參數,可以在連續域中對離散的圖匹配問題進行漸進的近似。研究者對該近似模型的全局最優解性質進行了研究,並進一步設計了凸/凹性質保持下的擴展算法,而該類似策略在傳統Lawler二次指派模型上亦被廣泛採用。從理論上,研究者進一步論證了所提出的框架在為圖匹配新算法與技術設計帶來的巨大潛力。最後,通過兩個具體的可分離函數形式,研究者設計了相關求解算法,並在公開數據集上進行了驗證。
11. 基於蒸餾 Wasserstein 學習的單詞嵌入與主題建模
Distilled Wasserstein Learning for Word Embedding and Topic Modeling
論文地址:https://arxiv.org/abs/1809.04705
這項研究由InfiniaML, Inc.和美國杜克大學主導,與騰訊AI Lab合作完成。本文提出了一種具有蒸餾機制的Wasserstein學習方法,實現了單詞嵌入與文本主題的聯合學習。該方法的依據在於不同主題單詞分布的Wasserstein距離往往是建立在單詞嵌入的歐式距離的基礎之上的。因此,該方法採用了一個統一的框架用以學習主題模型對應的單詞分布,單詞分布之間的最優傳輸,以及相應的單詞嵌入模型。在學習主題模型時,研究者利用模型蒸餾的方法平滑距離矩陣,用以更新主題模型和計算主題之間的最優傳輸。這種蒸餾機制為下一步單詞嵌入的更新提供了具有魯棒性的指導,改進了學習過程的收斂性。針對採用疾病和手術ICD編碼的病人入院記錄,研究者的方法在構建疾病相關性網絡,死亡率預測,和治療方案推薦等應用上取得了比現有方法更好的結果。
用於單詞嵌入和主題建模的聯合學習的蒸餾 Wasserstein 學習(DWL)方法
12.基於往復式學習的深度顯著性跟蹤
Deep Attentive Tracking via Reciprocative Learning
論文地址:https://arxiv.org/abs/1810.03851
這項研究由騰訊 AI Lab、北京郵電大學、澳洲阿德萊德大學和美國加州大學默塞德分校合作完成。由感知神經科學衍生出來的視覺關注度促使人類對日常信息中最敏感的部分進行仔細關注。近年來,大量的研究工作致力於在計算機視覺系統中挖掘顯著性的信息。在視覺跟蹤這個任務中,跟蹤不斷變化的目標物體是非常具有挑戰性的。顯著性響應圖能夠使得跟蹤器關注於目標物體在時間域中穩定的特徵,從而能夠減輕視覺跟蹤的困難。在現有的基於檢測的跟蹤框架中,分類器並沒有進行顯著性的設計,使得其主要利用額外的模塊來生成特徵權重。本文中,研究者提出一種往復式學習的算法在訓練分類器的過程中挖掘顯著性,該算法通過前向和後向兩部分操作來生成顯著性響應圖。在訓練過程中,響應圖作為正則項結合傳統的分類損失函數進行網絡的訓練。以此方式訓練的分類器能夠關注於目標物體中克服外表變化的特徵。在大規模數據集上大量的實驗表明,研究者提出的基於顯著性的跟蹤方法在目前主流的跟蹤算法中性能優異。
上圖展示了新提出的往復式學習算法總覽。該算法會首先在前向過程中計算給定訓練樣本的分類分數,然後在後向過程中通過取該分類分數相對該樣本的偏導數來得到顯著性響應圖。之後再將這個響應圖作為正則化項與分類損失結合起來用於訓練分類器。測試階段不會生成響應圖,而是由分類器直接預測目標位置。
13. 基於學習的多任務學習框架L2MT
Learning to Multitask
論文地址:https://arxiv.org/abs/1805.07541
這項研究由香港科技大學與騰訊 AI Lab 合作完成,提出了學會多任務學習(L2MT)的框架,能夠自動發掘對於一個多任務問題最優的多任務學習模型。為了實現這個目標,L2MT 充分利用了歷史的多任務學習經驗。每個多任務學習經驗是一個三元組,包括一個由多個任務組成的多任務問題、一個多任務學習模型以及該模型在該多任務問題上的相對測試錯誤率。以歷史的多任務學習經驗作為訓練集,L2MT 首先使用層式圖神經網絡 (layerwise graph neural network)學習每個多任務問題裡所有任務的特徵表示。其次,L2MT 會學習一個估計函數來預測相對測試錯誤率,該估計函數基於多任務問題的特徵表示以及多任務學習模型。如此一來,給定一個新的多任務問題,通過最小化該估計函數(等價於最小化相對測試錯誤率)可以確定一個合適的多任務模型。在標準數據集上的實驗證明了 L2MT 的有效性。
上圖展示了 L2MT 的框架,該框架包含 2 個階段。訓練階段是學習一個估計函數 f(·,·) ,以基於訓練數據集和特定的多任務模型來近似相對測試誤差;測試階段則是通過最小化該相對測試誤差(接近隨 Ω 變化的 γ1f(E˜ , Ω))來學習任務協方差矩陣。
14.可判別式深度神經網絡通道剪枝
Discrimination-aware Channel Pruning for Deep Neural Networks
這項研究由騰訊 AI Lab、華南理工大學和阿德萊德大學合作完成,對通道剪枝方法進行了改進。通道剪枝是深度模型壓縮的一個主要方法。現有的剪枝方法要麼通過對通道強加稀疏約束從頭訓練,要麼極小化預訓練特徵和壓縮後特徵之間的重構誤差。這兩個策略都存在不足:前者計算量大並且難以收斂,後者只關注重構誤差而忽略了通道的判別能力。為了克服這些不足,研究者設計了一種簡單而有效的方法——可判別式通道剪枝——來選擇那些真正具有判別能力的通道。為此,研究者引入了額外的損失來增加神經網絡中間層的判別能力。之後再從每一層中選擇判別能力最強的通道,同時還會考慮這個新的額外損失和重構誤差。最後,研究者還提出了一個貪心算法,可用於迭代地進行通道選擇和參數優化。研究者進行了大量實驗,結果表明該方法是有效的。例如,在 ILSVRC-12 數據集上,在對 ResNet-50 壓縮 30% 的通道量後還取得了比原方法高 0.39% 的識別準確度。
可判別式通道剪枝(DCP)示意圖
15. M-Walk: 圖遊走的蒙特卡洛樹狀搜索學習方法
M-Walk: Learning to Walk in Graph with Monte Carlo Tree Search
論文地址:https://arxiv.org/abs/1802.04394
這項研究由微軟研究院與騰訊 AI Lab 合作完成,提出了一種可用於知識圖譜推理的蒙特卡洛樹狀搜索學習方法 M-Walk。在知識庫完成等應用中,給定一個輸入查詢和一個源節點,學習在圖中到達目標節點是一個很重要的研究問題。這個問題可通過一個已知的狀態轉移模型而形式化為一個強化學習問題。為了克服獎勵稀疏的難題,研究者開發出了一種能在圖中遊走的智能體 M-Walk——由一個深度循環神經網絡(RNN)和蒙特卡洛樹搜索(MCTS)構成。RNN 會對狀態(即遊走過的路徑的歷史)進行編碼,並將其分別映射成一個策略、一個狀態值和狀態-動作 Q 值。為了能使用稀疏獎勵有效地訓練該智能體,研究者將 MCTS 與這個神經網絡策略結合到了一起,可以生成能產生更多積極獎勵的軌跡。通過 Q 學習方法(其會通過參數共享來修改 RNN 策略),神經網絡能使用這些軌跡以一種離策略的方式得到改進。研究者提出的強化學習算法可以反覆應用這一策略改進步驟,從而學習得到整個模型。在測試時間,MCTS 仍然會與神經策略結合起來預測目標節點。研究者在多個圖遊走基準上進行了實驗,結果表明 M-Walk 能夠學會比其它基於強化學習的方法(主要基於策略梯度)更好的策略。M-Walk 的表現也優於傳統的知識庫完成基準。
M-Walk 的神經架構
16.基於優化嵌入的耦合變分貝葉斯方法
Coupled Variational Bayes via Optimization Embedding
這項研究由喬治亞理工學院、伊利諾伊大學厄巴納-香檳分校、騰訊 AI Lab 和微軟研究院合作完成,文中構建了一種名為優化嵌入(optimization embedding)的分布類,能輔助實現優良的近似能力和計算效率,進而讓變分推理在學習圖模型方面的表現更好(尤其是在大規模數據集上)。優化嵌入這個靈活的函數類能將變分分布和圖模型中的原始參數耦合到一起,能夠通過反向傳播使用變分分布來實現端到端的圖模型學習。研究者還在理論上將其與梯度流(gradient flow)聯繫到了一起,並在極限意義上表明了這種隱式分布族極其靈活。在實踐中,這種技術能大幅縮小搜索空間,從而顯著加速學習過程,即文中提出的耦合變分貝葉斯(CVB)。實驗表明,新提出的方法在多種圖模型(具有連續或離散的隱變量)上都優於之前最佳的方法。研究者相信優化嵌入是一種重要的通用型技術,未來也有望在生成對抗模型和對抗訓練等其它模型中得到應用。
耦合變分貝葉斯算法
17. 常數迭代複雜度的隨機經驗誤差最小化方法
Stochastic Primal-Dual Method for Empirical Risk Minimization with O(1) Per-Iteration Complexity
這項研究由香港中文大學、騰訊 AI Lab、加州大學戴維斯分校與羅切斯特大學合作完成,提出了一種可用於快速求解基於廣義線性模型的經驗誤差最小化問題的方法。該方法的特點是每輪迭代只需要 O(1) 的常數計算量,與問題的維度以及數據的大小無關。研究者還發展了該方法的一種方差減小的變種,在強凸條件下可以證明它具有線性收斂性。研究者使用 logistic 損失函數進行了求解分類問題的數值實驗,結果表明新方法在高維問題上的收斂速度優於 SGD、SVRG、SAGA 等經典算法。
每次迭代成本為 O(1) 的隨機原始-對偶方法(SPD1)
使用了方差縮減的 SPD1
18. 方差縮減的隨機期望最大化算法
Stochastic Expectation Maximization with Variance Reduction
論文地址:https://ml.cs.tsinghua.edu.cn/~jianfei/semvr-nips2018.pdf
這項研究由清華大學主導完成,騰訊 AI Lab 和牛津大學也有參與。論文提出了一個受方差縮減的隨機梯度下降算法啟發的基於方差縮減的隨機 EM(sEM-vr)算法。研究表明 sEM-vr 具備和批 EM 相同的指數收斂速率,且sEM-vr 只需要常數步長,從而能降低調參的負擔。研究者在高斯混合模型和 PLSA 上比較了 sEM-vr 和批處理 EM、隨機 EM 及其它算法,結果表明 sEM-vr 比其它算法收斂明顯更快。該方法在對訓練精度要求較高時能顯著提升隨機 EM 算法的收斂速度。
19. 通信有效分布式優化的稀疏梯度方法
Gradient Sparsification for Communication-Efficient Distributed Optimization
論文地址:https://arxiv.org/abs/1710.09854
這項研究由賓夕法尼亞大學、騰訊 AI Lab、芝加哥大學與羅切斯特大學合作完成,提出了一種可用於提高大規模分布式機器學習模型訓練的通信速度的方法。現代大規模機器學習一般使用分布式環境下的隨機優化算法,傳播梯度的通信成本是其中一大重要瓶頸。為了降低通信成本,研究者提出了一種基於凸優化的方法來減小編碼長度,並使用了一些簡單快速的近似算法來有效求解最優的稀疏化方法,該方法能提供基於稀疏程度的理論保證。另外,研究者也在 L2 正則化 logistic 回歸、支持向量機和卷積神經網絡等凸模型和非凸模型上驗證對新提出的算法進行了驗證。
20. 去中心化的壓縮算法
Decentralization Meets Quantization
論文地址:https://arxiv.org/abs/1803.06443
這項研究由羅徹斯特大學、蘇黎世聯邦理工學院與騰訊 AI Lab 合作完成,提出了兩種適用於去中心化網絡的壓縮方法(外推壓縮和差異壓縮)。對於大規模並行計算,去中心化的網絡設計和傳輸信息的壓縮對於解決網絡延時十分有效。然而,與中心化的並行計算不同,理論分析表明,直接將去中心化網絡與壓縮算法結合將會造成訓練結果不收斂。研究者為解決該問題而提出的兩種壓縮方法能達到與中心化壓縮算法相同的運算效率。研究者也實驗了這兩種算法,結果表明它們大幅優於只用去中心化網絡或只用壓縮的算法。
ECD-PSGD:外推壓縮去中心化並行隨機梯度下降算法
DCD-PSGD:差異壓縮去中心化並行隨機梯度下降算法
雷鋒網 AI 科技評論轉載報導
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。