4 月 25 日- 30 日,機器深度學習領域頂級會議——國際表徵學習大會(ICLR,International Conference on Learning Representations)正式舉行。根據此前發布的論文接收結果,RealAI首席科學家朱軍教授帶領的TSAIL團隊共發表 7 篇,位居世界第二,朱軍教授與喬治亞理工學院宋樂教授並列 ICLR 2020 華人貢獻榜首位。
由於受到全球範圍疫情爆發的影響,本屆ICLR完全改為線上「雲」會議,但這絲毫沒有影響全球人工智慧學者和研究人員的熱情。據統計,本屆會議共有 2594 篇投稿、 687 篇收錄,接收率為 26.5% 。相比去年的 1591 篇論文投稿,今年也將會是ICLR史上規模最大的一次會議。
在所有收錄的論文中,共有 48 篇被接收為口頭報告論文, 107 篇被接收為亮點論文, 532 篇作為牆報論文。TSAIL團隊發表的 7 篇文章包括一篇口頭報告論文(收錄率低於1.9%),一篇亮點論文(收錄率低於6%)。
作為深度學習領域的國際頂級會議之一,ICLR論文評審的透明性和廣泛性獨樹一幟,被認為是業界做得最公開的一個會議,當然,這也意味著論文被接收的難度之大。在此背景下,TSALL團隊的亮眼成績也再度展現了清華學者在人工智慧領域國際領先的科研硬實力。
其實,在人工智慧頂級會議和期刊上,清華大學的成果長期位居國際前列。根據全球計算機科學專業排名榜CSRankings發布的2010- 2020 共 10 年間AI科研成果客觀排名,清華大學名列世界第二,其中,朱軍教授名列清華第一。
TSAIL團隊長期從事機器學習、貝葉斯統計等基礎理論、高效算法及相關應用研究,在國際重要期刊與會議發表學術論文 100 餘篇。此次被接收的 7 篇論文涵蓋博弈論、強化學習、對抗魯棒學習、貝葉斯深度學習等前沿領域。我們將 7 篇文章提前做了整理,下面逐篇做亮點解讀。
論文1:多智能體強化學習的後驗採樣:求解不完全信息的擴展型博弈
摘要:強化學習(RL)是通過從與環境的迭代交互中獲取信息來改進策略,目前設計RL算法的一個典型問題就是如何實現以最少的交互次數找到最優策略。強化學習的後驗採樣(PSRL)為未知環境下的決策問題提供了一個有用框架。比如在單智能體強化學習(SARL)中,PSRL採用最大期望回報作為交互策略,被視為最優方法之一。不過儘管PSRL在單智能體強化學習問題上表現良好,但如何將PSRL應用於多智能體強化學習問題卻尚未得到研究。本文將PSRL拓展到具有不完全信息(TEGI)的二人零和博弈,這是一類多智能體強化學習任務 (MARL)。這裡的不完全信息意味著主體可以保留私有信息,比如撲克遊戲中私有卡的規則設置,針對不完全信息擴展型博弈的研究對於眾多應用具有實際意義。本文主要提出將PSRL與反事實遺憾最小化算法(CFR)相結合,其中CFR是TEGI在已知環境下的領先算法,這為不完全信息拓展式博弈中的RL問題設計了一種有效的新交互策略。
論文2:Lazy-CFR:不完全信息擴展型博弈中快速且接近最優的遺憾最小化算法
摘要:反事實遺憾最小化(CFR)方法是解決具有不完全信息的二人零和博弈的有效方法。但是CFR的一個限制就是它需要在每一輪中遍歷整個遊戲樹,這在大型遊戲中非常耗時。目前用於提高CFR算法速度的方法主要有兩類:基於剪枝的CFR(Pruning-based CFR)和蒙特卡洛CFR (MC-CFR) ,但這兩種方法都有所局限。本文主要提出一種新算法Lazy-CFR,通過利用延遲更新技術來避免CFR遍歷整個遊戲樹。Lazy-CFR將時間範圍劃分為若干段,僅在每段開頭更新策略,並在每段內保持策略不變,從而實現只需要訪問遊戲樹的一小部分即可。將Lazy-CFR與普通CFR算法相比較發現,兩者的虛擬遺憾值基本相同,但Lazy-CFR遺憾最小化的上界接近最優,而且在收斂速度上,Lazy-CFR顯著快於普通CFR算法。
論文3:SVQN:SequentialVariational Soft Q-Learning Networks
摘要:部分可觀測馬爾可夫決策過程(POMDP)是現實世界中應用廣泛的決策模型,該模型主要基於過去觀察的信息來做出最佳決策。標準強化學習算法不適用於求解部分可觀測馬爾可夫決策過程,因為它難以推斷出未觀察到的狀態。本文主要提出一種新的POMDP算法,稱為SVQN(SequentialVariational Soft Q-Learning Networks),該算法在統一的圖模型下能夠結構化隱性推理和最大熵強化學習(MERL) ,並對兩個模塊進行了聯合優化。本文也進一步設計了一個深度遞歸神經網絡以減少算法的計算複雜性。實驗結果表明,SVQN能夠基於過去的信息來實現有效的推理決策,在一些具有挑戰性的任務上效果也優於其他基線。同時SVQN具有隨時間推移的泛化能力,對觀測擾動也具有較強的魯棒性。
論文4:利用混合推理更好地防禦對抗樣本攻擊
摘要:眾所周知,對抗樣本能夠很容易欺騙深度神經網絡,這主要由於神經網絡在輸入樣本附近的非線性。混合訓練模型則提供了一種有效的防禦機制,在訓練中引入了全局線性行為,從而提升模型的泛化性能和魯棒性。但是,此前混合訓練的模型只是對輸入樣本做直接分類,並不能夠很好的利用引入的全局線性,所以面對對抗樣本攻擊時只是被動防禦。本文主要對混合訓練模型開發了一個名為「混合推理」(MI)新推理原理,將輸入樣本與其他隨機純淨樣本混合,如果輸入樣本是對抗性的,則縮小並傳遞等效擾動。通過在CIFAR- 10 和CIFAR- 100 數據集上驗證表明,MI可以進一步提高由混合訓練模型及其變體訓練模型的魯棒性。
論文5:對Softmax交叉熵損失函數提升對抗魯棒性的再思考
摘要:先前的工作表明,提高機器學習模型的對抗魯棒的泛化性往往需要更大的樣本複雜度,例如常用的CIFAR-10數據集可以訓練一個高精度的分類模型,但往往難以訓練出對抗魯棒的模型。但收集新的訓練數據成本較高,因此通過在特徵空間中選擇引入高樣本密度的區域來集中利用給定數據,能夠獲得局部足夠樣本進行對抗魯棒的學習。本文首先分析表明Softmax交叉熵(SCE)損失函數及其變體傳遞了不恰當的監督信號,這促使學習獲得的特徵點在訓練過程中稀疏地散布在整個空間中。在此思路的啟發上,本文主要提出MMC損失函數(Max-Mahalanobis)方法,以明確誘發密集的特徵區域提高對抗魯棒性。也就是說,MMC損失函數促使模型專注於有序和緊湊的學習表示,這些表示聚集在預先設定的最優中心周圍,用於不同的類。根據經驗證明,即使在強自適應攻擊下,應用MMC損失函數也能顯著提高魯棒性,同時在不需要額外計算的情況下,在純淨輸入樣本上保持與SCE損失相當的高精度。
論文6:SUMO:隱變量模型對數邊際概率的無偏估計
摘要:隱變量模型是用於表述數據分布和理解高維數據的強大工具,能夠高度結構化概率先驗。近年來,如何將深度神經網絡與非線性概率隱含模型相結合以提高模型的可解釋性成為一大熱門研究方向。但要隱變量模型的參數擬合工作很具有挑戰性,需要對邊際似然的對數進行高質量的估計。本文主要構造了一個無偏估計的對數邊際似然,在相同的期望計算成本下,無偏估計可以訓練隱變量模型,並獲得比下限估計更高的測試對數似然。更重要的是,在存在問題的情況下,該無偏估計允許優先使用下界估計進行優化。這一方法可應用包括後驗推理的隱變量建模和高維空間的強化學習,在高維空間中,該方法構建的模型具有高表達性,採樣效率也更高。
論文7:使用ADVIL來減少訓練MRF的煩惱
摘要:本文提出了一種對抗變分推理學習(AdVIL)的黑盒學習算法,能夠在一般的馬爾可夫隨機域(MRF)中進行推理和學習。AdVIL採用兩種變分分布來近似推斷隱含變量並估計MRF的配分函數。這兩個可變的分布提供了MRF的負對數似然估計作為極小極大優化問題,可以通過隨機梯度下降來解決。AdVIL在某些條件下被證明具有收斂性。一方面,與對比散度相比,AdVIL對模型結構的假設最少,可以處理更廣泛的MRF類別。另一方面,與現有的黑盒方法相比,AdVIL提供了更嚴格的對數配分函數估計,並獲得了更好的經驗結果。
近年來,在人工智慧頂級會議中,中國學者的研究力量正快速崛起,其中清華大學人工智慧團隊擁有著比肩世界頂級名校團隊的科研創新能力,並且始終保持對前沿技術的敏感和基礎技術的研發先手,多次在人工智慧領域最前沿的競技舞臺上取得亮眼成績。
而且作為國內最早從事人工智慧技術研究的高校機構之一,清華大學不僅湧現出一批學術大咖、學術新星,還積極推動學術界與工業界的深度融合,孵化出一批新興AI企業,促進人工智慧產學研結合。可以預見,這些「中國科技新力量」將在未來支撐起中國人工智慧行業新一輪的產業變革。
關於RealAI
RealAI瑞萊智慧是亞洲首家安全可控人工智慧技術及行業解決方案提供商,作為孵化自清華大學的團隊,RealAI由清華大學人工智慧研究院院長張鈸院士、清華大學人工智慧研究院基礎理論研究中心主任朱軍教授擔任首席科學家。
RealAI致力於研究和推廣安全、可靠、可信的第三代人工智慧,基於安全可控的核心算法技術,提高企業級人工智慧解決方案可靠性與安全性。一方面提升AI本身的安全性,解決AI技術應用引起的安全問題,檢測和防範AI系統漏洞及濫用風險;另一方面,通過安全可控的AI賦能高價值產業,服務於金融、工業、公共治理等領域。目前,RealAI已經與多家大型金融機構、工業企業、政府部門開展合作,提供信貸風控、反欺詐、設備資產運營優化、人工智慧系統安全性檢測、AI防火牆、內容審查等產品和服務。