Uber AI 研究院深度解構 ICLR 2019 最佳論文「彩票假設」!

2020-11-23 手機鳳凰網

雷鋒網 AI 科技評論按:作為某種程度上的技術黑盒,神經網絡的諸多工作原理仍然有待探索。年初,Frankle 和 Carbin 的論文「 The Lottery Ticket Hypothesis:Finding Sparse,Trainable Neural Networks」提出了一種生成稀疏的高性能網絡的簡單方法,可以有效進行網絡剪枝,這一突破性進展也讓這篇論文成為 ICLR 2019 最佳論文的得主之一。在本文,Uber AI 研究院對這一「彩票假設」成果進行了深度解構,意外得到了具備強大剪枝能力的通用「超級掩模」(Supermask)!雷鋒網 AI 科技評論編譯如下。

在 Uber,我們利用神經網絡從根本上提升我們對城市中的人和物的運動的理解。在其他用例中,我們使用神經網絡,通過自然語言模型來加速客戶服務響應速度,並通過跨城市需求的時空預測來縮短用戶等待時間。在此過程中,我們已經開發出了相應的基礎設施來擴展模型的訓練並支持更快的模型開發。

儘管神經網絡是強大且被廣泛使用的工具,但它們的許多微妙的屬性仍然鮮為人知。隨著世界各地的科學家在理解網絡的基本屬性方面取得的重要進展,Uber AI 的大部分研究也在這個方向上迅速跟進。相關工作包括評估內在的網絡複雜性,尋找更自然的輸入空間以及揭示流行模型中的隱藏缺陷。

我們最近發布了一篇論文「Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask」(https://arxiv.org/abs/1905.01067),就旨在揭開神經網絡神秘的面紗。我們基於 Frankle 和 Carbin 提出的引人關注的「彩票假設」展開這項研究。他們的工作展示了一個非常簡單的算法刪除其較小的權重並進行重訓練,可以在性能與全網絡相當的大型網絡中找到稀疏的可訓練子網絡或「彩票」,給很多研究者帶來了驚喜。然而他們(和通常發生在出色的研究中的情況一樣)提出了與它們回答的問題一樣多的問題,而且也尚未很好地理解許多底層的機制。我們的論文提出了對這些機制的解釋,揭示了這些子網的有趣的特殊模式,引入了與「彩票」算法相競爭的變體,並獲得了意外發現的衍生品:「超級掩模」。

「彩票假設」

首先,我們簡要總結 Frankle 和 Carbin 的論文「 The Lottery Ticket Hypothesis:Finding Sparse,Trainable Neural Networks」(https://arxiv.org/abs/1803.03635),論文標題簡寫為「LT」。在本文中,作者提出了一種生成稀疏的高性能網絡的簡單方法:在對網絡進行訓練後,將所有小於某個閾值的權重設置為「0」(對其進行剪枝),將其餘權重重置回其初始配置,然後在保證被剪枝的權重處於凍結狀態的情況下(未經過訓練),從這個起始配置重新訓練網絡。通過使用這種方法,他們得到了兩個有趣的結果。

首先,他們證明了剪枝後的網絡性能良好。經過深度剪枝的網絡(剪掉了 95% 到 99.5% 的權重)與規模較大的未經剪枝的網絡相比,性能並沒有下降。此外,僅僅被適度剪枝的網絡(剪掉了 50% 到 90% 的權重)的性能往往還優於未剪枝的競爭模型。

其次,除了這些讓人眼前一亮的結果,剩餘網絡的結構和權重的特徵同樣有趣。通常情況下,如果你使用經過訓練的網絡,通過隨機權重對其重新進行初始化,然後重新訓練它,其性能將與之前大致相當。但是對於精簡的骨架彩票(LT)網絡來說,這個特性並不成立。只有當網絡重新回到其初始狀態時(包括使用的特定初始權重),網絡才能很好地訓練。用新的權重重新初始化會導致訓練效果不佳。正如 Frankle 和 Carbin 的研究所指出的那樣,剪枝掩模的特定組合(對於每個權重來說,顯示是否刪除該權重的 0-1 值)和掩模之下的權重構成了一個在更大的網路中找出的幸運子網絡。或者正如最初的研究中所命名的那樣,這是一個通往勝利的「彩票」模型。

我們發現這個例子很有趣,因為所有人都不知道為什麼會出現這樣的結果。LT 網絡是如何使它們表現出更好的性能?剪枝掩模和初始權重集合為何如此緊密的耦合,而重新初始化的網絡較難訓練?為什麼直接選擇較大的權重是選擇掩模的有效標準?其它創建掩模的標準是否也有效呢?

奇怪而有效的掩模

在開始調查研究時,我們觀察了一些需要解釋的奇怪現象。在訓練 LT 網絡時,我們觀察到許多重置的、用掩模處理過的網絡的準確率可能明顯高於初始化。也就是說,對未經訓練的網絡應用特定掩模會得到一個部分工作的網絡。

這可能會讓人感到意外,因為如果你使用一個隨機初始化的、未經訓練的網絡來進行諸如對 MNIST 數據集(https://en.wikipedia.org/wiki/MNIST_database)中的手寫數字進行分類的任務,你會發現這樣得到的準確率並不比隨機運行要好(準確率大約為 10%)。但是現在,假設你將網絡權重與一個僅僅包含「0」、「1」的掩模相乘。在這種情況下,權重要麼維持不變,要麼完全被刪除,但最終得到的網絡現在就可以達到近 40% 的準確率了!這很奇怪,然而在使用選擇具有較大最終值權重的 LT 論文中的步驟(我們稱之為「large final」的掩模準則)來應用創建好的掩模時,確實發生了這樣的情況:

圖 1:未經訓練的網絡隨機運行的結果(例如,如圖所示,在 MNIST 數據集上的準確率為 10%),如果這些網絡被隨機初始化、或隨機初始化並被隨機地進行掩模處理。然而,應用 LT 掩模會提高網絡的準確率,使其超過隨機的情況。

我們將具備「可以在不訓練底層權重的情況下,立即生成部分工作的網絡」的特性的掩模稱為超級掩模(Supermask)。

如圖 1 所示,在隨機初始化網絡和帶有隨機掩模的隨機初始化網絡中,權重和掩模都不包含任何關於標籤的信息,因此其準確性不一定能比隨機的情況更好。在具有 LT「large final」掩模的隨機初始化網絡中,得到優於隨機情況的性能並非不可能,因為掩模確實是在訓練過程中產生的。但這還是有些出乎意料,因為從訓練回傳到初始網絡的唯一信息是通過「0-1」掩模傳輸的,並且應用掩模的標準只是選擇有大最終值的權重。

掩模運算是需要訓練的,為什麼「0」很重要?

那麼,為什麼我們認為,只需應用 LT 掩模就可以大大提高測試的準確率呢?

LT 論文中實現的掩模運算過程將執行兩個操作:將權重設置為零,以及凍結這些權重。通過確定這兩個部分中的哪一個會提高訓練好的網絡的性能,我們還發現了未經訓練網絡的這種獨特性能的底層原理。

為了分開上述兩個因素,我們進行了一個簡單的實驗:我們復現了 LT 迭代剪枝實驗,其中網絡權重在交替的「訓練/掩模/重置」的循環中被掩模處理,但我們還嘗試了其它的處理方式:將「零掩模」處理的權重凍結為其初始值,而不是將其凍結為零。如果零不是特殊的,那麼這兩種方法得到的性能應該相似。我們遵循 Frankle 和 Carbin(2019)的做法,在 CIFAR-10 數據集上訓練三個卷積神經網絡(CNN),Conv2,Conv4 和 Conv6(具有 2/4/6 卷積層的小型 CNN,這與 LT 論文中使用的相同)。

下方圖 2 為實驗結果,通過剪枝操作(或者更準確地說:「凍結為一定的值」)將左側的未剪枝的網絡修改為右側的修剪後的網絡。水平黑線表示原始未剪枝網絡五次運行的平均性能。此處和其他圖中的不確定性代表五次運行中的最小值和最大值。藍色實線代表使用將剪枝後的權重設置為零並凍結它們的 LT 算法訓練的網絡。藍色虛線則代表使用沒有將剪枝權重凍結成其初始值的 LT 算法訓練的網絡: 

圖2:當在 CIFAR-10 數據集上測試上述的三個卷積神經網絡時,我們發現具有被凍結為其初始值的剪枝後權重的網絡的準確率比具有被設置為零的剪枝後權重的網絡的準確率明顯要低一些。

我們看到,當權重被特意凍結為零而不是隨機初始值時,網絡的表現更好。對於通過 LT「final large」標準進行掩模處理的這些網絡,當它們具有小的最終值時,將權重設置為零似乎是非常好的選擇。

那麼為什麼零是理想的值?一種假設是,我們使用的掩模標準傾向於將那些趨向於零的權重通過掩模處理為零。為了驗證這個假設,讓我們考慮一種新的凍結方法。我們在前兩個實驗之間插入另一個實驗:對將要被凍結的任意權重,如果它在訓練過程中趨向於零,我們會將它凍結為零;而如果它逐漸遠離零,那麼我們將它凍結為其隨機初始值。結果如下面的圖 3 所示:

圖3:根據權重在訓練期間移動的方向,有選擇性地將權重凍結為其初始值或零,會得到比將所有權重一律初始化為零或其初始值更好的性能。

我們看到這種處理方法的性能比將所有權重凍結為零或初始值更好!這印證了我們的假設,即將值凍結為的性能較好,是由於這些值無論如何都會趨向於零的事實。如果了解關於為什麼「final large」掩模標準偏向於選擇那些趨向於零的權重的深入討論,請參閱我們的論文(https://arxiv.org/abs/1905.01067)。

因此,我們發現對於某些諸如「large final」的掩模標準,掩模是在訓練中得出的:掩模操作傾向於將權重朝著它們在訓練時移動的方向移動。

這同時解釋了為什麼存在「超級掩模」,並間接說明其它的掩模標準可能會得到更好的「超級掩模」(如果它們能優先將在訓練中趨向於為零的權重掩模為零)。

其它的掩模標準

現在我們已經對原始的 LT 掩模標準「large final」表現出色的原因進行了探索,那麼我們不妨想想還有什麼其它的掩模標準也會有很好的性能。「large final」標準保留具有較大最終值的權重並將其餘權重設置為零。我們可以將這種剪枝標準和許多其它的標準視為將二維(w i =初始權重,wf =最終權重)空間劃分為對應於應該保持的權重(「1」掩模)與應該剪枝的區域(「0」掩模)。工作原理如圖 5 所示:

圖 5:不同的掩模標準可以被認為是將(wi,wf)空間分割成與掩模值「1」或「0」相對應的區域。橢圓以動畫的形式表示出某給定層的正相關的初始值和最終權重佔據的區域。圖中的掩模對應於LT論文中使用的「large final」標準:保持具有大的最終值的權重,並且對具有接近零的最終值的權重進行剪枝。請注意,此標準忽略了權重的初始值。

在上一部分中,我們展示了一些證據來支撐下面的假設:將已經趨向於零的權重設置為零會得到很好的網絡性能。該假設表明,如果他們遵循這一基本規則,這對其它的掩模標準可能也有效。其中一個此類掩模標準是:優先保持那些移動得離零最遠的權重,我們可以將其寫為評分函數 |wf|-|wi| 的形式。我們將此標準稱為「magnitude increase」,並將其與其他標準一起表示為圖 6 中的條件控制示例,如下所示:

圖 6:從 LT 論文中出現的「large final」標準開始,從左到右依次為本研究中考慮的八個掩模標準。我們給出了用來指代各種方法的名稱以及將每個(wi,wf)對投影到一個分數上的公式。我們保留具有最高分數(彩色區域)的權重,並且對具有最小分數(灰色區域)的權重進行剪枝。

這種「magnitude increase」標準與「large final」標準一樣有效,在某些情況下明顯還要更好一些。對於全連接(FC)和 Conv4 網絡,所有標準的結果如圖 7 所示;要想了解其他網絡的性能結果,請參閱我們的論文(https://arxiv.org/abs/1905.01067)。作為對比基線,我們還顯示了使用隨機剪枝標準得到的結果,該標準直接選擇具有所需的剪枝百分比的隨機掩模。請注意,八個標準中的前六個標準形成了三對相反的情況:在每種情況下,我們看到當該對中的一個成員比隨機基線表現更好時,相對的另一個成員的性能就比隨機基線更差。

圖 7:兩個網絡的準確率與剪枝百分比的測量結果,MNIST 數據集上的全連接網絡(左圖)和 CIFAR-10 數據集上的 Conv4 網絡(右圖)。表明多個掩模標準——「large final」,「magnitude increase」,以及另外兩個標準,確實優於黑色的隨機剪枝基線。在Conv4網絡中,「magnitude increase」的性能提升大於其他掩模標準; 星號標記出了「large final」和「magnitude increase」之間的差異在 p = 0.05 的水平上具有統計顯著性的情況。

通常而言,我們觀察到,那些傾向於保留具有較大最終值的權重的方法能夠發現高性能子網絡。

真正起作用的是符號!

我們已經探索了各種方法,用來選擇應該對哪些權重進行剪枝以及應該將剪枝後的權重設置為何值。現在,我們將考慮應該將保留下來的權重設置為何值。特別是,我們想研究 Frankle 和 Carbin(2019)的工作中一個有趣的觀察結果,該結果表明,當你將其重置為原始初始值時,經過剪枝的骨架 LT 網絡可以很好地進行訓練。但是,當你隨機重新初始化網絡時,訓練的性能會降低。

為什麼重新初始化導致 LT 網絡訓練不佳?初始化過程中的哪些因素很重要呢?

為了找到問題的答案,我們評估了一些重新初始化了的變體。

  • 「Reint」實驗:基於原始的初始化分布重新初始化保留的權重。

    「Reshuffle」實驗:在遵循該層中剩餘權重的原始分布的情況下進行重新初始化,這是通過重新調整保留下來的權重的初始值來實現的。

    「Constant」實驗:通過將剩餘權重值設置為正或負的常量來重新初始化,將常量設置為每層的原始初始值的標準差。

    所有重新初始化實驗都是基於相同的原始網絡實現的,並使用了「large final」掩模標準和迭代剪枝。我們將原始 LT 網絡(權重重置,使用了 large ginal 標準)和隨機剪枝網絡作為對比基線。

    我們發現這三種變體中沒有一種能夠像原始 LT 網絡那樣進行訓練,如下圖 8 中的虛線所示:

    圖 8:我們展示了測試準確率與兩個網絡的剪枝百分比,全連接網絡(左圖)和 Conv4 (右圖),同時使用不同的重新初始化方法。在遵循符號一致性的那些與不符合符號一致性的初始化方法之間的明顯的性能區別表明,保留權重的特定初始值並不像它們的符號那麼重要。

    然而,當我們通過確保「為保留下來的權重重新分配的值與其原始的初始值具有相同符號」來控制符號的一致性時,所有三種變體都能取得更好的性能。圖 8 中顯示的純色實線說明了這種情況。顯然,使得所有變體的性能都比隨機情況更好的共同要素(包括原始的「重置」方法)就是符號!這表明只要你保持符號一致,重新初始化就不會損害模型的性能。事實上,只要我們沿用原始的符號,即使直接將所有保留的權值設置為常量也能得到很好的模型效果!

    更好的「超級掩模」

    在文章的開頭,我們介紹了「超級掩模」的概念,它是二值掩碼,當應用於隨機初始化網絡時,無需進行額外的訓練即可得到比隨機情況更高的測試準確率。我們現在將注意力轉而投向尋找可以得到最佳的「超級掩模」的方法。

    我們可以評估圖 7 中所示的相同剪枝方法和剪枝百分比,來查看「超級掩模」的潛能。我們還可以考慮為生成「超級掩模」而優化的其它掩模標準。基於對 LT 權重的初始符號的重要性的觀察以及使權重接近其最終值的想法,我們引入了一個新的掩模標準,該標準選擇具有大的最終值的權重,該權重也在訓練的最後保持相同的符號。這種方法被稱為「large final, same sign」,如圖 9 所示。我們還添加了「large final, same sign」作為條件控制案例,它會尋找在訓練結束時符號有所改變的權重。

    圖9:「large final, same sign」的掩模標準在本研究中得到了性能最好的「超級掩模」。與圖 5 中的「large final」掩模相反,請注意該標準對 wi 和 wf 符號不同的象限進行了掩模運算。

    通過使用「large final, same sign」的簡單掩碼標準,我們可以創建在 MNIST 數據集上獲得性能卓越的具有 80% 測試準確率的網絡。在不進行訓練的情況下,可以在 CIFAR-10 數據集上獲得 24% 的測試準確率。另一個奇妙的觀察結果是,如果我們將掩模應用於有符號常數(如上一節所述)而不是實際的初始權重,我們可以在 MNIST 數據集上得到高達 86% 的更高的測試準確率,在 CIFAR-10 數據集上得到 41% 的測試準確率。

    圖 10:我們評估了應用各種掩模時,在 MNIST 數據集上單個全連接網絡的初始條件下(沒有經過訓練)得到的準確率。X 軸代表網絡中剩餘權重的百分比;所有其餘的權重都被設置為零。「large final, same sign」的掩碼可以創建性能遠高於其他方法的「超級掩模」。請注意,除了為繪製此圖生成不確定帶的五次獨立運行之外,繪圖上的每個數據點都使用了相同的底層網絡,只不過應用了不同的掩碼。

    我們發現這樣的「超級掩模」是存在的,並且可以通過這樣簡單的標準找到它是非常有趣的。除了是一個科學上的有趣發現,這還可能對遷移學習和元學習產生影響——可以對網絡進行近似求解。例如,只需使用不同的掩碼,就可以求得 MNIST 輸入像素的任何排列和輸出類的排列。它們還為我們提供了一種網絡壓縮方法,因為我們只需要保存二值掩碼和單個隨機種子就可以重建網絡的全部權重。

    如果你想了解我們能夠在多大程度上提升這些「超級掩模」的性能,請參閱我們的論文(https://arxiv.org/abs/1905.01067),在論文中我們嘗試了直接對它們進行訓練的方法。

    via https://eng.uber.com/deconstructing-lottery-tickets/ 雷鋒網

相關焦點

  • 自「彩票假設」理論被授予2019 ICLR 最佳論文後,該領域又有了哪些...
    近年來,在深度學習領域,人們將一個新的具有廣闊前景的研究領域隱喻為「彩票假說」(LTH)。在本文中,我們會深入探討該假設,並回顧 Frankle 和 Carbin 在 ICLR 2019 上發表的那篇風光無限的最佳論文《THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS》。
  • ICLR最佳論文:MIT科學家提出彩票假設,神經網路縮小10倍並不影響結果
    訓練深度神經網絡的感覺就像買彩票HackerNews網友opwieurposiu就吐槽,做DNN其實根本和買彩票沒什麼區別:先是收集訓練數據,然後寫一個python腳本,支付大約1美元的GPU時間,跑一下。所不同的是,你盯著的不是輪盤的轉針,而是損失函數圖。
  • 乾貨| 2019 AI 國際頂級學術會議一覽表
    雷鋒網 AI 科技評論按:2017 -2018 年兩年間,AI 科技評論秉承「洞見學術前沿,連接產業未來」的宗旨,走遍美國、加拿大、澳大利亞、法國、新加坡等多個國家,兩度親歷 10 餘個國際頂級學術會議,為大家帶來了一系列現場精彩報導。
  • AI+醫療「最佳掘金案例」榜單出爐,致敬寒冬中的「持炬者」
    2017年11月,雷鋒網聯合數十家風險投資公司、傳統上市企業、機關單位領導以及海內外高校,啟動了業內首個人工智慧商業案例評選活動:「AI最佳掘金案例年度榜單」,從商業維度出發,尋找各個行業用戶/客戶問題解決能力強的最佳產品和解決方案。
  • 2019 AI Index 報告出爐:AI 領域取得的進展很多,但結果憂喜參半
    雷鋒網 AI 科技評論按:當地時間 12 月 11 日,斯坦福「以人為本」人工智慧研究院與 OpenAI 合作完成的2019 AI Index 年度報告發布。作為史丹福大學「AI100」項目的一部分,AI Index 旨在研究影響人工智慧產業的最大趨勢、突破性研究進展以及人工智慧對社會的影響,今年已是該報告發布的第三個年頭。
  • 「新奇」假設!Adam 或許不是最佳的深度學習優化器
    事實上,我不會證明任何東西,我只是簡單地解釋一下我關於深度神經網絡優化的一些猜想。和我平時的帖子不同,我寫的東西完全有可能是錯的。 我已經從實踐和經驗的角度研究在線和隨機優化有一段時間了。所以,當Adam (Kingma and Ba, 2015)被提出時,我已經在這個領域了。 這篇論文還可以,但算不上突破,就今天的標準而言更是如此。
  • 國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文出爐
    機器之心報導機器之心編輯部昨晚,在北京舉行的信息檢索頂會 ACM CKIM 2019 上,來自以色列的研究者獲得了最佳論文獎項,阿里巴巴獲最佳應用論文獎,最佳 Demo 獎則頒給了 IBM 的研究者。最佳論文出爐CIKM 2019 論文獎項分為三個:最佳研究論文、最佳應用論文與最佳 Demo。最佳研究論文由來自以色列內蓋夫本-古裡安大學的 Noy Cohen 等人獲得。
  • 圖靈獎「擁抱」深度學習
    三年之後,Hinton 與 David Rumelhart 等人聯合發表了一篇開創性的論文,證明反向傳播算法能讓神經網絡發現自己內部的數據表徵,這在以前是無法實現的。目前,反向傳播算法是大多數神經網絡的標準算法。在 Hinton 擁抱神經網絡概念的時候,大多數研究學者還認為神經網絡是一條「死胡同」。
  • 神經網絡在「生命遊戲」裡苦苦掙扎
    最近,有研究人員發表了一篇論文,指出儘管這款遊戲很簡單,但它對神經網絡來說,仍是個挑戰。他們的論文研究了神經網絡是如何「探索」這款遊戲的,以及為什麼它們會常常錯過正確玩法。康威生命遊戲是英國數學家約翰·康威在1970年發明的細胞自動機。這個遊戲可以在一個無限大的2D網格上進行。
  • 中獎彩票,子網絡的覺悟
    提出「彩票假說」隨著網絡剪枝研究的深入,Jonathan Frankle 等人【2】發表了一篇名為《The Lottery Ticket Hypothesis :Finding Sparse Trainable Neural Networks》的論文,並獲得了 2019 年 ICLR 最佳論文獎。
  • 創新工場「數據下毒」論文入選NeurIPS 2019,AI安全問題需要引起...
    這篇論文的三位作者為:馮霽(創新工場南京國際人工智慧研究院執行院長)、蔡其志(創新工場南京國際人工智慧研究院研究員) 、周志華(南京大學人工智慧學院院長)。這篇論文圍繞現階段人工智慧系統的安全性展開研究,具體而言,文章提出了一種高效生成對抗訓練樣本的方法 DeepConfuse,通過微弱擾動資料庫的方式,徹底破壞對應的學習系統的性能,達到「數據下毒」的目的。
  • 全球三十大最佳 AI 創業公司公布
    機器之心根據研究實力、技術與產品、市場與行業潛力、運營能力、資本與財務狀況、創新性與實用性等多項標準,評選出四項大獎:全球三十大最佳 AI 創業公司、中國十大最強 AI 研究實力企業、中國十大最具潛力早期 AI 公司、三十大最佳 AI 應用案例。Drive.ai、流利說、追一科技等GGV紀源資本被投企業入選榜單。
  • 數十篇滿分論文,接收率26.5%,ICLR2020接收結果,明年非洲見
    今年的 ICLR 也不算風平浪靜,先是投稿數量爆炸導致審稿負擔急劇增加,結果被爆出一半審稿人根本沒在相關領域發過論文,輿論風向一度演化為「機器學習同行評審崩塌了」。 之後,又有網友摘出某篇由滿分『8-8-8』轉為超低分『1-1』的論文,質疑 ICLR 評審結果的權威性。「頂會審稿水平到底行不行」這個話題再一次鬧得紛紛揚揚。
  • 2019 年 NLP 領域都發生了哪些大事件?
    該方法在12個自然語言處理任務上,都實現了最先進的性能。2019 年初,英偉達的研究人員發表了一篇著名的論文「StyleGAN」,它基於風格遷移方法,提出了一種可選的 GAN 生成架構。接著,他們在論文《Analyzing and Improving the Image Quality of StyleGAN》中對 StyleGAN 進行了改進,重新設計了生成器的歸一化過程。
  • ACL 2019 論文:谷歌提出增強神經網絡機器翻譯魯棒性的新方法
    谷歌研究院的一篇 ACL 2019 論文提出了一種方法,使用生成的對抗性樣本來提高機器翻譯模型的魯棒性,防止輸入中存在的細小擾動度對其造成影響。結果表明,該方法提高了 NMT 模型在標準基準上的性能。在本文中,作者 Yong Cheng、 Lu Jiang 和 Wolfgang Macherey 對其在 ACL 2019 上發表的《具有雙對抗性輸入的魯棒神經機器翻譯》論文進行了介紹。
  • 首屆國際分布式AI會議在京召開,姚期智、Lesser坐鎮,德撲、圍棋 AI...
    值得一提的是,他帶領的微軟團隊就在不久前為 AI 領域帶來了一項突破性的成果——世界最強的麻將 AI「Suphx」在日本在線麻將競技平臺「天鳳」晉級十段。不過他在本次報告中並沒有介紹他們所研製的麻將AI,而是以主題為《Towards AI-powered Industrial Digital Transformations》介紹了微軟亞洲研究院如何利用人工智慧幫助傳統企業進行數位化轉型。
  • 告別2019:屬於深度學習的十年,那些我們必須知道的經典
    在 2011 年的這篇論文中,ReLU 被正式提出。它能夠幫助解決梯度消失的問題,為神經網絡增加深度鋪路。Sigmoid 及其導數。當然,ReLU 也有一些缺點。在函數為 0 的時候不可微,而神經元可能會「死亡」。在 2011 年之後,很多針對 ReLU 的改進也被提了出來。
  • 7500人參會,國內接收論文數量超越美國,ICCV 2019最佳論文揭曉
    機器之心報導機器之心編輯部兩年一度的計算機視覺國際頂會 ICCV 2019 已於 10 月 27 日在韓國首爾開幕。在過去兩天的 workshop 與 tutorial 上,我們看到了各個公司與團隊在挑戰賽上的角逐。今日,大會主會議正式開始,此屆大會的最佳論文、最佳學生論文等獎項也於剛剛揭曉。
  • 首屆國際分布式AI學術會議議程全公布:姚期智、劉鐵巖主旨演講
    他曾擔任 AAAI 創始 Fellow、IEEE Fellow、多智能體系統國際會議(ICMAS)的首屆主席、國際智能體及多智能體系統協會(IFAAMAS)創始主席等,2007 年,為了表彰他在多智能體系統領域做出的傑出貢獻,IFAAMAS 還專門設立了以他的名字命名的「Victor Lesser 傑出論文獎」。此外,他還獲得了 2009 年 IJCAI「卓越研究獎」等重要獎項。
  • ICLR 2020接收結果已出,明年非洲見
    「史上第一次在非洲舉行的 AI 頂會」ICLR 2020 將於明年 4 月 26 日於衣索比亞首都阿迪斯阿貝巴舉行。今年的 ICLR 也不算風平浪靜,先是投稿數量爆炸導致審稿負擔急劇增加,結果被爆出一半審稿人根本沒在相關領域發過論文,輿論風向一度演化為「機器學習同行評審崩塌了」。