楊植麟等人瞄準softmax瓶頸,新方法顧表達性和高效性

2021-01-11 澎湃新聞

機器之心

選自arxiv

作者:楊植麟、Thang Luong等

機器之心編譯

參與:魔王、杜偉

2017 年,楊植麟等人提出一種解決 Softmax 瓶頸的簡單有效的方法——Mixture of Softmaxes(MoS)。但該方法成本高昂,於是最近楊植麟等人再次瞄準 softmax 瓶頸問題,提出兼顧表達能力和高效性的新方法 Mixtape。

論文連結:https://papers.nips.cc/paper/9723-mixtape-breaking-the-softmax-bottleneck-efficiently.pdf

softmax 瓶頸限制了神經語言模型的表達能力(expressiveness)。Mixture of Softmaxes (MoS) 是解決該理論局限的有效方法,但與 softmax 相比,MoS 無論在內存還是時間上都成本較高。

來自 CMU 和谷歌大腦的楊植麟、Thang Luong、Ruslan Salakhutdinov 和 Quoc Le 提出了一種新方法 Mixtape,該輸出層利用三項新技術——logit 空間向量門控(logit space vector gating)、sigmoid 樹分解(sigmoid tree decomposition)和門控共享(gate sharing),更高效地打破了 softmax 瓶頸。

研究者在語言建模和機器翻譯等四個基準數據集上進行了實驗,結果表明 Mixtape 層與 MoS 層性能相當,且 Mixtape 的效率是後者的 3.5-10.5 倍。在 10-30K 的詞彙量下,使用 Mixtape 的網絡僅比基於 softmax 的網絡慢 20%-34%,其困惑度和翻譯質量均優於 softmax。

softmax 帶給我們的苦與樂

大量神經網絡使用 softmax 作為標準輸出層,包括大部分神經語言模型。但是,正如楊植麟等人在之前研究 [19]中所指出的,softmax 限制了神經語言模型的表達能力,因為它將輸出表示限制在低秩,這不足以建模自然語言的複雜性。該局限叫做「softmax 瓶頸」。

為了打破這一瓶頸,[19] 提出新方法 Mixture of Softmaxes (MoS),它將離散潛在變量引入到輸出層中,通過 log-sum-exp 非線性變換使對數概率矩陣變為高秩。但是,MoS 的內存和時間成本均高於 softmax,這使得它在計算資源有限的情況下實際應用性減弱。

MoS →Mixtape

為了降低 MoS 的計算成本,最近楊植麟等人提出了一種高效解決 softmax 瓶頸的新型輸出層 Mixtape。Mixtape 可作為額外層嵌入到任意現有網絡的交叉熵損失函數之前。它不像 MoS 在概率空間中部署標量混合(scalar mixture),而是在 logit 空間中應用向量門控機制,以避免使用多個成本高昂的 softmax。

此外,Mixtape 還使用了另外兩項新技術來進一步降低計算成本。

首先,向量門控機製成本高昂,因為該機制需要我們對詞彙表中的每一個詞計算 softmax 門控。為此,研究者提出了 sigmoid 樹分解技術,將 softmax 概率門控分布分解為一個深度為 2 的二叉樹結構,每一個分支所包含的概率值部分由 sigmoid 函數決定。sigmoid 樹分解更加高效,因為它避免了 softmax 中的減除運算。

另一項技術是門控共享,即對所有低頻詞共享門控值,得到部分高秩的表示。該技術在不影響性能的情況下,節約了一定量的內存和計算資源,因為即使沒有門控共享,低頻詞的門控值通常也很難準確估計。

Mixtape 有多強大

Mixtape 結合了以上三項技術,效率較 MoS 有顯著提升,而且 Mixtape 在四個基準數據集上的性能堪比甚至超過後者。在正常詞彙量情況下(如 10K-30K),基於相同的批大小,Mixtape 層的速度是 MoS 層的 1.6-11.5 倍;基於相同的內存,Mixtape 層的速度是 MoS 的 3.5-10.5 倍。

在正常詞彙量情況下,基於相同的批大小,使用 Mixtape 的網絡速度僅比使用 softmax 的網絡慢 5%-18%;基於相同的內存,前者僅比後者慢 20%-34%。在包含 100K token 的大詞彙量情況下,基於 Mixtape 的網絡的速度僅比基於 softmax 的網絡慢 60%。

Mixtape 和 MoS 在困惑度和翻譯質量方面均優於 softmax。有趣的是,這些基準數據集各自的詞彙量從 10K 到 100K 不等,其輸入表示也不盡相同(包括單詞和 BPE 子詞),這表明 Mixtape 對不同輸入都很高效,具備穩健性。

Mixtape 高效解決 softmax 瓶頸的奧秘

softmax 瓶頸問題的定義。

2017 年,CMU 楊植麟等人提出了解決 Softmax 瓶頸的簡單有效方法 MoS。近期,楊植麟等人為了解決效率低下問題,再次提出了新方法 Mixtape,該方法既能和 MoS 一樣學習高秩表示,其效率又高於 MoS。

如前所述,Mixtape 運用了三項新技術,接下來我們就來查看其細節。

logit 空間向量門控

MoS 成本最高的部分是計算 K 個 softmax,如果我們能夠只用一個 softmax 計算最終概率分布,就可以節約大量計算資源。我們很容易想到將混合(mixture)從概率空間移到 logit 空間,即在 softmax 運算之前混合表示,從而得到條件分布

。但是,正如論文 [19] 所述,該公式會導致低秩表示,因為它仍然使用公式 (1) 中的矩陣分解。

於是,該研究做了一個小小的修改:在 logit 空間中使用混合運算,從而得到高秩表示。其關鍵思想是:使用向量門控機制,而不是標量混合。也就是說,該方法未對每一個 token 使用共享混合權重集,而是對不同的 token 應用不同的權重集。使用向量門控後,條件分布的公式可寫為:

但是,在 Mixtape 取得高效率的路上還有一個障礙。對於每一個 context-token 對 (c, x),先驗 π_c,x,k 需要執行歸一化操作,而這需要對每一對的先驗概率執行 softmax 運算。

Sigmoid 樹分解

為了高效計算先驗 π_c,x,k,研究者不使用 softmax,而是提出一種新技術——將 softmax 分布分解為 sigmoid 函數樹結構。具體而言,計算 (K − 1) 個 sigmoid 輸出,並利用它們定義樹分支的概率。例如,當 K = 4 時,先驗被定義為:

其中 γ_∗ 表示 sigmoid 概率,σ 表示 sigmoid 函數。

這就是 sigmoid 樹分解。這種分解能夠通過 (K − 1) 個 sigmoid 函數完全恢復 K-way 概率分布。使用 sigmoid 函數可以移除 softmax 中的減除運算,更加高效。

令 g_c 作為語境 c 下的 d_1 維度最後一層隱藏狀態,則預激活先驗(pre-activation prior)l_∗ 的計算公式為:

其中 v_x ∈ R^(d_2)、U_k ∈ R^(d_2×d_1)、u_k ∈ R^(d_1)、b_x,k ∈ R 是模型參數。d_2 是表示門控嵌入大小的超參數,通常比正常的詞嵌入大小 d 要小。語境嵌入可以通過以下公式得到:

其中 H_k ∈ R^(d×d_1) 是模型參數。

門控共享

通過上述兩個方法已經可以得到高效的高秩模型,但仍然存在改進空間。研究者觀察到,我們仍需要對詞彙表中的每個 token 計算門控先驗,而這成為影響效率的瓶頸。但是,由於缺乏訓練樣本,我們很難估計低頻 token 的門控先驗,因此學習低頻 token 的門控先驗可能只是對算力的浪費。基於此,研究者提出門控共享,即對所有低頻詞共享相同的門控先驗。具體而言,對於低頻 token x,預激活門控先驗被定義為:

使用門控共享後,研究者可使用共享門控先驗來混合語境嵌入 h_c,k,然後再與 token 嵌入 w_x 相乘,由於低頻 token 無需存儲門控 logits 從而節省了內存空間。門控共享還加速計算,因為所有低頻 token 僅計算一組門控先驗。

Mixtape 奧秘匯總

Mixtape 層可總結為:

給出最後一層的隱藏狀態 g_c,使用公式 (5) 計算語境嵌入 h_c,k;

對每個高頻 token x,使用公式 (4) 計算預激活門控先驗 l_c,x,k;

對於所有低頻 token,使用公式 (6) 計算預激活門控先驗 l_c,x,k;

使用 sigmoid 樹分解,計算公式 (3) 中的門控先驗 π_c,x,k;

使用向量門控,利用公式 (2) 獲得下一個 token 的概率。

Mixtape 層的架構如下圖所示:

圖 1:Mixtape 層架構圖。

實驗

實驗包括三部分:

Mixtape 層打破 softmax 瓶頸,從而改進了當前最優的機器翻譯系統;

研究者對比了 Mixtape、MoS 和 softmax 的困惑度、翻譯質量、速度和內存約束,證明 Mixtape 能夠在效果和效率之間做好權衡;

控制變量實驗證明了門控共享的優勢。

表 1:在 WMT 英德和英法語言對數據上的性能對比。Mixtape 在這兩項任務上分別使用了 2 億和 8 億參數。

表 2:數據集統計數據概況。「PTB」和「1B」分別表示 Penn Treebank 數據集和 One Billion Word 數據集。

表 3:模型在 Penn Treebank 上的困惑度和訓練時間對比情況。

表 4:模型在 One Billion Word 數據集上的困惑度和訓練時間對比情況。

表 5:模型在 WMT』14 英德語言對數據上的 BLEU 值和訓練時間對比。

表 6:模型在 WMT』14 英法語言對數據上的 BLEU 值和訓練時間對比。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

✄---

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

原標題:《CMU楊植麟等人再次瞄準softmax瓶頸,新方法Mixtape兼顧表達性和高效性》

閱讀原文

相關焦點

  • CMU楊植麟等人再次瞄準softmax瓶頸,Mixtape兼顧表達性和高效性
    選自arxiv作者:楊植麟、Thang Luong等機器之心編譯參與:魔王、杜偉2017 年,楊植麟等人提出一種解決 Softmax 瓶頸的簡單有效的方法——Mixture of Softmaxes(MoS)。
  • 潮創會精英成員楊植麟入選超新星科技人才TOP10和智源青年科學家
    在前段時間,由將門創投發布的將門&34;科技人才TOP10榜單以及由北京智源人工智慧研究院公布 的2019 年度「智源青年科學家」 名單中,潮創會精英成員、循環智能聯合創始人楊植麟憑藉其突出的表現入選,其中的 2019 年度「智源青年科學家」 ,楊植麟還是名單中最年輕的、也是唯一的一位「90 後」入選者。這兩個榜單有多牛?
  • 從最優化的角度看待 Softmax 損失函數
    一般而言,最優化的問題通常需要構造一個目標函數,然後尋找能夠使目標函數取得最大/最小值的方法。目標函數往往難以優化,所以有了各種relax、smooth的方法,例如使用L1範數取代L0範數、使用sigmoid取代階躍函數等等。那麼我們就要思考一個問題:使用神經網絡進行多分類(假設為 C 類)時的目標函數是什麼?
  • softmax 損失函數 & 參數更新詳解
    要點回歸softmax進階多分類 - 基礎理解softmax多分類實現圖解softmax 損失函數產生及理解對參數求偏導推導及更新要點回歸:邏輯回歸二分類用sigmoid變換成預測單個「概率」,損失函數為交叉熵,用梯度下降求解參數wbsoftmax多分類用softmax
  • RBF-Softmax:讓模型學到更具表達能力的類別表示
    因為傳統的softmax損失優化的是類內和類間的差異的最大化,也就是類內和類間的距離(logits)的差別的最大化,沒有辦法得到表示類別的向量表示來對類內距離進行正則化。之前的方法都是想辦法增加類內的內聚性,而忽視了不同的類別之間的關係。
  • PYNQ中實現SoftMax函數加速器
    本文針對自然指數運算的特點,提出了一種名為基底拆分法的新方法。該方法將SoftMax函數中自然指數計算拆分為多個由查找表實現的特定基底上,通過這種方法,一個複雜的自然指數計算過程即可由查找表過程和乘法過程實現。這種方法有效的降低了硬體複雜度以及邏輯傳播延時。由於該方法中使用了自定義的數據結構,因此本文採用了CPU + FPGA的架構,通過合理分工,加速SoftMax函數計算。
  • 「技術綜述」一文道盡softmax loss及其變種
    softmax loss實際上是由softmax和cross-entropy loss組合而成,兩者放一起數值計算更加穩定。這裡我們將其數學推導一起回顧一遍。=this->blob_top_loss_->cpu_data()[0];}// Check that each label was included all butonce.EXPECT_NEAR(4 * full_loss, accum_loss, 1e-4);至於backwards,直接套用checker.CheckGradientExhaustive就行,它自己會利用數值微分的方法和你寫的
  • 周末AI課堂 理解softmax函數 | 機器學習你會遇到的「坑」
    我們已經熟悉三種常見的輸出單元:Linear單元,實際上未進行任何操作,用於回歸任務Sigmoid,將用於二分類Softmax,用於多分類其中,linear和sigmoid都是較為好理解的,softmax作為一個用於多分類的函數,如果我們只是把softmax看作是sigmoid的多分類推廣,實際上卻本末倒置,sigmoid和softmax
  • 科學網—新方法突破等離子體製備石墨烯技術瓶頸
    本報訊(見習記者楊凡)中國科學技術大學教授夏維東研究團隊與合肥碳藝科技有限公司合作,提出新方法,突破了熱等離子體工藝高能耗
  • 廈門:瞄準新材料提升「烯」引力
    如何搶先布局石墨烯產業,加速石墨烯成果對接和轉化?18日,我省第二屆石墨烯產學研對接會在廈門舉行,為人才、資本、技術與石墨烯企業搭建起合作橋梁。會上,廈門火炬石墨烯新材料公共技術服務平臺、廈門火炬石墨烯新材料專業孵化器正式揭牌。作為我省石墨烯產業的第一聚集地,廈門火炬高新區集聚了我省一半以上進入產業化階段的石墨烯應用企業。
  • 一種兼具神經網絡高效性和高斯過程靈活性的方法——神經過程
    編者按:幾個月前,Deepmind在ICML上發表了一篇論文《Neural Processes》,提出了一種兼具神經網絡高效性和高斯過程靈活性的方法——神經過程,被稱為是高斯過程的深度學習版本。雖然倍受關注,但目前真正能直觀解讀神經過程的文章並不多,今天論智帶來的是牛津大學在讀PHD Kaspar Märtens的一篇可視化佳作。
  • 納米科學:科學家克服了製造量子點顯示器的瓶頸!
    主要問題是需要將量子點沉積並圖案化到基板上,並且目前沒有方法能夠以高解析度和大規模實現這一點。現在,在一項新的研究中,研究人員已經開發出一種方法,通過結合兩種常規方法克服這種權衡:光刻法,其使用光來以高解析度對量子點進行圖案化;和逐層組裝,它使用量子點的電荷在大面積上均勻地沉積它們。
  • 12倍端到端加速,陳天奇創業公司OctoML提克服二值網絡瓶頸新方法
    從較高的層面來說,這些技術遵循兩種策略:體系架構優化和近似優化。架構優化涉及尋找連接層的新方法,以減少延遲或提高參數有效性。MobileNet 和 SqueezeNet 是兩個以移動端為重點的體系架構。與創建新的行動裝置友好型模型相反,近似優化旨通過加快運算速度提高現有模型的速度,同時保持足夠的準確率。兩種流行的近似優化方法。
  • 廈門火炬高新區:瞄準新材料 提升「烯」引力
    我省超半數產業化階段的石墨烯應用企業集中於廈門火炬高新區,園區欲打造福建「烯谷」  東南網5月21日訊(福建日報記者 廖麗萍 通訊員 郭文晨)  有著「黑金」之稱的石墨烯被譽為「新材料之王」,近年來,石墨烯產業已成為全國各地推動經濟高質量發展的聚焦點。如何搶先布局石墨烯產業,加速石墨烯成果對接和轉化?
  • 致我們暖暖的小時光:顧未易表白方式太難懂兩人這樣的愛情也很甜
    《致我們暖暖的小時光》是由邢菲、林一等人主演,講述了(邢菲)飾演的氧氣少女司徒末與(林一)飾演的物理天才顧未易合租後發生的一系列的暖甜逗趣戀愛故事。兩人從第一集開始就撒狗糧了,從撕裙子到換包,從換包到送衛生棉,從素不相識到同住一個屋簷,從無奈住在一起到彼此相互關心。
  • 風電企業家論壇:如何突破供應鏈帶來的瓶頸和挑戰?
    以「新目標、新時代下的風電未來」為主題,邀請風電開發企業、整機製造企業和重點部件生產企業的高級別領導探討「2060碳中和」目標下風能產業的發展情景,提出新時代、新目標下的產業主張和實踐路徑。顧曉斌:本來應該是網博士先說,其實我們的瓶頸就是王博士,從去年5月份國家政策清晰以後,簡單來講整個搶裝,也可以評判一下國家的政策,因為我們給美國市場也大量的供貨,給GE,相對於美國PDC的規定,我們這個政策是來的太猛了,而且時間太短了,不是哪個企業有沒有能力,如果不把它放到某個時間段裡來說大家都有能力,我們在擴產,在解決,所以今年供需的矛盾我認為是必然的,這不是人為的事情,由於政策、由於搶裝造成市場的需求和所有供應商具備的能力本來就是不匹配的
  • 著名古生物學家和地質學家顧知微院士逝世 享年93歲
  • 3篇Nature Materials齊報導:聶書明等人評述主動轉胞吞作用和癌症納米醫學的新機遇
    臨床30年後,腫瘤納米給藥機制新發現!下面直接給大家分享聶書明教授在文中給出的重點: 針對Chan及其同事的工作,他們僅使用了一種類型的納米粒子(膠體金),並且僅研究了三種納米粒子的尺寸(15 nm,50 nm和100 nm)。
  • 2011年3月19日,著名古生物學和地質學家顧知微逝世
    2011年3月19日,著名古生物學和地質學家顧知微逝世2017-03-19 00:21 來源: 科普中國-科技名家風採錄 顧知微顧知微先生用自己的辛勤勞動和聰明才智把這兩者有機的結合起來,用他勤奮求索的一生,孜孜不倦獻身於科學的一生,熱愛社會主義祖國並為之奉獻的一生,在地層古生物研究座標上留下了一串串足跡,為中國地層古生物學的發展做出了卓越貢獻。1918年5月4日,顧知微出生在江蘇省南京市的一個貧困家庭裡。自幼父母雙亡的他,靠著堂叔父的經濟資助求學。
  • 谷歌的新CNN特徵可視化方法,構造出一個華麗繁複的新世界
    他們的思路是新生成一些會讓網絡激活的圖像,而不是看那些數據集中已有的能讓網絡激活的圖像,因為已有圖像中的特徵很可能只是「有相關性」,在分析的時候可能只不過是「人類從許多特徵中選出了自己認為重要的」,而下面的優化方法就能真正找到圖像特徵和網絡行為中的因果性。總體來說,神經網絡是關於輸入可微的。