iDST院長金榕IJCAI演講:阿里巴巴的深度學習應用(附PPT)

2020-12-05 雷鋒網

雷鋒網(公眾號：雷鋒網) AI 科技評論按：深度學習過去十年在各個領域都取得了巨大的成功，但當把深度學習技術應用到實際問題中時，常會遇到諸多挑戰。阿里巴巴作為在電商領域有諸多業務的企業，對深度學習有很大的需求，不可避免地當他們將深度學習應用到業務中時會遇到許多學界人士不可能遇到的問題。

前段時間剛過去的IJCAI 2017大會上，阿里巴巴集團iDST院長金榕做了一場關於《Deep Learning at Alibaba》的keynote報告。報告中，金榕介紹了深度學習在阿里巴巴的業務中的一些應用以及正在進行的一些研究。以下內容為雷鋒網根據現場報告的錄音以及IJCAI 官網上的相關論文《Deep Learning at Alibaba》整理而成。

一、演講目錄

金榕的演講主要有四塊內容。如PPT中所示：

1、計算機視覺方面。包括視覺搜索、圖像分類、交叉媒體檢索。金榕將從拍立淘以圖搜圖的業務開始，通過遷移學習來處理後兩個問題。

2、語音識別和自然語言處理。包括聲學模型、依存語法和模仿問答三個部分。

3、對組合優化的討論。在這個討論中，金榕介紹了3D容器打包（3D Bin Packing）和自動設計banner兩個問題，前者在菜鳥運送快遞時節省了大量的成本，後者則在雙十一時節省了大量的人力、物力。

4、模型簡化問題。包括模型的壓縮以及通過淺網（shallow network）的嘗試工作。

在開始介紹阿里巴巴業務中的深度學習之前，金榕博士介紹了阿里巴巴企業的生態環境。作為一個電子商務企業，阿里巴巴的購物平臺包括淘寶、天貓、聚划算、飛豬、AliExpress、LAZADA（東南亞地區最大的在線購物網站之一）等，在此基礎上還在許多涉足領域，例如螞蟻金服、阿里媽媽、微博、高德地圖、UC瀏覽器、優酷和土豆、菜鳥等。

金榕還對阿里巴巴業務中應用到的深度學習問題作了一個梳理，大概包括：

1、信息檢索（搜索和推薦系統）；

2、語音技術（自動語音識別、語音合成，對話管理）；

3、自然語言處理（拼寫檢查、依存語法、問答和機器翻譯）；

4、圖像/視頻內容分析（臉部、文字的識別、匹配以及細粒分類；多形態分類；對象檢測、追蹤、識別；視頻事件檢測、分類）；

5、深度學習和優化（優化、模型壓縮、預測；道路規劃和圖標設計）

二、計算機視覺

1、拍立淘

在阿里巴巴的淘寶中有一項業務為「拍立淘」。其基本的思想就是以圖搜圖，對著你感興趣的物品拍一張照片，系統將根據照片給你推薦相關的商品。據金榕介紹，現在已經有超過1億件商品的30億張圖片，每天有至少1200萬活躍用戶。

這項業務的基礎就是通過深度學習對結果進行排序，阿里研究人員通過用戶記錄的三元組數據（查詢圖片、點擊圖片和未點擊圖片）來訓練模型的排序損失函數，從而得到排序結果。

例如你上傳一張桌子的照片，模型將自動檢測出主體，然後按照排序分數從高到低排出相關商品的結果。

2、從拍立淘到Everything——遷移學習

拍立淘的這項業務其本質就是圖像匹配，所以可以通過遷移學習將這個模型從電子商務應用到其他領域。傳統的遷移學習方法如圖所示，拍立淘中圖片的矢量表示x通過線性變換遷移到別的領域的圖像表示x』上。其中W為線性遷移矩陣，這個矩陣可以通過有限的數據學習得到。

這種方法比較簡單，但由於在實際應用中源和目標往往有比較大的差距，線性模型並不能很好的調和這種差距。金榕介紹，在阿里的遷移學習中，他們引入了一個隨機傅立葉函數，使遷移變換由線性變為非線性。

這種非線性遷移學習的方法在實驗中要比線性遷移學習方法的精度要高，魯棒性也更好。

三、語音識別和自然語言處理

1、聲學模型

自動語音識別包括聲學模型、語言模型和解碼器。這裡只討論其中的聲學模型（Acoustic Model）。基於聲學模型的神經網絡在過去5年已經有了長足的發展，單詞識別的錯誤率已經下降到了5.9%。

現在常用的對聲學模型的處理是雙向長短時記憶模型（Bi-directional Long Short-Term model）。這種模型相比於長短時記憶模型有更高的精度，但是潛在的因素也非常大。阿里的研究人員開發出潛在控制雙向長短時記憶模型（Latency-Controlled BLSTM），這種模型添加了刪減的反向傳播以及未來的信息，這種模型能夠加速BLSTM的計算。

2、依存語法（Dependency Parsing）

依存語法這個問題，對於非專業人士還是很難理解的。簡單來說就是通過依存語法構建了主詞與描述主詞的詞之間的關係。由於依存語法沒有詞組這個層次，每一個結點都與句子中的單詞相對應，它能直接處理句子中詞與詞之間的關係。這種特性使得它非常便於語句分析和信息提取。

最近幾年人們在將神經網絡應用到語法解析方面取得了很大的成功。其中一個極好的例子就是biaffine attention parser，其基本的思想就是給範圍內每一個可能的主詞與其他詞之間的聯繫進行打分。但是這隻針對你所感興趣的詞。在淘寶中，阿里的研究人員採用了附加有全局調節器的BAP，這種方式得到的結果有更好的表現。

例如上面的例子中，傳統的BAP會將cautious與decline關聯起來，而實際上它們並沒有聯繫；而附加有全局調節器的BAP則顯示出較好的結果。

3、模仿問答

金榕博士在此簡要介紹了Mimicked QA系統。這個系統並不是要簡單地構建一個問答系統，更重要的是讓你能感覺到像是在和真人對話一樣。如圖上顯示的，它首先將用戶的語音提問通過語音識別轉化成文本，再通過文本問答系統生成答案，隨後生成語音答案以及相應的面部表情。用戶最終得到的是一個模仿真人帶有面部表情的答案。

四、組合優化

在這個部分，金榕通過兩個例子——3D容器打包（3D Bin Packing）和自動設計banner——來說明阿里如何將深度學習的組合優化應用到業務當中。

1、3D容器打包

在物流業務中有一個常見的NP問題（也是組合優化問題）就是3D容器打包：如何才能更有效地打包物品呢？這個問題的實質就是找到一個優化的打包方式（啟發heuristic）。但是打包的方式太多了，所以困難就在於如何才能知道何時該用何種打包方式？金榕介紹了他們團隊如何通過指針網絡和強化學習來給出優化方案。

在打包過程中有三項關鍵的決定：1）物品打包的順序；2）物品放置的位置；3）物品放置的方向。所以所要求解的問題就是物品順序、位置、方向等的一個最優序列。

模型中的指針網絡，是由兩個回歸神經網絡的RNN模塊（編碼器和解碼器）構成，該網絡的輸入是待打包物品的尺寸序列，輸出的則是打包的序列（順序、位置、方向，不一定是最優的）。當給定一個打包序列後，打包這些物品所需的最小容器就很容易可以計算出來。隨後通過強化學習便可以快速找到優化的打包方式。

阿里團隊將通過模擬數據對該模型訓練後，將結果應用到天貓和菜鳥的物流打包中，結果證明強化學習後的打包方式能夠節省5%的打包箱。5%的優化對普通人來說可能並不顯著，但考慮到物流公司每天都要處理成千上萬的包裹，這樣的優化結果將能夠節省很多成本。

2、自動設計Banner

在購物網站上，一個好的banner會給用戶帶來更好的體驗。阿里巴巴平臺上有大量的商品展示，尤其是在雙十一光棍節時，對banner有大量的需求，靠手動設計顯然是不現實的。於是他們將深度學習應用到了banner的設計中。

具體來說，banner就是框架、背景、對象及其他材料的一個組合序列。將這些材料的組合輸入到一個卷積特徵網絡中，再加上用戶日誌，就構成了一個價值網絡，最終會給出一個組合（banner）的質量（quality）。通過這種方式為網上廣告進行設計顯然將會更節省人力、更快速地響應需求，也將會得到更好的結果。

五、模型壓縮與淺網

現在的深度學習模型變得越來越複雜，甚至有的模型已經超過了1000層，參數空間達到了10億級。這使得深度網絡神經學習在優先的存儲器和計算資源下難以運行。金榕在此提到了阿里的兩種解決方案：模型壓縮和淺網模型的構建。

1、模型壓縮

在演講中，金榕提出了一個利用乘法器交替方向法（ADMM）的low-bits量化神經網絡的框架來壓縮模型。

當模型比較龐大時，我們有時可以通過尋求次優解來降低計算量。常用的近似方法是，將連續的函數進行低比特量化（low-bit quantization），將w通過符號函數f(w)或硬雙曲切函數g(w)來替換。但這種方法近似的目標函數在最優解附近會表現的很不穩定。

為了解決這個問題，他們引入了交替方向乘子法（Alternating Direction Method of Multipliers，ADMM）。ADMM是一種求解優化問題的計算框架，它能夠將連續解和離散解結合起來，非常適用於求解分布式凸優化問題。此外為了更有效地運行ADMM，他們還開發了額外梯度下架方法（extra gradient descent method）來解決優化問題，這種方法能夠加速收斂。

通過用imageNet數據集的測試，結果顯示他們的方法要優於別的方法，且三比特（-1、0、1）方法相比full-precision在精度上幾乎沒有損失。

2、深網 v.s. 淺網

就前面說的，當想要尋求一個更優的解時，人們往往會求助於更深的神經網絡。這種網絡的預測函數往往是預定的且參數是相互獨立的。儘管這種方式在性能上有優良的表現，但模型和運算量都非常大，在訓練上是非常困難的，使用起來也非常昂貴。於是他們就想，能否通過構建複雜的激活函數來在預測函數中引入高度非線性，以此來取代神經網絡的深度優勢。換句話說，就是他們想用一個非常複雜的激活函數來開發一個相對較淺的網絡。

這個想法是受到了Cybenko等人的universal approximation theorem的啟發。根據這個理論，存在一個激活函數σ，嚴格遞增且是反曲的，它有以下的性質：對於任意函數f ∈ C [0, 1]n以及任意精度的限制 ε > 0,都存在常數d（輸入參數的維度）、c、θ 、γ、向量w，滿足圖中的不等式。

換句話說，這個理論暗示了存在一個複雜的雙曲型激活函數，使得任何連續函數都可以通過兩個隱藏層的神經網絡得到很好的近似。搜索非線性激活函數的優點是激活函數是單變量函數，即使在非參數化設置中也可以有效地完成其優化。目前這項研究仍在進行中，還有不少的困難。

雷鋒網註：參考論文《Deep Learning at Alibaba》

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

iDST院長金榕IJCAI演講:阿里巴巴的深度學習應用(附PPT)

一、演講目錄

二、計算機視覺

三、語音識別和自然語言處理

四、組合優化

五、模型壓縮與淺網

相關焦點

阿里巴巴iDST負責人金榕加入ACM國際計算機協會

微軟IJCAI2016演講PPT:深度學習在語義理解上不再難有用武之地

深度學習在統計機器翻譯和會話中的應用 |微軟IJCAI2016演講PPT

AAAI 2021論文接收列表放出,IJCAI 2020即將召開!AI頂會最新動態...

阿里巴巴首場NLP學術研討會,頂尖名師與企業工程師碰撞產學研火花

亞馬遜資深主任科學家任小楓加盟阿里,擔任 iDST 的副院長和首席...

BAT人工智慧人才爭奪戰繼續,計算機視覺科學家任小楓加入阿里巴巴

深度強化學習:阿里巴巴「AI 智能體」認知

Facebook AI 研究院院長 Yann LeCun 清華演講實錄(附獨家演講視頻)

斯坦福教授ICLR演講:圖網絡最新進展GraphRNN和GCPN(附PPT下載)

【附百張完整PPT】

深度學習大神Yoshua Bengio經典前瞻演講,幫你打通深度學習的任督...

AR算法原理及深度學習在計算機視覺中的應用

IJCAI 2019 論文收錄結果最新出爐!歷年傑出論文帶你重溫 AI 發展...

ppt自動循環播放怎麼激活 ppt自動循環播放激活教程

專欄| 阿里IJCAI 2017 Workshop論文:使用深度強化學習方法求解...