iDST院長金榕IJCAI演講:阿里巴巴的深度學習應用(附PPT)

2020-12-05 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:深度學習過去十年在各個領域都取得了巨大的成功,但當把深度學習技術應用到實際問題中時,常會遇到諸多挑戰。阿里巴巴作為在電商領域有諸多業務的企業,對深度學習有很大的需求,不可避免地當他們將深度學習應用到業務中時會遇到許多學界人士不可能遇到的問題。

前段時間剛過去的IJCAI 2017大會上,阿里巴巴集團iDST院長金榕做了一場關於《Deep Learning at Alibaba》的keynote報告。報告中,金榕介紹了深度學習在阿里巴巴的業務中的一些應用以及正在進行的一些研究。以下內容為雷鋒網根據現場報告的錄音以及IJCAI 官網上的相關論文《Deep Learning at Alibaba》整理而成。

一、演講目錄

金榕的演講主要有四塊內容。如PPT中所示:

1、計算機視覺方面。包括視覺搜索、圖像分類、交叉媒體檢索。金榕將從拍立淘以圖搜圖的業務開始,通過遷移學習來處理後兩個問題。

2、語音識別和自然語言處理。包括聲學模型、依存語法和模仿問答三個部分。

3、對組合優化的討論。在這個討論中,金榕介紹了3D容器打包(3D Bin Packing)和自動設計banner兩個問題,前者在菜鳥運送快遞時節省了大量的成本,後者則在雙十一時節省了大量的人力、物力。

4、模型簡化問題。包括模型的壓縮以及通過淺網(shallow network)的嘗試工作。


在開始介紹阿里巴巴業務中的深度學習之前,金榕博士介紹了阿里巴巴企業的生態環境。作為一個電子商務企業,阿里巴巴的購物平臺包括淘寶、天貓、聚划算、飛豬、AliExpress、LAZADA(東南亞地區最大的在線購物網站之一)等,在此基礎上還在許多涉足領域,例如螞蟻金服、阿里媽媽、微博、高德地圖、UC瀏覽器、優酷和土豆、菜鳥等。


金榕還對阿里巴巴業務中應用到的深度學習問題作了一個梳理,大概包括:

1、信息檢索(搜索和推薦系統);

2、語音技術(自動語音識別、語音合成,對話管理);

3、自然語言處理(拼寫檢查、依存語法、問答和機器翻譯);

4、圖像/視頻內容分析(臉部、文字的識別、匹配以及細粒分類;多形態分類;對象檢測、追蹤、識別;視頻事件檢測、分類);

5、深度學習和優化(優化、模型壓縮、預測;道路規劃和圖標設計)

二、計算機視覺

1、拍立淘

在阿里巴巴的淘寶中有一項業務為「拍立淘」。其基本的思想就是以圖搜圖,對著你感興趣的物品拍一張照片,系統將根據照片給你推薦相關的商品。 據金榕介紹,現在已經有超過1億件商品的30億張圖片,每天有至少1200萬活躍用戶。

這項業務的基礎就是通過深度學習對結果進行排序,阿里研究人員通過用戶記錄的三元組數據(查詢圖片、點擊圖片和未點擊圖片)來訓練模型的排序損失函數,從而得到排序結果。

例如你上傳一張桌子的照片,模型將自動檢測出主體,然後按照排序分數從高到低排出相關商品的結果。

2、從拍立淘到Everything——遷移學習

拍立淘的這項業務其本質就是圖像匹配,所以可以通過遷移學習將這個模型從電子商務應用到其他領域。傳統的遷移學習方法如圖所示,拍立淘中圖片的矢量表示x通過線性變換遷移到別的領域的圖像表示x』上。其中W為線性遷移矩陣,這個矩陣可以通過有限的數據學習得到。

這種方法比較簡單,但由於在實際應用中源和目標往往有比較大的差距,線性模型並不能很好的調和這種差距。金榕介紹,在阿里的遷移學習中,他們引入了一個隨機傅立葉函數,使遷移變換由線性變為非線性。

這種非線性遷移學習的方法在實驗中要比線性遷移學習方法的精度要高,魯棒性也更好。

三、語音識別和自然語言處理

1、聲學模型

自動語音識別包括聲學模型、語言模型和解碼器。這裡只討論其中的聲學模型(Acoustic Model)。基於聲學模型的神經網絡在過去5年已經有了長足的發展,單詞識別的錯誤率已經下降到了5.9%。

現在常用的對聲學模型的處理是雙向長短時記憶模型(Bi-directional Long Short-Term model)。這種模型相比於長短時記憶模型有更高的精度,但是潛在的因素也非常大。阿里的研究人員開發出潛在控制雙向長短時記憶模型(Latency-Controlled BLSTM),這種模型添加了刪減的反向傳播以及未來的信息,這種模型能夠加速BLSTM的計算。

2、依存語法(Dependency Parsing)

依存語法這個問題,對於非專業人士還是很難理解的。簡單來說就是通過依存語法構建了主詞與描述主詞的詞之間的關係。由於依存語法沒有詞組這個層次,每一個結點都與句子中的單詞相對應,它能直接處理句子中詞與詞之間的關係。這種特性使得它非常便於語句分析和信息提取。

最近幾年人們在將神經網絡應用到語法解析方面取得了很大的成功。其中一個極好的例子就是biaffine attention parser,其基本的思想就是給範圍內每一個可能的主詞與其他詞之間的聯繫進行打分。但是這隻針對你所感興趣的詞。在淘寶中,阿里的研究人員採用了附加有全局調節器的BAP,這種方式得到的結果有更好的表現。

例如上面的例子中,傳統的BAP會將cautious與decline關聯起來,而實際上它們並沒有聯繫;而附加有全局調節器的BAP則顯示出較好的結果。

3、模仿問答

金榕博士在此簡要介紹了Mimicked QA系統。這個系統並不是要簡單地構建一個問答系統,更重要的是讓你能感覺到像是在和真人對話一樣。如圖上顯示的,它首先將用戶的語音提問通過語音識別轉化成文本,再通過文本問答系統生成答案,隨後生成語音答案以及相應的面部表情。用戶最終得到的是一個模仿真人帶有面部表情的答案。

四、組合優化

在這個部分,金榕通過兩個例子——3D容器打包(3D Bin Packing)和自動設計banner——來說明阿里如何將深度學習的組合優化應用到業務當中。

1、3D容器打包

在物流業務中有一個常見的NP問題(也是組合優化問題)就是3D容器打包:如何才能更有效地打包物品呢?這個問題的實質就是找到一個優化的打包方式(啟發heuristic)。但是打包的方式太多了,所以困難就在於如何才能知道何時該用何種打包方式?金榕介紹了他們團隊如何通過指針網絡和強化學習來給出優化方案。

在打包過程中有三項關鍵的決定:1)物品打包的順序;2)物品放置的位置;3)物品放置的方向。所以所要求解的問題就是物品順序、位置、方向等的一個最優序列。

模型中的指針網絡,是由兩個回歸神經網絡的RNN模塊(編碼器和解碼器)構成,該網絡的輸入是待打包物品的尺寸序列,輸出的則是打包的序列(順序、位置、方向,不一定是最優的)。當給定一個打包序列後,打包這些物品所需的最小容器就很容易可以計算出來。隨後通過強化學習便可以快速找到優化的打包方式。

阿里團隊將通過模擬數據對該模型訓練後,將結果應用到天貓和菜鳥的物流打包中,結果證明強化學習後的打包方式能夠節省5%的打包箱。5%的優化對普通人來說可能並不顯著,但考慮到物流公司每天都要處理成千上萬的包裹,這樣的優化結果將能夠節省很多成本。

2、自動設計Banner

在購物網站上,一個好的banner會給用戶帶來更好的體驗。阿里巴巴平臺上有大量的商品展示,尤其是在雙十一光棍節時,對banner有大量的需求,靠手動設計顯然是不現實的。於是他們將深度學習應用到了banner的設計中。

具體來說,banner就是框架、背景、對象及其他材料的一個組合序列。將這些材料的組合輸入到一個卷積特徵網絡中,再加上用戶日誌,就構成了一個價值網絡,最終會給出一個組合(banner)的質量(quality)。通過這種方式為網上廣告進行設計顯然將會更節省人力、更快速地響應需求,也將會得到更好的結果。

五、模型壓縮與淺網

現在的深度學習模型變得越來越複雜,甚至有的模型已經超過了1000層,參數空間達到了10億級。這使得深度網絡神經學習在優先的存儲器和計算資源下難以運行。金榕在此提到了阿里的兩種解決方案:模型壓縮和淺網模型的構建。

1、模型壓縮

在演講中,金榕提出了一個利用乘法器交替方向法(ADMM)的low-bits量化神經網絡的框架來壓縮模型。

當模型比較龐大時,我們有時可以通過尋求次優解來降低計算量。常用的近似方法是,將連續的函數進行低比特量化(low-bit quantization),將w通過符號函數f(w)或硬雙曲切函數g(w)來替換。但這種方法近似的目標函數在最優解附近會表現的很不穩定。

為了解決這個問題,他們引入了交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。ADMM是一種求解優化問題的計算框架,它能夠將連續解和離散解結合起來,非常適用於求解分布式凸優化問題。此外為了更有效地運行ADMM,他們還開發了額外梯度下架方法(extra gradient descent method)來解決優化問題,這種方法能夠加速收斂。

通過用imageNet數據集的測試,結果顯示他們的方法要優於別的方法,且三比特(-1、0、1)方法相比full-precision在精度上幾乎沒有損失。

2、深網 v.s. 淺網

就前面說的,當想要尋求一個更優的解時,人們往往會求助於更深的神經網絡。這種網絡的預測函數往往是預定的且參數是相互獨立的。儘管這種方式在性能上有優良的表現,但模型和運算量都非常大,在訓練上是非常困難的,使用起來也非常昂貴。於是他們就想,能否通過構建複雜的激活函數來在預測函數中引入高度非線性,以此來取代神經網絡的深度優勢。換句話說,就是他們想用一個非常複雜的激活函數來開發一個相對較淺的網絡。

這個想法是受到了Cybenko等人的universal approximation theorem的啟發。根據這個理論,存在一個激活函數σ,嚴格遞增且是反曲的,它有以下的性質:對於任意函數f ∈ C [0, 1]n以及任意精度的限制 ε > 0,都存在常數d(輸入參數的維度)、c、θ 、γ、向量w,滿足圖中的不等式。

換句話說,這個理論暗示了存在一個複雜的雙曲型激活函數,使得任何連續函數都可以通過兩個隱藏層的神經網絡得到很好的近似。搜索非線性激活函數的優點是激活函數是單變量函數,即使在非參數化設置中也可以有效地完成其優化。目前這項研究仍在進行中,還有不少的困難。


雷鋒網註:參考論文《Deep Learning at Alibaba》

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 阿里巴巴iDST負責人金榕加入ACM國際計算機協會
    近日ACM (Association for Computing Machinery )國際計算機學會,正式邀請阿里巴巴集團副總裁、iDST(institute of Data Science&Technologies)負責人金榕先生,與數位圖靈獎得主一起,擔任ACM中國理事會常務理事。
  • 微軟IJCAI2016演講PPT:深度學習在語義理解上不再難有用武之地
    而早在一月就將其深度學習開發工具包CNTK開源的舉動也表明微軟確實希望促進人工智慧的發展。這次就讓我們通過Tutorial上演講PPT的概覽部分,看看微軟在他們最擅長的語義識別領域會分享給我們一些什麼樣的經驗。
  • 深度學習在統計機器翻譯和會話中的應用 |微軟IJCAI2016演講PPT
    微軟研究院在IJCAI2016的Tutorial上講述了自己將深度學習、深度神經網絡應用於不同場景的情況,之前第一部分提到了其應用於語義理解上的一些經驗和收穫,本文為第二部分。深度語義相似模型(DSSM)l  計算語義相似性btw文本l  針對自然語義處理任務的DSSM
  • AAAI 2021論文接收列表放出,IJCAI 2020即將召開!AI頂會最新動態...
    具體而言,大會將在 1月7日至8日 舉行 workshops 和tutorials,在 1月11日至1月13日舉行主會 (所有受邀的演講、頒獎典禮和小組討論),然後在1月13日至15日舉行並行技術會議,1月9日-10日周末沒有活動安排。
  • 阿里巴巴首場NLP學術研討會,頂尖名師與企業工程師碰撞產學研火花
    5 月 23 日,阿里巴巴達摩院機器智能技術實驗室自然語言理解研究組在杭州舉行了阿里巴巴自然語言處理學術高級研討會,共有近 30 位來自全國各高校機構的學者嘉賓及 8 位阿里巴巴集團參會代表蒞臨出席,並進行了為期一天的學術分享
  • 亞馬遜資深主任科學家任小楓加盟阿里,擔任 iDST 的副院長和首席...
    鈦媒體快訊 | 6月26日消息:原亞馬遜資深主任科學家(Senior Principal Scientist)任小楓在今天正式加入了阿里巴巴,擔任人工智慧核心團隊iDST的副院長和首席科學家。iDST是阿里巴巴通過AI技術推動NASA計劃落地的核心團隊,希望通過阿里雲向各行業輸出技術及服務能力。任小楓的個人主頁顯示,他將繼續留在西雅圖工作,招募組建世界一流的計算機視覺團隊。
  • BAT人工智慧人才爭奪戰繼續,計算機視覺科學家任小楓加入阿里巴巴
    近日,黑智獲悉,原亞馬遜資深主任科學家(Senior Principal Scientist)任小楓正式確認加入阿里巴巴,擔任人工智慧核心團隊iDST的副院長和首席科學家。iDST是 阿里巴巴通過AI技術推動NASA計劃落地的核心團隊,通過阿里雲向各行業輸出技術及服務能力。
  • 深度強化學習:阿里巴巴「AI 智能體」認知
    阿里巴巴認知計算實驗室資深總監袁泉在接受新智元專訪時表示,當下,人工智慧的每一個進步,幾乎都受到了神經科學的啟發,尤其是新一輪通用智能發展的中堅力量——基於神經網絡的深度強化學習。本文轉自「新智元」,作者:胡祥傑;經億歐編輯,供業內人士閱讀。
  • Facebook AI 研究院院長 Yann LeCun 清華演講實錄(附獨家演講視頻)
    為此,他找來了當時還在紐約大學的 Yann LeCun 合作,任命其為 Facebook AI 研究院的院長。當時,LeCun 拒絕離開紐約。為了解決這個問題,Facebook 為 LeCun 在曼哈頓設立了 Facebook AI 實驗室的總部。由此也可看出 LeCun 在業界的地位和影響力。
  • 斯坦福教授ICLR演講:圖網絡最新進展GraphRNN和GCPN(附PPT下載)
    新智元報導 編輯:肖琴【新智元導讀】圖網絡領域的大牛、史丹福大學Jure Leskovec教授在ICLR 2019就圖深度生成模型做了演講,闡述了圖生成模型的方法和應用,並詳細介紹了他的最新成果史丹福大學教授Jure Leskovec 是圖網絡領域的專家,圖表示學習方法 node2vec 和 GraphSAGE 作者之一。
  • 【附百張完整PPT】
    智東西作為特邀媒體,從大會現場第一排發來報導(文末附全場PPT下載)GTC大會已經不僅僅是通常意義理解的「顯卡技術大會」了,而是一場展示英偉達AI、VR、深度學習等眾多新技術的重要窗口,在早上8點多就引來上千人到場。
  • 深度學習大神Yoshua Bengio經典前瞻演講,幫你打通深度學習的任督...
    Yoshua Bengio連同Geoff Hinton老先生以及 Yann LeCun教授一起造就了2006年始的深度學習復興。他的研究工作主要聚焦在高級機器學習方面,致力於用其解決人工智慧問題。目前他是僅存的幾個仍然全身心投入在學術界的深度學習教授之一(蒙特婁大學),本文是他在2009年的經典前瞻演講——「人工智慧學習深度架構」有關內容的第一部分。
  • AR算法原理及深度學習在計算機視覺中的應用
    但一段時間內,真正掌握識別追蹤核心技術和應用的國內團隊並不多,甚至出現了專門提供AR識別SDK的小公司創業機會。那麼,AR識別技術背後的算法原理是什麼,以及計算機視覺與深度學習在AR中的應用熱點趨勢有哪些?本次分享會從圖像特徵提取、特徵匹配與圖像變換、深度學習算法等方面給你進行深入淺出的技術展現,讓AR識別技術不再成為難以逾越的技術壁壘。
  • IJCAI 2019 論文收錄結果最新出爐!歷年傑出論文帶你重溫 AI 發展...
    論文地址:https://www.ijcai.org/proceedings/2018/0250.pdf 玩的是什麼遊戲?從遊戲中的正態與拓展性端到端學習What Game are We Playing?
  • ppt自動循環播放怎麼激活 ppt自動循環播放激活教程
    ppt自動循環播放怎麼激活 ppt自動循環播放激活教程時間:2017-06-21 18:16   來源:系統天堂   責任編輯:玲玲 川北在線核心提示:原標題:ppt自動循環播放怎麼激活 ppt自動循環播放激活教程 ppt自動循環播放怎麼激活?
  • 專欄| 阿里IJCAI 2017 Workshop論文:使用深度強化學習方法求解...
    > 據機器之心了解,阿里巴巴有 11 篇論文入選如今正在墨爾本進行的 IJCAI 2017 大會,其中 6 篇來自阿里巴巴-浙大前沿技術聯合研究中心,3 篇來自螞蟻金服,均被主會收錄。本文介紹了來自阿里菜鳥物流人工智慧部的一篇應用論文。 論文地址:https://arxiv.org/abs/1708.05930 摘要:三維裝箱問題是一類經典的組合優化問題,具有巨大的學習研究和實際應用價值。