iDST院長金榕IJCAI演講:阿里巴巴的深度學習應用(附PPT)

2021-01-11 雷鋒網

雷鋒網 AI 科技評論按:深度學習過去十年在各個領域都取得了巨大的成功,但當把深度學習技術應用到實際問題中時,常會遇到諸多挑戰。阿里巴巴作為在電商領域有諸多業務的企業,對深度學習有很大的需求,不可避免地當他們將深度學習應用到業務中時會遇到許多學界人士不可能遇到的問題。

前段時間剛過去的IJCAI 2017大會上,阿里巴巴集團iDST院長金榕做了一場關於《Deep Learning at Alibaba》的keynote報告。報告中,金榕介紹了深度學習在阿里巴巴的業務中的一些應用以及正在進行的一些研究。以下內容為雷鋒網(公眾號:雷鋒網)根據現場報告的錄音以及IJCAI 官網上的相關論文《Deep Learning at Alibaba》整理而成。

一、演講目錄

金榕的演講主要有四塊內容。如PPT中所示:

1、計算機視覺方面。包括視覺搜索、圖像分類、交叉媒體檢索。金榕將從拍立淘以圖搜圖的業務開始,通過遷移學習來處理後兩個問題。

2、語音識別和自然語言處理。包括聲學模型、依存語法和模仿問答三個部分。

3、對組合優化的討論。在這個討論中,金榕介紹了3D容器打包(3D Bin Packing)和自動設計banner兩個問題,前者在菜鳥運送快遞時節省了大量的成本,後者則在雙十一時節省了大量的人力、物力。

4、模型簡化問題。包括模型的壓縮以及通過淺網(shallow network)的嘗試工作。


在開始介紹阿里巴巴業務中的深度學習之前,金榕博士介紹了阿里巴巴企業的生態環境。作為一個電子商務企業,阿里巴巴的購物平臺包括淘寶、天貓、聚划算、飛豬、AliExpress、LAZADA(東南亞地區最大的在線購物網站之一)等,在此基礎上還在許多涉足領域,例如螞蟻金服、阿里媽媽、微博、高德地圖、UC瀏覽器、優酷和土豆、菜鳥等。


金榕還對阿里巴巴業務中應用到的深度學習問題作了一個梳理,大概包括:

1、信息檢索(搜索和推薦系統);

2、語音技術(自動語音識別、語音合成,對話管理);

3、自然語言處理(拼寫檢查、依存語法、問答和機器翻譯);

4、圖像/視頻內容分析(臉部、文字的識別、匹配以及細粒分類;多形態分類;對象檢測、追蹤、識別;視頻事件檢測、分類);

5、深度學習和優化(優化、模型壓縮、預測;道路規劃和圖標設計)

二、計算機視覺

1、拍立淘

在阿里巴巴的淘寶中有一項業務為「拍立淘」。其基本的思想就是以圖搜圖,對著你感興趣的物品拍一張照片,系統將根據照片給你推薦相關的商品。 據金榕介紹,現在已經有超過1億件商品的30億張圖片,每天有至少1200萬活躍用戶。

這項業務的基礎就是通過深度學習對結果進行排序,阿里研究人員通過用戶記錄的三元組數據(查詢圖片、點擊圖片和未點擊圖片)來訓練模型的排序損失函數,從而得到排序結果。

例如你上傳一張桌子的照片,模型將自動檢測出主體,然後按照排序分數從高到低排出相關商品的結果。

2、從拍立淘到Everything——遷移學習

拍立淘的這項業務其本質就是圖像匹配,所以可以通過遷移學習將這個模型從電子商務應用到其他領域。傳統的遷移學習方法如圖所示,拍立淘中圖片的矢量表示x通過線性變換遷移到別的領域的圖像表示x』上。其中W為線性遷移矩陣,這個矩陣可以通過有限的數據學習得到。

這種方法比較簡單,但由於在實際應用中源和目標往往有比較大的差距,線性模型並不能很好的調和這種差距。金榕介紹,在阿里的遷移學習中,他們引入了一個隨機傅立葉函數,使遷移變換由線性變為非線性。

這種非線性遷移學習的方法在實驗中要比線性遷移學習方法的精度要高,魯棒性也更好。

三、語音識別和自然語言處理

1、聲學模型

自動語音識別包括聲學模型、語言模型和解碼器。這裡只討論其中的聲學模型(Acoustic Model)。基於聲學模型的神經網絡在過去5年已經有了長足的發展,單詞識別的錯誤率已經下降到了5.9%。

現在常用的對聲學模型的處理是雙向長短時記憶模型(Bi-directional Long Short-Term model)。這種模型相比於長短時記憶模型有更高的精度,但是潛在的因素也非常大。阿里的研究人員開發出潛在控制雙向長短時記憶模型(Latency-Controlled BLSTM),這種模型添加了刪減的反向傳播以及未來的信息,這種模型能夠加速BLSTM的計算。

2、依存語法(Dependency Parsing)

依存語法這個問題,對於非專業人士還是很難理解的。簡單來說就是通過依存語法構建了主詞與描述主詞的詞之間的關係。由於依存語法沒有詞組這個層次,每一個結點都與句子中的單詞相對應,它能直接處理句子中詞與詞之間的關係。這種特性使得它非常便於語句分析和信息提取。

最近幾年人們在將神經網絡應用到語法解析方面取得了很大的成功。其中一個極好的例子就是biaffine attention parser,其基本的思想就是給範圍內每一個可能的主詞與其他詞之間的聯繫進行打分。但是這隻針對你所感興趣的詞。在淘寶中,阿里的研究人員採用了附加有全局調節器的BAP,這種方式得到的結果有更好的表現。

例如上面的例子中,傳統的BAP會將cautious與decline關聯起來,而實際上它們並沒有聯繫;而附加有全局調節器的BAP則顯示出較好的結果。

3、模仿問答

金榕博士在此簡要介紹了Mimicked QA系統。這個系統並不是要簡單地構建一個問答系統,更重要的是讓你能感覺到像是在和真人對話一樣。如圖上顯示的,它首先將用戶的語音提問通過語音識別轉化成文本,再通過文本問答系統生成答案,隨後生成語音答案以及相應的面部表情。用戶最終得到的是一個模仿真人帶有面部表情的答案。

四、組合優化

在這個部分,金榕通過兩個例子——3D容器打包(3D Bin Packing)和自動設計banner——來說明阿里如何將深度學習的組合優化應用到業務當中。

1、3D容器打包

在物流業務中有一個常見的NP問題(也是組合優化問題)就是3D容器打包:如何才能更有效地打包物品呢?這個問題的實質就是找到一個優化的打包方式(啟發heuristic)。但是打包的方式太多了,所以困難就在於如何才能知道何時該用何種打包方式?金榕介紹了他們團隊如何通過指針網絡和強化學習來給出優化方案。

在打包過程中有三項關鍵的決定:1)物品打包的順序;2)物品放置的位置;3)物品放置的方向。所以所要求解的問題就是物品順序、位置、方向等的一個最優序列。

模型中的指針網絡,是由兩個回歸神經網絡的RNN模塊(編碼器和解碼器)構成,該網絡的輸入是待打包物品的尺寸序列,輸出的則是打包的序列(順序、位置、方向,不一定是最優的)。當給定一個打包序列後,打包這些物品所需的最小容器就很容易可以計算出來。隨後通過強化學習便可以快速找到優化的打包方式。

阿里團隊將通過模擬數據對該模型訓練後,將結果應用到天貓和菜鳥的物流打包中,結果證明強化學習後的打包方式能夠節省5%的打包箱。5%的優化對普通人來說可能並不顯著,但考慮到物流公司每天都要處理成千上萬的包裹,這樣的優化結果將能夠節省很多成本。

2、自動設計Banner

在購物網站上,一個好的banner會給用戶帶來更好的體驗。阿里巴巴平臺上有大量的商品展示,尤其是在雙十一光棍節時,對banner有大量的需求,靠手動設計顯然是不現實的。於是他們將深度學習應用到了banner的設計中。

具體來說,banner就是框架、背景、對象及其他材料的一個組合序列。將這些材料的組合輸入到一個卷積特徵網絡中,再加上用戶日誌,就構成了一個價值網絡,最終會給出一個組合(banner)的質量(quality)。通過這種方式為網上廣告進行設計顯然將會更節省人力、更快速地響應需求,也將會得到更好的結果。

五、模型壓縮與淺網

現在的深度學習模型變得越來越複雜,甚至有的模型已經超過了1000層,參數空間達到了10億級。這使得深度網絡神經學習在優先的存儲器和計算資源下難以運行。金榕在此提到了阿里的兩種解決方案:模型壓縮和淺網模型的構建。

1、模型壓縮

在演講中,金榕提出了一個利用乘法器交替方向法(ADMM)的low-bits量化神經網絡的框架來壓縮模型。

當模型比較龐大時,我們有時可以通過尋求次優解來降低計算量。常用的近似方法是,將連續的函數進行低比特量化(low-bit quantization),將w通過符號函數f(w)或硬雙曲切函數g(w)來替換。但這種方法近似的目標函數在最優解附近會表現的很不穩定。

為了解決這個問題,他們引入了交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。ADMM是一種求解優化問題的計算框架,它能夠將連續解和離散解結合起來,非常適用於求解分布式凸優化問題。此外為了更有效地運行ADMM,他們還開發了額外梯度下架方法(extra gradient descent method)來解決優化問題,這種方法能夠加速收斂。

通過用imageNet數據集的測試,結果顯示他們的方法要優於別的方法,且三比特(-1、0、1)方法相比full-precision在精度上幾乎沒有損失。

2、深網 v.s. 淺網

就前面說的,當想要尋求一個更優的解時,人們往往會求助於更深的神經網絡。這種網絡的預測函數往往是預定的且參數是相互獨立的。儘管這種方式在性能上有優良的表現,但模型和運算量都非常大,在訓練上是非常困難的,使用起來也非常昂貴。於是他們就想,能否通過構建複雜的激活函數來在預測函數中引入高度非線性,以此來取代神經網絡的深度優勢。換句話說,就是他們想用一個非常複雜的激活函數來開發一個相對較淺的網絡。

這個想法是受到了Cybenko等人的universal approximation theorem的啟發。根據這個理論,存在一個激活函數σ,嚴格遞增且是反曲的,它有以下的性質:對於任意函數f ∈ C [0, 1]n以及任意精度的限制 ε > 0,都存在常數d(輸入參數的維度)、c、θ 、γ、向量w,滿足圖中的不等式。

換句話說,這個理論暗示了存在一個複雜的雙曲型激活函數,使得任何連續函數都可以通過兩個隱藏層的神經網絡得到很好的近似。搜索非線性激活函數的優點是激活函數是單變量函數,即使在非參數化設置中也可以有效地完成其優化。目前這項研究仍在進行中,還有不少的困難。


雷鋒網註:參考論文《Deep Learning at Alibaba》

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 【IJCAI 2018】30大 Tutorial,人工智慧百花齊放
    在這次會議上,人工智慧和機器學習領域的研究者為我們呈現了這一領域的研究前沿,其中包括:約束學習Constraint Learning、生成對抗網絡(GAN)、博弈論、AI倫理 等等,呈現出很強的多樣性;與此同時,一些資深研究者也帶來了一些極具看點和啟發價值的演講和教程
  • ...三場技術研討會「Show Muscle」,展示人工智慧應用創新 | NIPS...
    近日,在美國加州長灘舉辦的 NIPS 2017 大會上,阿里巴巴人工智慧實驗室高級專家張碩、阿里巴巴首席工程師(Principal Engineer)李欣、阿里巴巴iDST院長金榕分別開設了迷你研討會,對各自領域在人工智慧領域的工作及實踐進行了介紹。
  • 資源|李宏毅中文《機器學習/深度學習》2019上線(附ppt及視頻分享)
    吳恩達、李飛飛等大牛的機器學習、深度學習公開課都乾貨滿滿,惠及很多學者。他的研究方向主要是機器學習(深度學習)和語音識別。Few/Zero shot learning非監督式學習、BERT強化學習、強化學習進階網絡壓縮GAN、GLOW無監督域適應為什麼需要深度學習、深度學習理論
  • 深度學習在統計機器翻譯和會話中的應用 |微軟IJCAI2016演講PPT
    微軟研究院在IJCAI2016的Tutorial上講述了自己將深度學習、深度神經網絡應用於不同場景的情況,之前第一部分提到了其應用於語義理解上的一些經驗和收穫,本文為第二部分。深度語義相似模型(DSSM)l  計算語義相似性btw文本l  針對自然語義處理任務的DSSM
  • 活動| 6篇論文被IJCAI 2017接收,騰訊邀你在墨爾本共敘AI
    從 1969 年到 2016 年,該大會在每個奇數年舉辦,目前已連續舉辦 25 屆;隨著近年來人工智慧領域的研究和應用的持續升溫,從 2016 年開始,IJCAI 正式改為每年一屆。人工智慧逐漸滲透到各個行業領域、推動創新與變革,與之共同演進的是,人工智慧生態圈前沿技術的研究與突破,越來越多國內企業和學者也在積極參與 IJCAI 並發表論文。
  • 【PPT】深度學習技術在醫學影像CAD中的應用
    會上四位演講嘉賓就圍繞活動主題從不同角度進行了精彩的演講,活動吸引了來自仁濟醫院、飛利浦、復旦大學、數據寶、格域數據等產學研多個機構的觀眾,現場大家積極提問交流、討論熱烈。下面是小編為大家呈上的演講嘉賓乾貨內容,供大家交流學習。楊晶晶,華院數據技術(上海)有限公司大數據架構師。華院數據技術(上海)有限公司是中國最早從事大數據分析挖掘的企業。
  • 百度IJCAI2020之行的亮點總結,學術創新成果全球領先
    值得一提的是,百度研究院量子計算研究所所長段潤堯還在會上發表了以量子計算為主題的精彩演講。百度所取得的AI技術突破和創新將助力人機互動、對話智能、智慧醫療、智慧零售、搜索廣告等場景的落地應用,推動全球人工智慧不斷進步和發展,同時譜寫屬於中國的「AI樂章」。以下為百度IJCAI2020之行的亮點總結。
  • 阿里巴巴首場NLP學術研討會,頂尖名師與企業工程師碰撞產學研火花
    5 月 23 日,阿里巴巴達摩院機器智能技術實驗室自然語言理解研究組在杭州舉行了阿里巴巴自然語言處理學術高級研討會,共有近 30 位來自全國各高校機構的學者嘉賓及 8 位阿里巴巴集團參會代表蒞臨出席,並進行了為期一天的學術分享
  • 李宏毅-《深度學習人類語言處理2020》中文視頻課程及ppt分享
    由國立臺灣大學李宏毅老師主講的純中文版,2020年深度學習與人類語言處理課程開課了,該課程主要講解深度學習技術在人類語言處理,比如語音識別、自然語言處理相關的知識。
  • 來IJCAI,不能錯過這些!
    Keynote 演講、Workshop(研討會)和 Tutorial(講座)等作為每年會議的焦點,自然不必多說,而今年作為承載著 IJCAI 50 周年特殊意義的一年,又將會有哪些不一樣的亮點呢?但是人工智慧,尤其是以深度學習為代表的機器學習技術,並沒有特別研究對應的措施。對此,我們有必要探討新一代的機器學習算法框架,以保護隱私、安全合規為出發點,進行合理的解釋性,用透明的推理機制來保障人工智慧的健康發展。同時,探討法律如何和技術更好的互動,讓技術的發展和法規的建立同步也成為當下 AI 領域發展亟待解決的問題。
  • 達摩院:阿里巴巴的修行
    漆遠 2008 年就開始研究大規模 GPU 集群和機器學習,那時候 AlphaGo 還只是實驗室裡的一段代碼;iDST 另一位創始人金榕,曾是美國密西根州立大學終身教授,發表過 200 多篇重要論文,在隨機優化、在線學習、半監督學習等領域都提出過原創算法和理論,可直到 2015 年左右,其中很多成果都還沒有找到發揮作用的真實場景。光鮮的履歷背後,一種「不甘」的感覺在撓人。
  • 阿里巴巴深度學習框架X-Deep Learning,要開源了
    [導讀]阿里巴巴將於12月開源其內部深度學習框架 X-DeepLearning,面向廣告
  • 怎樣做好一場PPT演講?6個ppt演講技巧,讓你的演講驚豔全場
    PPT演講應用廣泛,職場上,開會匯報;工作中,產品展示;學習上,演說答辯;培訓中,授課表達;對於每一個追求成功,想要擴大自身影響力的人來說,ppt演講是一項非常重要的加分技能本篇,唐歌為你分享的主題是:怎樣做好ppt演講?6個ppt演講技巧,讓你的演講驚豔全場。下面的部分,將從演講前內容準備,演講ppt製作,ppt演講技巧,注意事項四個方面展開,相信完整看全文,一定會讓你有所收穫。
  • IJCAI 2019 將於中國澳門舉行,誠邀各位出席!
    演講嘉賓IJCAI 2019 的演講嘉賓將介紹人工智慧,機器學習,自主代理和其他與人工智慧相關主題的一些最重要的貢獻和進展。許多受邀演講者將為非業內參會者提供「更易於理解」的演講。,https://www.ijcai19.org/invited-talks.html)贊助商IJCAI 在企業界得到的關注不斷增加,今年的贊助達到了一個新的高度。
  • 阿里NIPS 2017 Workshop論文:基於TensorFlow的深度模型訓練GPU...
    在本屆會議上,阿里巴巴除有兩篇論文入選 Workshop 並進行 Oral 和 Poster 形式報告外,三大技術事業部連續 3 天(5 日-7 日)在阿里展區舉行多場技術研討會,向 5000 餘名參會人員介紹阿里在機器學習、人工智慧領域的技術研究、產品與落地應用。
  • 谷歌雲官方:一小時掌握深度學習和 TensorFlow(視頻+50PPT)
    材料有兩部分,是面向工程師的實用型講解,分別為只有 3 小時的忙人和只有 1 小時的超級忙人準備。新智元節選後者,讓你在 2017 春節來臨前,拿出 1 小時學會 TensorFlow 和深度學習。另外,視頻也方便已經是熟手的你複習,說不定還能從中得到新的啟示。
  • 高橋流ppt在高中化學教學中應用
    主題:高橋流ppt在高中化學教學中應用什麼是高橋流?但是他需要ppt使用者大幅的精煉演講內容,有著非常強的邏輯順序。但是需要注意的長時間地使用這一種方式也容易令聽眾產生審美疲勞。網絡配圖高橋流應用於教學可以說教師的教學是一個ppt最為常用的應用場景,很多教師都會製作很多ppt,那麼高橋流的ppt
  • 密西根大學-《深度學習與計算機視覺》課程視頻及ppt分享
    課程說明 計算機視覺應用已經在我們的社會生活中無處不在,常見應用場景包括搜索,圖像理解,人臉識別,地圖,醫學,無人機和自動駕駛汽車等。這些應用程式的許多核心是視覺識別任務,例如圖像分類和目標檢測。神經網絡方法的最新發展大大提高了這些最新的視覺識別系統的性能。本課程深入探討了基於神經網絡的計算機視覺深度學習方法的細節。在本課程中,我們將介紹學習算法,神經網絡架構,學生將學習實現,訓練和調試自己的神經網絡,並獲得對計算機視覺前沿研究的詳細了解。
  • IJCAI 2017,清華被收錄了哪些論文?
    它們分別是:1、《Fast Network Embedding Enhancement via High Order Proximity Approximation 》一句話:針對網絡表示學習問題提出一種基於高階鄰接度逼近的快速算法,能夠普遍提升已有網絡表示學習算法的性能。摘要:最近在網絡頂點向量表示的學習上提出了許多網絡表示學習(NRL)方法。