阿里深度學習框架開源了!無縫對接TensorFlow、PyTorch

2021-01-08 新智元

新智元報導

來源:阿里巴巴

編輯:文強

【新智元導讀】阿里巴巴將於12月開源其內部深度學習框架 X-DeepLearning,面向廣告、推薦、搜索等高維稀疏數據場景,以填補TensorFlow、PyTorch等現有開源深度學習框架主要面向圖像、語音等低維稠密數據的不足。

阿里巴巴內部透露將開源內部深度學習框架 X-DeepLearning的計劃,這是業界首個面向廣告、推薦、搜索等高維稀疏數據場景的深度學習開源框架,可以與TensorFlow、PyTorch 和 MXNet 等現有框架形成互補。

X-Deep Learning(下文簡稱XDL)由阿里巴巴旗下大數據營銷平臺阿里媽媽基於自身廣告業務自主研發,已經大規模部署應用在核心生產場景,在這次的「雙11」中也發揮了重要作用。

阿里媽媽研究人員介紹,XDL整體上跟TensorFlow和PyTorch是同級的,它們很好地解決了目前已有開源深度學習框架分布式運行能力不足,以及大規模稀疏特徵表徵學習能力不足的問題。

XDL 採用了「橋接」的架構設計理念。這種架構使得 XDL 跟業界的開源社區無縫對接。例如,用戶可以非常方便地在XDL框架上應用基於TensorFlow或者PyTorch編寫的最先進開源深度學習算法。此外,對於已經在使用其他開源框架的企業或者個人用戶,也可以在原有系統基礎上輕鬆進行擴展,享受XDL帶來的高維稀疏數據場景下極致的分布式能力。

數據的高維稀疏性是廣告、推薦、搜索等網際網路眾多核心應用場景的特徵,覆蓋了大多數網際網路企業的數據應用模式。

對於難以與BAT研發能力比肩的眾多網際網路公司而言,工業級深度學習框架XDL及內置算法方案的開源,將助力各大公司的技術升級,大大提升廣告/推薦/搜索場景的精準性,縮短技術迭代周期。

面向廣告、推薦、搜索場景的工業級分布式開源DL框架

2016年左右,阿里媽媽團隊在研發基於深度學習的廣告點擊率預估算法時發現,當時已有的TensorFlow、MXNet等開源框架,用來實驗算法原型可以,但真正面臨網際網路尺度的規模化數據時,運行效率面臨巨大的挑戰。

「我們第一次基於TensorFlow訓練我們實際生產系統的深度點擊率預估模型時,一天的數據量需要運行超過3天的時間模型才能收斂,」阿里媽媽研發人員告訴新智元:「典型的生產模型需要用到的訓練樣本往往都是歷史幾個月的數據,顯然直接使用TensorFlow是不現實的。」

隨後,阿里媽媽團隊也試圖對TensorFlow做一些簡單優化,但發現改動成本巨大。進一步剖析框架後,他們發現本質的原因是TensorFlow、MXNet、PyTorch等框架大都是面向圖像、語音等領域的稠密數據設計,對廣告、推薦等場景的高維稀疏數據上的深度學習計算考慮不足。

為此,阿里媽媽啟動了XDL框架的研發,希望能夠在復用已有開源框架對稠密數據的計算能力基礎上,重點打造面向工業級應用的分布式規模能力,單機能夠處理的計算則引用現有開源框架。

經過2年的研發與打磨,XDL目前已經在阿里媽媽成功部署到內部的生產系統。以阿里媽媽定向廣告為例,2017年,以 XDL 為基礎的深度學習算法升級帶來的廣告收入提升超過百億。

「我們注意到今天業界的很多團隊還在類似的重複性工作。開源XDL,是希望把阿里巴巴的能力賦能給大家,推高全行業的整體技術水位,同時也希望能夠吸引業界的夥伴們一起來建設高維稀疏數據場景上的深度學習技術,一起成長與獲益。 」

「在現有的版本中,我們在單節點稠密深度網絡計算上採用橋接技術,復用了 TensorFlow、MxNet 的能力,也是最大程度上復用了已有開源深度學習框架的能力。」

研究人員表示,後續 XDL 也會考慮加入ONNX。「ONNX針對稀疏計算的表徵能力目前是不完善的,我們也在考慮對ONNX的協議標準進行擴充。」

研究人員表示,他們預計12月在Github公開 XDL的原始碼和使用文檔。除了核心的 X-DeepLearning 訓練框架,阿里還將開源面向高維稀疏數據場景的系統化解決方案,計劃分批次對外發布,包括面向在線實時服務的高性能深度學習預估引擎、面向全庫實時檢索的全新深度學習匹配引擎;同時還內置阿里媽媽自主研發的一系列創新算法,涉及CTR預估模型、CVR預估模型、匹配召回模型、模型壓縮訓練算法等等。

不管是以廣告、推薦、搜索為代表業務的企業級用戶,還是對此感興趣的個人用戶,都可以加入到開源計劃當中。

一圖看懂阿里巴巴首次公開深度學習框架

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手_2 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • TensorFlow與PyTorch之爭,哪個框架最適合深度學習
    選自builtin作者:Vihar Kurama機器之心編譯參與:吳攀、杜偉谷歌的 Tensorflow 與 Facebook 的 PyTorch 一直是頗受社區歡迎的兩種深度學習框架。那麼究竟哪種框架最適宜自己手邊的深度學習項目呢?
  • 寫給純小白的深度學習環境搭建寶典:pytorch+tensorflow
    每天給小編五分鐘,小編用自己的代碼,讓你輕鬆學習人工智慧。本文將手把手帶你快速搭建你自己的深度學習環境,然後實現自己的第一個深度學習程序。野蠻智能,小白也能看懂的人工智慧。如果你對循環神經網絡的基本原理還不了解,可以通過小編的精講深度學習RNN三大核心點,三分鐘掌握循環神經網絡進行簡單了解。下面進入實戰環節。
  • tensorflow和python的關係_tensorflow與pytorch的區別
    打開APP tensorflow和python的關係_tensorflow與pytorch的區別 網絡整理 發表於 2020-12-04 14:54:47
  • 一行代碼切換TensorFlow與PyTorch,模型訓練也能用倆框架
    很顯然,這樣的框架交互,能節省很多重寫代碼的麻煩事。github項目地址:BlackHC/TfPyTh為什麼框架間的交互很重要目前 GitHub 上有很多優質的開源模型,它們大部分都是用 PyTorch 和 TensorFlow 寫的。如果我們想要在自己的項目中調用某個開源模型,那麼它們最好都使用相同的框架,不同框架間的對接會帶來各種問題。
  • 開源| 雅虎BigML團隊開源大數據分布式深度學習框架TensorFlowOn...
    選自雅虎作者:Lee Yang,、Jun Shi、 Bobbie Chern、 Andy Feng機器之心編譯參與:杜夏德、朱思穎雅虎 Big ML 團隊今日宣布開源 TensorFlowOnSpark,用於在大數據集群上進行分布式深度學習。下面是該團隊官方發布的開源說明。近幾年,深度學習發展的非常迅速。
  • 從Google Trends,看各大深度學習框架使用熱度
    雷鋒網 AI 科技評論按,隨著深度學習在計算機視覺、自然語言處理等領域取得的成果越來越顯著,對深度學習的討論越來越多。作為當下最熱門的話題,從 2015 年至今,短短三年時間,谷歌、Facebook、微軟等國外巨頭,百度、小米等國內企業,前後圍繞深度學習推出一系列開源框架。
  • 深度學習框架tensorflow之環境搭建
    深度學習的tensorflow框架是目前最流行的一種框架。本文先就環境搭建做一介紹。tensorflow的運行語言主要是python,所以電腦上要首先安裝python,推薦直接安裝anaconda,因為anaconda帶了很多tensorflow需要使用的python數學的運算庫,如果自己安裝,可能會遇到各種依賴問題,安裝好了anoconda,後面安裝tensorflow就非常簡單。1.
  • 掌握深度學習,為什麼要用 PyTorch、TensorFlow 框架?
    另一方面,在某些情況下,深度學習或深度遷移學習可以幫助你訓練更準確的模型。在這些情況下,你可以考慮使用PyTorch和TensorFlow,特別是如果你所需的訓練模型與其中一個框架模型庫中的模型類似。PyTorchPyTorch建立在舊版的Torch和Caffe2框架之上。
  • ...雅虎BigML團隊開源大數據分布式深度學習框架TensorFlowOnSpark
    選自雅虎作者:Lee Yang,、Jun Shi、 Bobbie Chern、 Andy Feng機器之心編譯參與:杜夏德、朱思穎雅虎 Big ML 團隊今日宣布開源 TensorFlowOnSpark,用於在大數據集群上進行分布式深度學習。下面是該團隊官方發布的開源說明。近幾年,深度學習發展的非常迅速。
  • 2020,PyTorch真的趕上TensorFlow了嗎?
    其實,這已經不是這位作者第一次調研深度學習框架了。從 2018 年到 2020 年,他先後進行過三次調查研究並發布了相關報告。從這些報告中,我們可以看出深度學習框架在多個維度的熱度演變史。2018:TensorFlow 碾壓 PyTorchJeff Hale 的第一份調研結果發布於 2018 年 9 月。
  • PyTorch稱霸頂會:CVPR論文佔比是TensorFlow 4 倍
    自 2009 年深度學習再度成為焦點以來,很多機器學習框架成為研究者和業界開發者的新寵。從早期的學術框架 Caffe、Theano 到如今 Pytorch、TensorFlow 這樣越來越大規模的開發框架。
  • 初學AI神經網絡應該選擇Keras或是Pytorch框架?
    目前,兩個主要的深度學習庫Keras和Pytorch獲得了大量關注,主要是因為它們的使用比較簡單。一、發展演變歷程keraskeras出身就像是一個天生麗質的姑娘,是多個計算後臺框架的」前端」。Powerful,是深度學習入門的絕佳技術路線舉個tensorflow1.0的例子(偽代碼)定義Variable、constant、placeholder等。 初始化global_variables_initializersession回話狀態。
  • 從零開始搭建深度學習伺服器:TensorFlow + PyTorch + Torch
    本教程轉載於深度學習中文社區(studydl.com).在深度學習大行其道的今天,我們不應該停留於觀望的階段,我們應該多多上手進行實踐,下面將為大家介紹一下最簡單也是最基礎的內容,配置一個自己的深度學習伺服器.1.
  • 深度學習/目標檢測——pytorch基礎(一)
    選擇合適的工具是進行學習研究的重要基礎。隨著這些年深度學習、目標檢測技術的發展,越來越多的公司開始提供深度學習的框架,國內百度和華為相繼發布了paddle和mindspore框架。但要說這兩年發展最快的框架,那還的是facebook的pytorch。
  • 深度學習-Pytorch框架及常用代碼段學習
    前言:之前一直用的是tensorflow和keras,沒有接觸過Pytorch,但是最近因為項目需求,必須要使用Pytorch,於是從娃娃抓起,從頭學習下Pytorch,做點筆記以便日後查詢。對於筆者而言,學習某個深度學習框架,最好的資料是官方所給文檔,pytorch也是如此,官方文檔連結如下:https://pytorch.org/docs/stable/index.html一、基本設置篇主要包括一些版本號查詢,基本包的導入,顯卡設置等,如有遺漏之處,煩請指出。
  • 在Linux系統中安裝深度學習框架Pytorch
    TensorFlowPyTorch:一個開源的使用Python作為開發語言,是一個以Python優先的深度學習框架。本質上是Numpy的替代者。為pytorch創建一個虛擬環境,這是推薦的做法,這樣在創建其他環境如tensorflow時,就不會互相衝突
  • TensorFlow發布JavaScript開發者的機器學習框架TensorFlow.js
    當時時間 3 月 30 日,谷歌 TenosrFlow 開發者峰會 2018 在美國加州石景山開幕,來自全球的機器學習用戶圍繞 TensorFlow 展開技術演講與演示。去年的 TensorFlow 開發者大會上,該框架正式升級到了 1.0 版本,逐漸成為最流行的深度學習框架。
  • tensorflow能做什麼_tensorflow2.0和1.0區別
    tensorflow能做什麼   TensorFlow是谷歌基於DistBelief進行研發的第二代人工智慧學習系統,其命名來源於本身的運行原理。
  • 2020,國產AI開源框架「亮劍」TensorFlow、PyTorch
    在那個3月28日,華為在開發者大會2020上完成了輪值董事長徐直軍在去年8月的承諾,宣布正式開源MindSpore,這是一款支持端邊雲全場景的深度學習訓練推理框架。 時間撥到四天前,AI獨角獸曠視科技宣布開源天元(MegEngine),強調這是訓練推理一體化、動靜態合一的工業級深度學習框架。
  • 深度學習:盤點全球的深度學習框架「Tensorflow、Pytorch」勝出
    深度學習在人工智慧技中的表現尤為的突出,想要學習深度學習,首先需要掌握一個有效的深度學習框架,這篇文章將盤點目前全球流行的深度學習框架,從框架的流行程度、應用場景出發,來提高大家對深度學習框架的認識。主流深度學習框架的活躍度01一、TensorFLow框架Tensorflow由Google在2015