專訪騰訊雲機器學習平臺技術負責人:揭秘騰訊深度學習平臺DI-X背後...

2021-01-15 雷鋒網

今天,騰訊正式發布了旗下深度學習平臺DI-X(Data Intelligence X),這是繼今年1月推出FPGA雲伺服器之後,騰訊在人工智慧領域的又一重大舉措。據雷鋒網了解,DI-X將基於騰訊雲的大數據存儲與處理能力,為其用戶提供一站式的機器學習和深度學習服務。

馬化騰曾表示:「人工智慧、物聯網,甚至未來的無人駕駛、機器人等等,它的後臺的核心一定有一顆在雲端的大腦。」而對於騰訊而言,馬化騰所提及的雲端大腦正是構建與其騰訊雲服務之上。

隨著DI-X深度學習平臺已經上線,騰訊雲在人工智慧領域產品線已經覆蓋了IaaS基礎設施、AI平臺服務、AI基礎服務、AI應用服務以及垂直解決方案。

那麼最新推出的DI-X和騰訊去年開源的大數據框架Angel以及Mariana究竟有何聯繫?和其它平臺相比,DI-X又有何特點呢?為此,雷鋒網採訪了騰訊T4專家、騰訊雲機器學習平臺技術負責人Andy。

騰訊雲深度學習平臺DI-X誕生的背景雷鋒網:深度學習平臺項目是什麼時候開始啟動的?做DI-X的初衷是什麼?

騰訊內部有一個機器學習平臺,從2015年的10月份就開始啟動了。因為公司有很多的算法工程師和數據科學家,大家做的事情都很類似,迫切需要一個這樣的平臺來承載大家的需求,在上面方便的進行各種組件,算法和模型的配置,快速的判斷模型效果,並應用到生產上。之前公司內部的大數據平臺,包括存儲,計算和分析……都已經日趨成熟了,在此之上,需要往上再走一步,進行機器學習和人工智慧,所以這樣的平臺就應運而生了。

平臺在內部運行1年左右之後,效果還不錯,於是騰訊雲就啟動了這個項目(DI-X),將內部平臺遷移到騰訊雲上。在今年的3月份上旬,GPU雲伺服器產品也對外開放了,所以DI-X剛好和它對接上,主攻深度學習,希望能幫助到更多的騰訊雲的中小用戶,接入AI的快車道。

雷鋒網:DI-X項目由哪個團隊主導?現在有多少人?

項目是由SNG騰訊雲的數據產品團隊和TEG數據平臺部的機器學習團隊聯合而成,人不多,就十幾個。我們相信小團隊比較適合快速的迭代,產品現在還很年輕,需要快速的成長。

雷鋒網:在DI-X研發的過程中,遇到最大的挑戰是什麼?

機器學習平臺的設計,其實即便是Azure,都有很多不完善的地方,而這個平臺是一開始就是要服務內部用戶的,所以會面對很多用戶奇奇怪怪的需求,而這時如何去將這些需求化解為真正對平臺有通用意義的功能,是需要有很強的理解力和把控力的,這個是對這個產品最大的挑戰之一。

這個平臺面對的另外一個挑戰,就是人工智慧和機器學習的發展太快了,很多新的功能和需求,不停的出現,也有新的更好的平臺值得借鑑。我們需要更快的走完前人走的路,還要跟上後來者的節奏,這個對團隊的快速迭代能力,也有很高的要求。

深度揭秘DI-X雷鋒網:DI-X的設計理念是什麼?和類似數加、Azure這樣的系統平臺有什麼區別?

DI-X的設計理念是打造一個一站式的機器學習平臺,集開發、調試、訓練、預測、部署於一體,  讓算法工程師和數據科學家,無須關注機器學習(尤其是深度學習)的底層工程繁瑣的細節和資源,專注於模型和算法調優。

DI-X的最終目的是成為一個時尚,強大而智能的機器學習平臺,讓機器學習充滿樂趣,助力人工智慧。

伴隨著機器學習和人工智慧的發展,對騰訊這樣大體量的公司來說需要一個這樣的平臺來支持內部算法工程師的需求。DI-X目前已經在騰訊內部廣泛使用,一開始的目的也是支撐內部。隨著系統成熟,我們覺得可以通過騰訊雲,把這個能力開放出來。

整體上來看,DI-X和阿里數加,Azure是競品,大家會各有所長。

雷鋒網:DI-X的架構有何特點?

主要體現在以下三個方面:

1. 易用性:可視化的拖拽式任務流設計界面,配備了輸入、組件、算法、模型、輸出5類模塊,靈活組合,可以做到無須任何編碼而完成複雜機器學習任務。

2. 靈活性:用戶既支持使用集成的機器學習算法,也能在業界的各種機器學習組件上提交自己算法。

3. 重點支持深度學習:目前支持TensorFlow,Caffe,Torch3種框架組件,後續會提供更多深度學習框架和針對性優化。

雷鋒網:去年12月,騰訊開放了自研的大數據平臺Angel,並且支持上述深度學習框架,那麼Angel對DI-X是否有深度的優化?DI-X、Angel與此前的Mariana深度學習平臺有何關係?

Angel是一個高緯度的機器學習框架,可以作為一個獨立的機器學習組件,也可以作為PS-Service(參數伺服器服務),支持Spark和其它深度學習框架。內部已經在試用了,開源之後也會發布到DI-X上面,讓用戶方便的使用和接入。

Mariana主要是一個針對GPU,基於Caffe進行了數據並行和模型並行能力升級的一個分布式GPU計算框架,也是可以在DI-X上運行的一個框架組件。我們在內部版本的TeslaML上,都有這個組件的存在,但是對外的話,我們計劃是將它融合到Angel之中,作為一個整體開放。

雷鋒網:工業界和學術界,DI-X會更側重哪一塊?

DI-X在騰訊內部服務一段時間了,大部分的場景都是比較大的數據量的,所以會適合工業界一些。對於學術界是否合適,我覺得要用戶來評判。當然我們很歡迎學術界的朋友來試用。

雷鋒網(公眾號:雷鋒網):相比其它平臺,DI-X的優劣勢是什麼?在算法和模型的訓練上有哪些突破?

DI-X目前剛剛推出,比起之前的產品有一些的時間距離,這是劣勢,也是優勢。相比之下,成熟度會弱一點,但是我們借鑑了之前產品的特點和經驗,並做了一些改進和創新。尤其是算法的「小尾巴」設計上,和之前的產品設計都不太一樣,在模型的收藏,使用,預測,部署上,都會有很多的優勢,對深度學習更加的友好。

目前的各個深度學習組件,我們都是使用業界的開源最新版本,打通和COS的交互。後續在多機多卡的加速上,我們會藉助Angel,提供更強的性能支持。

雷鋒網:DI-X主要解決了哪些問題,它的應用場景有哪些?目前DI-X給騰訊雲的業務做了哪些貢獻?

DI-X解決的問題,主要是用戶在騰訊雲有了資源之後,可以降低開發和使用機器學習的門檻。假如你購買了GPU的計算集群,你需要到上面自己去安裝各種組件,上傳作業,調度運行,關注告警;但是有了DI-X,你只要點幾下滑鼠,對接上GPU資源後,就能把一個深度學習算法跑起來了,無論是你自己開發的還是業界現有的,這樣的一站式平臺,都能夠降低算法工程師和數據科學家的門檻,他們不用操心很多工程上的細節,可以專心的調算法和參數,把模型訓練好。

目前DI-X在騰訊內部,應用廣泛,例如遊戲流失率預測、用戶標籤傳播以及廣告點擊行為預測,這些應用背後都有DI-X的支持。以用戶行為預測為例,藉助DI-X平臺,可以方便的拖拽出一個BRNN Encoder模型(雙向循環神經網絡編碼器),從用戶自身和用戶圈子好友的行為序列數據中提取出基礎特徵,進行棧式自編碼(Stacked Auto-Encoder)模型的訓練,充分利用RNN的模型特點,得到比常規模型更精準的行為預測效果。

對於騰訊雲來說,DI-X是補上了重要的一環,讓騰訊雲的智能雲能力,更加的完備,並充分發揮GPU計算集群的產品能力,是一對很好的搭檔產品。  

雷鋒網:使用騰訊雲上的DI-X,對企業以及開發者來說意味著什麼?

使用DI-X,對於中小企業來說,某種程度上是開上了機器學習和人工智慧的快車道,這個是我們的期望。不需要重複的搭建類似的系統,可以一鍵式的完成算法和模型的開發、調試、評估、部署和預測,快速的完成閉環,並對接生產系統。

未來,我們希望能夠幫助到更多的AI創業公司和客戶,降低他們的創業門檻,更快的專注於有創意的業務上,而無須擔心底層。另外我們也希望能夠將騰訊的成熟的數據,算法,模型開放出來,幫助到需要的小公司,讓它們能夠快速成長。

總結

當然,DI-X仍然不是一款成熟的產品,和現有的平臺相比顯然還有一定的差距,這對產品團隊的技術水平是一次考驗。Andy告訴雷鋒網,在後續的版本當中,他們還會做一系列的優化:

首先,會把其它的機器學習組件補齊,包括Spark、xgBoost,甚至於Python、R,我們都會一一加上,讓DI-X更加完整;

其次,要把深度學習的特性做進一步的產品優化,使得它能夠在模型的超參數調節,效果可視化上,具有更好的競爭力。

毋庸置疑,人工智慧基礎服務已經成為網際網路巨頭必爭之地,作為騰訊「雲端大腦」的一部分,DI-X上線後的表現如何,我們拭目以待!

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 阿里發布的機器學習平臺PAI2.0,和騰訊的DX-I區別在哪? | 雲棲2017...
    本屆雲棲大會的主題是「飛天 · 智能」,和去年10月杭州站的「飛天·進化」相比看似沒有太大的變化,但很明顯的是,無論是主題演講還是會場展區,人工智慧已經取代雲計算成為了出現頻率最高的詞,而其最新發布的機器學習平臺PAI2.0當之無愧成為了大會的焦點。
  • Forrester發布全棧公有雲開發平臺報告,騰訊雲再次入選領導者象限
    今日獲悉,國際領先行業諮詢機構Forrester發布《2020年Q4中國全棧公有雲開發平臺Wave™報告》顯示,騰訊雲再次入選公有雲開發平臺領導者象限。在2018年同主題報告中,騰訊雲也曾入選。
  • ...上騰訊大會上推出雲遊戲平臺「騰訊即玩」(Tencent Instant Play)
    【每日科技網】  據美國《綜藝》雜誌2月27日報導,騰訊在西班牙巴塞隆納MWC大會上推出雲遊戲平臺「騰訊即玩」(Tencent Instant Play),「騰訊即玩」將適用於行動裝置和PC,運行方式類似於谷歌的遊戲雲串流技術Project Stream和微軟雲遊戲服務xCloud
  • 騰訊優圖推出卷積神經網絡深度學習算法模型
    近年來機器學習算法在醫療領域的大展拳腳(糖尿病視網膜病變/皮膚病/甲狀腺結節等),基於卷積神經網絡算法(機器學習算法一類)的肺結節診斷模型有望解決這一難題。此次騰訊優圖聯合吳一龍教授/鍾文昭教授團隊及多個中心等推出的基於卷積神經網絡算法的肺結節診斷模型,可有望輔助醫生提高結節檢出率的同時兼顧良惡性診斷準確率,大大降低放射科醫師日常CT讀取工作量,同時使得更多患者能夠及時得到早期治療幹預,進一步降低肺癌相關死亡率。作為騰訊覓影核心AI技術的提供方,騰訊優圖實驗室將持續通過騰訊覓影,與更多醫院及醫療機構展開合作,讓技術真正應用落地。
  • 騰訊優圖開源深度學習推理框架TNN 助力AI開發降本增效
    一方面,它以「授人以漁」的方式為AI構建了一個開放共進的生態環境,幫助行業加速AI應用落地;另一方面,在解決行業實際問題時持續更新和迭代,源源不斷地給AI領域輸送重要的技術養料和創造力,可以說開源是AI落地和繁榮不可或缺的源動力。  6月10日,騰訊優圖實驗室宣布正式開源新一代移動端深度學習推理框架TNN,通過底層技術優化實現在多個不同平臺的輕量部署落地,性能優異、簡單易用。
  • 騰訊雲發布專有雲TCE矩陣 首推AI版專有雲
    【TechWeb報導】1月23日消息,昨日騰訊雲正式對外推出了騰訊專有雲TCE矩陣,矩陣中包含企業版、大數據版、敏捷版以及首推的AI版專有雲。TCE企業版採用了領先的分布式架構平臺,提供IaaS、PaaS、SaaS全量雲產品矩陣,並通過騰訊雲9大產品線的
  • 雲+社區技術沙龍丨解析騰訊最新開源項目背後的技術棧
    楊曉峰:《Kona JDK 在騰訊大數據領域的實踐和發展》騰訊專家工程師、TEG JDK 團隊負責人楊曉峰,在演講中簡要介紹了 Kona JDK 項目的緣起,分析了當前 OpenJDK 的技術發展熱點,以及國內該領域的發展狀態和趨勢,對 Kona JDK 在騰訊大數據領域的需求痛點、實踐心得以及未來發展進行了分享。
  • 深度揭秘騰訊DevOps全鏈路解決方案
    騰訊Hub,是騰訊雲使用新一代容器思想打造的,基於雲的持續集成和DevOps流水線平臺,不僅具備多樣化的可拓展性,還從企業角度保證了交付在全鏈路中的存儲和安全。騰訊織雲,經過騰訊海量業務打磨,維護超20萬臺伺服器,超1萬個服務模塊,承載QQ等海量社交業務,日均發布量近萬次,是集質量、效率、成本、架構為一體的智能運維平臺。
  • 騰訊AI Lab主任張潼離職,或將返回學界
    編者按:本文來自「機器之心」(ID:almosthuman2014),36氪經授權轉載。 在宣布離職之前,張潼是騰訊 AI Lab 的第一負責人,也是該機構的執行董事。張潼博士是美國康奈爾大學數學系和計算機系學士,以及史丹福大學計算機系碩士和博士學位。
  • 大數據平臺「星環科技」擬科創板上市,騰訊為最大機構投資方
    成立於2013年的星環科技是一家大數據基礎軟體產品提供商,以企業級一站式大數據平臺為切入點,以分布式計算為基礎,旗下現擁有5大產品系列:基於容器的智能大數據云平臺Transwarp Data Cloud ( TDC )、一站式大數據平臺Transwarp Data Hub ( TDH )、智子人工智慧平臺Transwarp Sophon、分布式資料庫(快閃記憶體資料庫
  • 騰訊優圖開源深度學習推斷框架TNN - 軟體與服務 - 中國軟體網...
    6月12日消息,騰訊優圖實驗室宣布開源新一代移動端深度學習推理框架TNN。騰訊優圖希望通過底層技術優化幫助用戶實現人工智慧在多個不同平臺的輕量部署落地。據悉,基於TNN,開發者能夠輕鬆將深度學習算法移植到手機端高效的執行,開發出人工智慧 APP,將 AI 帶到指尖。
  • 馬化騰發布騰訊超級大腦,騰訊雲AI服務全面免費接入!
    雲平臺的快速發展得益於各行各業對雲計算和人工智慧的擁抱和轉型。雲平臺是大數據和人工智慧的天然載體,也是經濟社會進行數位化升級的基礎設施和核心工具。騰訊副總裁、騰訊雲總裁邱躍鵬介紹粵省事和深圳民生警務深微平臺另外一個例子是永輝超市智慧零售的案例。
  • 阿里、騰訊的智能醫療暗戰從平臺走向生態
    從技術層面來看,算法是進行外科輔助診斷的技術核心,而阿里在天池平臺舉辦的算法比賽,其意在以算法為核心推進其AI技術在醫療領域的應用。從更深層面上來說,阿里舉辦天池大賽的最終目的,還是為了建構其智能醫療生態,並藉助它擴展阿里的電商生態布局。就在阿里發力智能醫療的同時,它的老對手騰訊也在加碼布局。這種情況下,兩者的戰火很自然的就燒到了智能醫療領域。
  • 騰訊雲小微&騰訊雲智能鈦聯合團隊獲國際口音英語語音識別賽冠軍
    騰訊雲小微&騰訊雲智能鈦聯合團隊的技術方案,以識別錯誤率最低且優於第二名10%的好成績獲得賽道第一。採用探索性語音識別方案,騰訊聯合團隊展示技術研究實力口音語音識別難點主要源於口音本身的不一致性、語速與音素髮音的多變性難以建模等問題。另外,帶有口音標註的語音數據的短缺也嚴重限制了相關研究的開展。
  • 小程序聯合騰訊雲推出「雲開發」 騰訊的真實意圖是什麼?
    而29日當天的峰會上,騰訊雲又推出僅需少量代碼甚至無需編碼就可快速生成應用程式的雲開發低代碼平臺,試圖進一步降低小程序等應用開發門檻。用騰訊雲副總裁劉穎的話來說,就是通過低代碼開發平臺,讓沒有技術背景的產品、運營(人員)也可以用雲開發做應用,人人都是可以成為「開發者」。實際上,不管是雲開發,還是低代碼平臺,都是幫助用戶降本增效。
  • 兩倍速增長的騰訊雲 背後的勢能與動能
    騰訊雲之所以能夠取得這樣的快速增長,背靠騰訊的集團優勢和技術儲備的勢能是第一個原因,而騰訊雲自身在技術創新和市場戰略上不斷的變革和突破則形成了獨特的動能。如何理解騰訊雲?  看勢能 從支持業務到業務支撐  我們知道,騰訊雲本身就是騰訊公司多年來通過網際網路業務的實踐所積累的技術釋放。
  • 騰訊AI Lab 2020 年度回顧
    AI+藥物:首個AI驅動的藥物發現平臺問世 2020 年 7 月,騰訊 AI Lab 重磅發布了首個 AI 驅動的藥物發現平臺「雲深智藥」。 在蛋白質結構預測方面,雲深智藥採用了騰訊 AI Lab 自研的冠軍級蛋白質結構預測技術,其中涵蓋兩項關鍵技術突破:一種基於自監督學習的蛋白質摺疊方法和一種基於深度學習的可迭代方法
  • 騰訊全球數字生態大會案例:騰訊雲助力智能製造
    2020年9月9-11日,騰訊全球數字生態大會首次在「雲」上舉行。騰訊聚焦雲與智慧產業進行戰略升級,發布多項全新解決方案,並在大會中與觀眾分享了各行業的最佳實踐案例。我們從中精選了兩個客戶成功案例,闡述騰訊技術如何賦能企業擁抱數字經濟。本文是該系列的首個案例。
  • 揭秘騰訊的「神盾局」
    在騰訊內部,也有這樣一支低調的技術力量驅動著網際網路巨擘不斷前行。正在昆明舉行的騰訊全球數字生態大會上,騰訊技術工程事業群(簡稱TEG)首次對外展出30餘個技術應用,讓合作夥伴和用戶一站式飽覽騰訊技術全景。本次大會,騰訊首次大秀了一把「技術肌肉」,將產業網際網路和消費網際網路的新成果、新技術、新應用分享給大家。
  • 知學雲「解剖」阿爾法狗:在線學習平臺需要「有深度」
    知學雲「解剖」阿爾法狗:在線學習平臺需要「有深度」 紅四方面研究生 · 2016-03-29 16:56:07 ·產經 一場探討組織學習變革的研討會,被阿爾法狗「搶」了風頭。