11項新升級,免費送億元算力:國產深度學習平臺「飛槳」大更新

2021-01-15 量子位

郭一璞 夏乙 發自 香格裡拉

量子位 出品 | 公眾號 QbitAI

深度學習框架裡的唯一國貨PaddlePaddle,集中迎來一大波更新。

百度PaddlePaddle全景圖也首次曝光。

在框架核心覆蓋的整個深度學習流程中,PaddlePaddle為從開發、訓練到部署、預測的每一個環節都做了新升級。同時,百度還免費放出了總價值1億元的計算力福利,甚至能「人手一張英偉達Tesla V100計算卡」。

眾多新功能、新特性中,不僅有全新的自然語言處理(NLP)和視頻工具集發布,升級了大規模分布式訓練、大數據處理等等能力,還響應開發者要求,將百度實際業務中使用的Serving部署能力完整開放了出來。

在核心框架之外,PaddlePaddle還提供了自動機器學習、強化學習、遷移學習三大新組件。

除了一口氣放出11項升級之外,這款兩歲多的國產深度學習框架,也終於有了中文名:

飛槳

百度深度學習技術平臺部總監馬豔軍介紹說,這個名字出自朱熹的兩句詩「聞說雙飛槳,翩然下廣津」, 飛槳表示急速划動的船槳或船,意指PaddlePaddle是快速成長,性能優異的平臺。從古詩詞裡找靈感起名字,還蠻符合百度這家科技公司一貫的文藝傾向。

新特性、新組件、新名字的集中宣布,就在昨天(4月23日)下午,開發者雲集的國內首場深度學習峰會上。

這場峰會上,數百人的會場擠得座無虛席,甚至還有一大群開發者找不到座位,在後排站著圍觀。

除了各家公司的工程師,參會者裡還有不少年輕的面孔,一直在拍照。

其中坐在量子位旁邊的是位本科生,這個在天津大學計算機專業就讀的男孩為此專程跑來了北京,自稱是PaddlePaddle的粉絲。

前來參會的可不只年輕人,現場至少有3位頭髮花白的老人。其中一位來自清華計算機系的老先生,和一旁清華軟院畢業的百度工程師討論起了人工智慧與數學的種種聯繫。據稱,老先生是清華55級的校友,從50年代開始就做人工智慧研究,今年83歲,還在帶博士。當年也是清華大學計算機系建系第一屆入學的本科生。

而在會議開始後,全場都安靜了,觀眾們像聽課一樣,齊刷刷的抬頭望著PPT,如果不是臺上有人在演講,現場幾乎安靜的讓人不敢竊竊私語。

這些聚集在現場的開發者,見證了「飛槳」開源近三年來的成長,也第一時間趕上了百度發放的算力福利。

這些新發布,都是面向深度學習在各行各業落地的需求,應運而生。

智能時代的作業系統

在這個深度學習滲透各行各業的時代,框架有著至關重要的作用。百度高級副總裁、深度學習技術及應用國家工程實驗室主任王海峰將它稱為「智能時代的作業系統」。

智能時代的一個重要特徵,就是人工智慧進入了工業化大生產階段,背後的推動力正是比前幾代技術更加通用的深度學習。

比如在我們日常生活離不開的地圖導航裡,深度學習就起著重要的作用。地圖每次找到路線之後估算要花費的時間,都要考慮到路上動態出現的各種情況,把歷史路況、實時路況、限行等等大量信息作為特徵輸入到一個深度學習模型中,統一建模,才能準確地預估時間。

王海峰說,百度地圖每天提供大約5億次時間預估,每一次都是深度學習在背後起作用。

從全行業來看,深度學習也為各個行業帶來了商業增值潛力。麥肯錫《深度學習的應用和價值》報告顯示,旅遊、交通、零售、高科技、媒體娛樂、半導體、通信等19個行業都會受益於深度學習。對旅遊業來說,深度學習會帶來128%的增值,各行業平均來看,也會帶來62%的提升。

深度學習為各個行業輸送價值,體現在具體的行業應用上,而它們和底層硬體之間,有一個重要的中間層,就是深度學習框架。

深度學習框架起著承上啟下的作用,向下對接系統和晶片層,很多基本算子都和晶片的指令集非常類似;而向上對接各種業務、領域的模型和行業應用,就表現出作業系統的屬性。

飛槳,就是百度版「智能時代作業系統」。

作為一個完整的深度學習平臺,它當然包含核心框架部分,支持訓練、預測、組網等等能力。

同時,它還提供了視覺、自然語言等領域的模型,形成一個完整的模型庫,以模塊化的方式呈現。在想要實現智能應用的時候,選擇合適的模型,簡化了前期收集、整理數據和從頭開始訓練的過程。

這些還不足以應對工業化生產的需求,因此,飛槳還包含遷移學習、強化學習、自動組網(AutoDL)、彈性深度學習計算等等組件,以及EasyDL和AI Studio平臺。

王海峰介紹說,AutoDL設計的網絡已經超過了很多專家設計的深度學習系統,而EasyDL上已經有超過3萬個模型,很多行業都在EasyDL上解決自己的問題,比如零售、工業、醫療等等。它們都讓深度學習任務更加自動化了。

可以說,無論是整個飛槳的設計還是剛剛發布的更新,都在適應工業化大生產的需求:具有通用性,朝著標準化、自動化和模塊化的方向發展。

「飛槳」新升級

還記得我們前面講過的飛槳三層架構嗎?這一波大更新,遍布每層架構每個模塊,可以說是整個框架平臺的大變身。

在核心框架層,飛槳在模型庫中發布了用於NLP和視頻理解的新工具集,還在訓練和預測環節更新了眾多功能,工具組件層有三款新品發布。

在AI Studio平臺上,百度還發放了一波開發者福利。

新特性眾多,我們從重頭戲PaddleNLP說起。

飛槳對60多個主流模型提供官方支持,這些模型構成了計算機視覺、NLP、推薦算法三大類工具集。

其中的NLP工具集這一次做了非常多升級。這些升級,都是百度在NLP領域的積累和工業化前沿經驗的呈現。前不久,百度發布了中文任務上全面超越BERT的語言表示ERNIE,就在PaddleNLP的基礎網絡層中開源了,還包含預訓練模型。

這個工具集能夠靈活插拔,還覆蓋了幾乎所有的常見NLP場景,全面支持主流的中文處理任務,並且能達到工業級的應用效果。

另外,其中的所有模型共享同一套骨架代碼,無論要跑其中哪一個模型,任何模型都可以用一套API和類似的模式,不需要每個模型執行不同的方法。

在PaddleNLP的基礎網絡層中,包含最基本的的BERT、ERNIE、ELMo等語義表示模型和語言模型組網集,以及序列標註、文本分類、語義匹配、語言生成與複雜任務上的組網集。

在應用任務上,它支持中文詞法分析、文本情感分類、短文語義匹配、閱讀理解、機器翻譯、對話等多種任務。

用PaddleNLP,能用共享的組網集靈活搭配,構建自己的網絡,還可以針對任務進行後處理:

除了NLP,飛槳在視覺領域也有更新:視頻領域工具集。

馬豔軍說,現在視頻內容越來越多,視頻處理已經成為一個主流任務,用通用方法來處理和理解它非常關鍵。

視頻工具集也是一套共享通用架構和配置文件,7個模型共享同一套數據讀取、評估代碼。

在這7個模型中,stNet、Attention LSTM和Attention三個都是百度在工業實踐中開發出來的。

百度自身業務就對視頻理解有很大的需求。

比如說這段跑男的視頻,Paddle的視頻工具集能將所有的聲音都轉換成文本,識別出裡邊各位明星的臉和所有物品,然後就可以對視頻做自動分類、打標籤了。

通過這種處理,還能得到一個視頻語義向量,在涉及視頻的搜索、推薦等場景下,用這個語義向量都能達到更好的效果。

在分布式訓練方面,飛槳也有三個主要功能發布。

第一是對多機多卡的全面、全方位的支持,提升了速度。第二是在CPU的應用場景設計並開放了大規模稀疏參數伺服器。第三是大規模分布式訓練支持各種容器,也支持了K8S。分布式訓練效果怎麼樣?下圖就是ResNet-50兩種精度下在ImageNet上的訓練benchmark,隨著卡和機器數量的增加能實現很好的線性增長:

在網絡條件不太好的情況下,也可以通過稀疏通信技術,實現穩定的訓練:

在CPU場景下,飛槳分布式訓練的吞吐量和加速比也都能呈現線性增長。

在部署和預測上,關鍵部分就是推理引擎,另外,飛槳還應開發者要求,開放了百度自身業務中使用的一個伺服器端部署系統Paddle Serving,還在移動端提供了壓縮工具PaddleSlim。

在伺服器端,飛槳支持主流的CPU、GPU,也支持移動端多種CPU和GPU硬體。

在Benchmark上可以看出,在英特爾的至強處理器上、P4 GPU上,飛槳的推理引擎都做了很好的優化。

移動端性能的優化更加關鍵,百度在多款晶片上測試了MobileNet網絡的延遲,也可以看到非常明顯的優化。

這些優化和飛槳新發布的模型壓縮能力密切相關。現在,模型優化已經成為一個剛需,飛槳通過支持剪枝、量化、蒸餾三種主要壓縮方式,讓用戶可以通過兩行Python代碼簡單調用自動化模型壓縮。

飛槳對語言的支持也在逐漸完備,目前已經支持Python和C++,後續也會支持更多語言。

展示了種種能力之後,飛槳聯合嘉楠、軟通等合作夥伴,發布了一款軟硬一體的產品:Paddle派210晶片板卡,售價不到100塊,5月將在百度AI市場發售。

除了這些框架之中支撐深度學習全流程的功能之外,PaddlePaddle還有三款工具組件亮相:

一是正式開源模型架構自動搜索工具AutoDL Design,以及這個AI設計出來的一些預訓練模型,有的能在圖像分類數據集CIFAR10上,達到98%的準確率;二是強化學習工具PARL,7分鐘就能訓練出一個會玩雅達利桌球遊戲Pong的智能體。三是預訓練的一站式管理平臺PaddleHub,10行代碼就能實現遷移學習。新升級就是以上這些,量子位拿到了一份完整的馬豔軍的演講PPT,對飛槳的新功能、新特性有更為詳細的介紹。給量子位公眾號(QbitAI)發送「飛槳」兩個字索取。

那麼百度的1億元算力福利具體是怎麼回事呢?

基於免安裝的集成環境AI Studio,百度為開發者提供了總共1億元的免費算力。算力的發放有兩種方式,一種是人手一張V100訓練卡,用戶通過邀請碼獲取AI Studio平臺上的免費算力時長,還能邀請好友獲得更多時長;另一種是遠程集群模式,只要登錄AI Studio就能通過這種方式免費使用單卡12GB顯存的算力。

國貨的進擊之路

2016年PaddlePaddle發布之時,谷歌的TensorFlow已經開源近一年,位列GitHub最受歡迎機器學習項目之首,更有Torch、Caffe、MXNet等前輩環伺。

當時的PaddlePaddle,雖然收到了運行速度快等讚譽,但是在大量同類產品之後「重複造輪子」,還是引來了文檔太少、資源太少、「短期內難以改變科研格局」等等吐槽。

如今,深度學習框架版圖早已不是兩年前的模樣,PaddlePaddle也經歷了翻天覆地的變化。

2017年,PaddlePaddle Fluid發布,還發布了新的API,大幅精簡了代碼量,提供「訓練、「測試」、「推理」等新的高級API,並支持Kubernetes。

2018年,PaddlePaddle支持了Python 3、計算圖分析、cuda8,1.0正式版本也就此出爐,為推薦系統、視覺和自然語言處理任務提供了大量的官方模型,還增加了對windows環境的支持,全面支持了Linux、Mac、 windows三大環境,最終升級為了端到端的深度學習平臺。

而在今年年初,PaddlePaddle更新至 Fluid v1.3 版本,新增發布視頻模型庫,支持了BERT模型。

伴隨著這些升級而來的,是用戶量的提升。馬豔軍說,PaddlePaddle現在已經覆蓋10萬開發者,並且增速非常可觀,在過去的一個季度內有了兩位數百分比的增長,用戶多數集中於產業界,從網際網路公司,AI公司到中國石油、南方電網這類傳統公司都在用PaddlePaddle,甚至像ERNIE這類研究還吸引了一些國外用戶下載使用。

相比TensorFlow和PyTorch這些模型,馬豔軍認為,PaddlePaddle有獨特的優點。

一方面PaddlePaddle是在企業實踐中做出來的,超大規模數據處理能力、高速推理能力強,場景和實際應用貼合,更為實用;

另一方面,PaddlePaddle不僅僅包含深度學習框架,提供一整套緊密關聯、靈活組合的完整工具組件和服務平臺,更加有利於深度學習技術的應用落地。加上百度在自然語言處理等方面的優勢,最終PaddlePaddle是十分易用的平臺。

下一步,馬豔軍說,PaddlePaddle還將在硬體的適配性等方面進一步提升,在今年內完善動態圖功能,提升動態圖訓練速度,實現動態圖與靜態圖的靈活轉換;新增流水線並行能力,提供視覺檢測、生成工具集,並且還會發布PaddleHub 2.0,基於最完備的預訓練模型庫進行遷移學習。

One more thing

量子位向現場的朋友要了一個遠程使用V100 GPU的邀請碼,當然要轉贈讀者啦!4月25日13:00,我們會定位評論區點讚數最高的讀者,轉送出這份福利。

你可以獲得最多120小時的使用時間,還可以額外贈送給你的3名開發者小夥伴免費用的機會。

— 完—

相關焦點

  • 全球AI作業系統暗戰:百度飛槳為中國深度學習撐起天空
    本次會議,百度AI技術平臺體系執行總監、深度學習技術及應用國家工程實驗室副主任吳甜為人工智慧領域展示了重磅升級的「飛槳產業級深度學習開源開放平臺」,及其四大領先技術,並首度發布《百度大腦AI技術成果白皮書》10月20日,第六屆世界網際網路大會2019年度領先科技成果大獎揭曉,百度飛槳入選網際網路領先科技成果。
  • WAVE SUMMIT+2020深度學習開發者峰會報名啟動
    WAVE SUMMIT+2020深度學習開發者峰會盛大開啟!讓我們再次相約,嗨翻歲末~此次大會由深度學習技術及應用國家工程實驗室與百度聯合主辦,既有前沿技術解析與產業落地的乾貨,也有美酒和音樂的派對狂歡。同時,百度開源深度學習平臺飛槳也會在這次大會上帶來重磅更新,新老朋友們千萬不要錯過!
  • 如何用免費GPU學習AI算法?這篇算法資源大集錦別錯過
    AI Studio是什麼AI Studio是百度提供的一個針對AI學習者的在線一體化開發實訓平臺。平臺集合了AI教程, 深度學習樣例工程, 各領域的經典數據集, 雲端的運算及存儲資源, 以及比賽平臺和社區。 你可以把AI Studio看成國產版的Kaggle。
  • 十行代碼就能搞定深度學習?飛槳框架高層API,輕鬆玩轉AI
    機器之心發布機器之心編輯部嚮往深度學習技術,可是深度學習框架太難學怎麼辦?百度傾心打造飛槳框架高層 API,零基礎也能輕鬆上手深度學習,一起來看看吧?為了簡化深度學習的學習過程、降低深度學習的開發難度,百度飛槳框架歷經近一年的打磨,不斷地優化深度學習 API,並針對開發者的使用場景進行封裝,在飛槳框架的最新版本中,推出了高低融合、科學統一的飛槳全新 API 體系。飛槳框架將 API 分為兩種,基礎 API 和高層 API。
  • 曠視天元深度學習框架全球首發!3個實習生寫下一行代碼,27項全球AI...
    6年前3名實習生從第一行代碼寫起,艱難創業中在全球AI競賽斬獲27項冠軍,今日天元開源,敢與TensorFlow等全球主流深度學習框架爭雄。這個絕密武器又解決了開發者哪些痛點?「新智元急聘主筆、高級主任編輯,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情。」
  • 擬創業板掛牌上市,「數聚智連」完成洪泰基金領投的近億元Pre-IPO...
    因此,品牌方和平臺方對電商運營的要求也發生了很大的升級,需要代運營方提供更加整合的全鏈路服務,提高營銷效率。「數聚智連」通過其向上遊獲取用戶流量的營銷能力和同步布局新零售的新業態,滿足電商市場對全鏈條電商代運營模式的新需求。
  • 國產開源這一年,好生熱鬧
    企業可以圍繞開源框架構建技術人才團隊,研發新技術,打造業務生態閉環。隨著人工智慧技術的發展,開源深度學習框架,也為人工智慧產業快速上行提供了不可或缺的動力。一方面,框架開源為AI構建了一個開放共進的生態環境,加速AI應用落地;另一方面,它在解決行業實際問題時持續更新和迭代,為AI領域提供技術養料的同時,保持十足的創造力。
  • 迎來PyTorch,告別 Theano,2017 深度學習框架發展大盤點
    這使得開發者的深度學習模型能夠有「最大限度的內存效能」,訓練比從前更大的深度神經網絡。大量的通用「layers」已預定義,使編寫包含標準層級的簡單網絡變得十分容易。新的 Cognitive Toolkit 評估算法庫在易用性和性能上也得到大幅升級。此後,在 2.0 的多個 Beta 和 RC 版本中,微軟逐步更新了 CNTK 對 Python、C++、C#、Java 等的 API 支持,對 Keras 的後端支持等新功能。
  • 張亞勤:深度學習更近一步,如何突破香農、馮諾依曼和摩爾瓶頸?
    張亞勤表示,數位化的 3.0 時期已經到來,數位化的範圍已從內容、社交和企業服務領域向物理和生物世界進行延伸,將我們熟悉的城市、工廠、電網、家庭向智慧交通、工業網際網路、智慧醫療等方向進行升級,為了完成物理世界的「數位化」,數據需要更清晰地讓數字世界和現實世界一一對應,通過深度學習,計算機不斷加深著對於人類世界的認知。
  • 「人工智慧第一股」依圖科技衝刺科創板,按下國產晶片加速鍵
    11 月 4 日晚間,上交所官網顯示,依圖科技有限公司(下稱「依圖科技」)首次公開發行存託憑證並在科創板上市申請已獲受理。公司本次擬公開發行不超過 2.91 億份 CDR,擬募資金額 75 億元。主要用於新一代人工智慧 IP 及高性能 Soc 晶片項目、基於視覺推理的邊緣計算系統項目、新一代人工智慧計算系統項目、高階視覺智能計算平臺項目、新一代語音語義能力平臺項目、補充流動資金。投入金額佔募集資金總額的比例分別為 30.89、10.81%、14.27%、9.19%、5.02%、29.82%。
  • 用生物計算技術打造生命科學平臺,李彥宏牽頭創立「百圖生科」
    然而,這些技術所帶來的的海量數據和由此而來的挖掘、分析、匹配需求,也向生命科學行業的平臺和工具框架提出了巨大挑戰。原本配置已不能充分應對和利用新獲取的生物數據。為了解決生命科學領域的這些嶄新需求,9月25日,「百圖生科」正式成立,希望在急劇增長的生物數據時代,能為行業提供更好的生物地圖,幫助藥廠找到化合物,幫助醫生找到生物標誌物,幫助科研人員找到各種生物數據背後的意義。
  • 圖靈獎「擁抱」深度學習
    ACM 將本屆圖靈獎頒給了深度學習領域,並且讚譽三位獲獎人為「深度學習之父」。他們分別是:Yoshua Bengio,蒙特婁大學教授,人工智慧孵化器 Element AI 聯合創始人;Geoffrey Hinton,多倫多大學名譽教授,Google Brain 高級研究員;Yann LeCun,紐約大學教授,Facebook 首席 AI 科學家。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    >>查看詳情ai.baidu.com/tech/nlp_apply/address飛槳 PaddlePaddle 開源深度學習平臺、零門檻AI 開發平臺 EasyDL、AI 學習與實訓社區 AI Studio 發布多項升級。
  • 騰訊AI 王者「絕悟」升級了
    騰訊 AI 王者「絕悟」升級了 機器人大講堂 發表於 2020-12-02 10:29:06 AI 王者「絕悟」升級了,能達到精通金庸武俠裡所有武功的那種水平。
  • 學習PaddlePaddle(飛槳)是正確的選擇
    學習PaddlePaddle(飛槳)是正確的選擇深耕PaddlePaddle,非常高興和大家一起學習PaddlePaddle。為什麼要學習飛槳?在開始分享之前,我想先簡單聊聊——為什麼要學習飛槳。之所以說簡單聊聊,是我準備在學習飛槳滿一周年的時候再詳細分享一下(這裡算是做一個預告)。我們學習什麼總要有點目的。比如今年三十歲的我就想做一件讓自己覺得很酷的事,所以我學習了滑板,學習了滑板相關的知識,看了相關的影片等等。讓我得瑟一下。
  • 一口氣11項發布 一文看懂百度大腦的NLP布局
    8月25日,百度CTO王海峰在百度大腦語言與知識技術峰會上,首次對外全面完整的闡述了百度的NLP布局,還推出了一攬子11項新發布。百度集團副總裁吳甜給出了答案,她連續發布了語義理解技術與平臺文心、智能文檔分析平臺TextMind和AI同傳會議解決方案3大新品,同時發布了6項升級,包括智能創作平臺的3個場景方案、以及智能對話定製與服務平臺UNIT的3項全新升級。吳甜在講解中表示,我們希望讓語言與知識技術凝聚成一系列技術平臺和產品,在應用中產生大量價值。
  • 巨頭的恐懼、薛丁格的「馬斯克新冠」和新造車的「冷水」| 極客一周
    此前,市場監管總局已經密集公布了《經營者集中審查暫行規定》《規範促銷行為暫行規定》《關於加強網絡直播營銷活動監管的指導意見》等文件,加強對網際網路平臺的審查。都沒有「反壟斷意見稿」帶來的反響大。不久前螞蟻暫停上市的「警鐘」猶在耳畔,沒人敢掉以輕心。
  • 大變之年,唯「技術」可爭大國未來
    回顧2020,以AI、大數據、雲計算為主的前沿技術始終是社會發展與產業轉型的底層支持;展望2021,國家上層繼續加強科技強國的部署,前沿技術與經濟社會發展高度捆綁,成為新常態。十四五規劃明確指出,我國經濟正處於由高速增長轉向高質量發展的關鍵階段,從政策層面要「推動網際網路、大數據、人工智慧等同各產業深度融合,推動先進位造業集群發展」。
  • 《刀劍神域彼岸遊境》免費更新「遠古使徒」《貓咪大戰爭》發售|...
    |《刀劍神域彼岸遊境》 公開免費更新內容「遠古使徒」!臺灣萬代南夢宮娛樂今日宣布,PS4/Xbox One/STEAM版《刀劍神域彼岸遊境》繁體中文版即將推出收錄全新劇情的連續免費更新「遠古使徒」,並公開付費大型擴充DLC前篇的預告影片。
  • Win7停止更新怎麼升Win10 win7免費升級windows10教程
    Win7停止更新怎麼升Win10 win7免費升級windows10教程 1 月 14 日,微軟官方停止支持 Windows 7,這是其有史以來最強大的作業系統之一,但現在起 Windows 7