重磅發布開源框架、生物計算平臺螺旋槳,百度飛槳交了年終成績單

2020-12-23 機器之心Pro

機器之心報導

作者:蛋醬、張倩

在 12 月 20 日舉行的「WAVE SUMMIT+ 2020 深度學習開發者峰會」上,飛槳平臺交出了一份非常亮眼的年終成績單。

2020 年,是不平凡的一年:這一年,人工智慧全面進入落地期,與各行業深度融合,也更加深刻地改變了人類社會。

數以千萬計的開發者,正扮演著越來越重要的角色。像百度飛槳這樣的產業級深度學習平臺,也為產業智能化貢獻著更多的力量。

本屆峰會,百度飛槳帶來八大全新發布與升級,有支持前沿技術探索和應用的生物計算平臺 PaddleHelix 螺旋槳,開發更加便捷的飛槳開源框架 2.0 RC 版,端雲協同的 AI 集成開發環境 BML CodeLab,支持更強大分布式訓練的業界首個通用異構參數伺服器架構,開源算法庫增至 200+,飛槳企業版 EasyDL 智能數據服務升級,飛槳硬體生態路線圖以及攜手全球開發者開啟「大航海」計劃。可見飛槳技術與生態發展的步調越來越快

飛槳是一個開源的平臺,既受益於開源,也反過來促進了開源社區的發展。在談到開源開放的重要性時,百度 CTO 王海峰表示,「開源開放對人類社會過去幾百年科學和技術的發展起到非常重要的作用,讓我們可以更快追蹤到最新的技術進展,並將改進意見以及創新思想迅速進行反饋,形成一個正循環,進一步推動科技的創新迭代。當下,中國開源力量正在影響全球的科技創新。同時,在以深度學習為代表的人工智慧發展浪潮中,產業界已經成為驅動開源開放的重要力量。而成熟的開源開放技術生態與開放平臺,也正在推動社會各界加快融合發展。」

關於飛槳,王海峰分享了幾個重要的數字:從今年 5 月份的「WAVE SUMMIT 2020」深度學習開發者峰會到現在,飛槳平臺的開發者數量實現了大幅度的增長,達到了 265 萬。基於 34 萬多個模型,飛槳平臺已經服務了超過 10 萬家企業。

這是在飛槳平臺與開發者的共同努力下,短短半年內取得的卓越成績,且它的未來更加可期。

接下來,讓我們打開百度飛槳這份 2020 年度成績單。

飛槳的跨界:生物計算平臺「螺旋槳」發布

人工智慧是新一輪科技革命和產業變革的重要驅動力量,飛槳在這場時代變革中成為了承載體。作為 AI 開發的基礎設施,飛槳和人工智慧一起在向更多的行業、地域和領域發揮著價值。在人工智慧技術和生物計算領域的結合上,百度已經做出了一系列嘗試和探索。

在本次的 Wave Summit + 峰會上,百度正式發布了生物計算平臺「PaddleHelix 螺旋槳」。這個人工智慧和生物計算領域結合的平臺,是飛槳的一次「跨界」。

該平臺先期將開源螺旋槳生物計算開源工具集,提供包括 RNA 二級結構預測、大規模的分子預訓練、DTI 藥物靶點親和力預測以及 ADMET 成藥性預測等在內的新藥研發和疫苗設計環節的核心能力,幫助生物信息學、計算機交叉學科背景的學習者、研究者和合作夥伴,更便利地構建 AI 算法模型。

編程一致、動靜統一:飛槳開源框架迎來 2.0RC 版本

作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,飛槳一直在進行迅速地迭代。在本次的 Wave Summit + 峰會上,百度深度學習技術平臺部高級總監馬豔軍宣布:飛槳開源框架 2.0RC 版本正式發布

經過兩年的研發,新版本能夠給開發者帶來「編程一致、動靜統一」的全新開發體驗。這一體驗的實現,離不開飛槳在以下幾個方向的重要創新和升級。

動態功能走向成熟,默認開發模式升級為動態圖模式

目前深度學習框架主要有聲明式編程和命令式編程兩種方式,對應靜態圖和動態圖兩種編程範式。靜態圖模式能夠對整體性做編譯優化,更有利於性能的提升,而動態圖則非常便於用戶對程序進行調試。

為了兼顧兩種編程範式的優勢,飛槳 2.0RC 將默認的開發模式正式升級為動態圖模式。開發者可以隨時查看變量的輸入、輸出,方便快捷地調試程序,還可以使用 Python 原生的控制流(如:if,for 等)靈活組網。

然而,動態圖的模型在使用 C++ 部署時會面臨巨大的挑戰。對此,新版飛槳提供了完備的動轉靜支持,在 Python 語法支持覆蓋度上達到領先水平。在動態圖編程調試的過程中,開發者僅需添加一個小小的裝飾器,就可以無縫平滑地自動轉靜態圖訓練部署。同時,2.0RC 版本的飛槳還做到了模型存儲和加載的接口統一,保證動轉靜之後保存的模型文件能夠被純動態圖加載和使用。

全新升級的 API 體系

如果說深度學習框架是開發者們在 AI 海洋中乘風破浪的動力引擎,那麼 API 就是這個引擎的控制面板上的按鈕,是深度學習框架威力發揮的直接入口。飛槳開源框架 2.0RC 版本升級了整個 API 體系,使其更加簡潔、系統,還能向前兼容。

在開發過程中,開發者往往需要以一種更加簡單、快捷的方式應用 API,完成數據增強、建立數據流水線等可以標準化的工作流程。針對這個需求,新版飛槳提供了更適合低代碼編程的高層 API,允許開發者用 10 行代碼編寫完成訓練部分的程序。而且,這些高層 API 和基礎 API 可以靈活地交叉使用,讓開發者在簡捷開發與精細化調優之間自由定製,改變了很多開源框架高層 API 和基礎 API 割裂的局面。

說到這裡,很多開發者可能會問,這個新的 API 體系遷移成本高不高?馬豔軍在會場強調,「我們是完全向前兼容的」。此外,飛槳還提供了專門的遷移工具和新舊版本的 API 對照表,以降低開發者的遷移成本。

更好地支持深度概率編程等前沿學術研究

飛槳 2.0RC「編程一致,動靜統一」的編程體驗對深度概率編程、量子機器學習開發等前沿技術研究也有巨大的支撐作用。

此次大會上,清華大學計算機系教授、深度學習技術及應用國家工程實驗室副主任朱軍介紹了珠算深度概率編程與百度飛槳的合作,依託飛槳框架成熟的底層功能和動靜統一的開發體驗,更好地支持深度概率編程工具開發和前沿技術探索。

在設計上,珠算底層復用了飛槳框架的核心能力,實現了動態圖編程。它還基於飛槳的全新 API 體系實現了進一步的豐富和擴展,增加了 BayesianNet、StochasticTensor 等特色組件,豐富了底層概率庫,讓開發者能夠輕鬆地完成深度生成模型建模、變分推斷、蒙特卡洛採樣等應用,有力支持了深度概率編程領域的研究與探索。

量子機器學習開發方面,飛槳框架新增了對複數計算方面的支持,成倍地提升了複數運算的效率,基礎複數運算速度最高可提升 22.3 倍。此外,飛槳還優化了複數 Tensor 運算的寫法,簡化了使用量槳開發模型的代碼實現規模,助力量槳進一步提升了性能和易用性。

業內首個通用異構參數伺服器架構

伴隨著 2.0RC 版本的發布,飛槳還宣布了大規模分布式訓練的升級,正式推出業內首個通用異構參數伺服器架構

在搜索推薦領域,模型通常具有大規模稀疏特徵,訓練時是一個 IO 密集型任務。這種任務適合用 CPU 搭建的參數伺服器架構來完成。但為了追求更好的效果,開發者通常需要在推薦模型中增加越來越多的複雜網絡結構,使得訓練算力成為瓶頸。

算力不夠,加 GPU 行不行?首先,傳統伺服器架構往往要求硬體類型一致,無法加入算力較強的 GPU 等硬體。其次,GPU 等硬體不擅長 IO 密集型任務,因此我們也不能用 GPU 完全取代原來的硬體。

在這種背景下,飛槳推出了首個異構伺服器訓練架構,實現了異構硬體的自由混布,能夠實現數據的獨立存取傳輸,大幅提高了數據吞吐量。此外,它還通過流水線機制提高了訓練速度,通過多種通信策略提高了帶寬的利用率。

測試結果表明,在相同的硬體條件下,飛槳的異構參數伺服器架構比單純的非異構參數伺服器架構性能提升了 65% 以上

開源算法庫全面升級

開源算法庫的升級也是新版飛槳的一個重大更新。新版飛槳官方支持的算法從 140+個擴充到 200 + 個,涉及各個領域,而且都升級到了動態圖實現。

飛槳企業版兩大新特性發布

除了以上發布的全新內容外,飛槳企業版還迎來了兩大新特性的發布。

全新 AI 集成開發環境 BML CodeLab

很多 AI 開發者都遇到過「想做模型訓練,本地機器資源不夠用」、「租雲伺服器好貴,機型少不穩定」等問題。基於開發者的痛點,百度飛槳企業版推出了全新的端雲協同 AI 集成開發環境——BML CodeLab。

BML CodeLab 在基於 JupyterLab 優秀功能的基礎上,引入了微軟 Monaco Editor-VSCode 的編碼體驗,支持任何程式語言的代碼補全、用法提示、多光標等 IDE 功能,實現了 50 多個體驗優化項。

為了達到開箱即用的效果,BML CodeLab 集成了許多高性能的 AI 工具組件,比如高性能單機引擎,相比開源 Pandas/Sklearn 加速性能平均高 6 倍以上;還有飛槳文心 (ERINE)NLP 開發套件,將數據標註、算力投入、開發時長等成本大幅降低。

另一個非常有特色的功能是端雲協同。BML CodeLab 可通過雲端倉庫把本地的代碼、數據、模型上傳到雲端,在大數據量和大計算量的情況下,將本地任務無縫擴展到雲端。

智能數據服務平臺 EasyData

隨後,百度 AI 平臺研發部總監忻舟介紹了智能數據服務 EasyData 的升級。

在智能數據標註方面,EasyData 通過核心算法、算法流程、硬體的升級,將智能標註的時長平均減少了 74%,在物體檢測和圖像分割上的準確率分別提升了 6.4 和 3.2 個點。

EasyData 的多人標註功能能夠解決數據分發、標註結構審核等問題,將數據集和標籤管理進行了拆分,讓開發者更加靈活地使用數據。

第三個新特性是高級智能清洗,可自動過濾無人臉、無人體的數據,廣泛應用於安全生產、視頻監控等場景。

此外,飛槳的生態建設離不開廣大的生態夥伴。為了加快生態建設,飛槳在 5 月份發布了硬體生態圈共建計劃。在半年之後的今天,馬豔軍宣布:飛槳硬體生態路線圖正式發布

從圖中可以看出,整個飛槳已經與 20 家硬體企業達成合作,目前正在適配和已經完成適配的晶片和 IP 的型號已經有 29 種,並且在國產硬體的支持方面遙遙領先,加速了國產 AI 產業鏈適配升級。

產業共進、人才共育、開源共建:AI 大咖共話未來發展

開源以來,飛槳一直秉持開源開放、技術創新,產學研用通力融合,從產業應用、人才培養、開源社區三個維度全面推進生態繁榮,助力產業智能化升級。在本次的 Wave Summit + 大會中,多位大咖圍繞「產業共進」、「人才共育」、「開源共建」探討了深度學習的未來發展問題。

在「產業共進」環節,寧德時代智能製造部部長張偉和崑崙數智科技有限公司人工智慧與物聯網技術總監衛乾分享了應用經驗,並與其他十個項目一起獲得了「飛槳產業應用創新獎」。

在「人才共育」環節,百度研究院大數據實驗室和商業智能實驗室主任竇德景主持了一場圓桌論壇,邀請北京大學信息科學技術學院教授黃鐵軍、北京航空航天大學計算機學院教授王蘊紅、中國人民大學信息學院院長文繼榮分享他們在 AI 人才培養方面的經驗和見解。深度學習領域頗受歡迎的「精靈寶可夢大師」李宏毅作為首批入駐 AI Studio 的名師,也加入現場連線與大家分享了如何「如何高效掌握深度學習」這一話題。

在「開源共建」環節的圓桌論壇上,百度飛槳總架構師於佃海邀請了復旦大學計算機科學技術學院教授邱錫鵬、北京大學信息科學與技術學院前沿計算研究中心助理教授董豪、PreAngel 合伙人李卓桓、Zilliz 創始人兼執行長星爵等人共同探討了 AI 開源項目的創建與維護經驗。

從左到右:於佃海、董豪、邱錫鵬、星爵、李卓桓

如何打造一個成功的 AI 開源項目?嘉賓們認為,首先要保證實現「生態」和「技術」兩個閉環,做開源項目和創業十分相似,找到一個好的「選題」是重中之重,而項目成員的多樣性,能夠促使項目後期去探索無限的可能性,此外還需要一群優質的、多元化的開發貢獻者。

開源開放的飛槳促進了 AI 產學研社區的發展壯大。其實,這不僅是我們的主觀感受,還體現在飛槳平臺的一些數據中。在大會上,百度集團副總裁吳甜為我們解讀了其中的一些數據。

在產業方面,飛槳平臺上的應用品類明顯增加,非網際網路 IT 行業佔比從 53.4% 增長至 67.9%;在社區方面,全國開發者 AI 熱情升溫,過去一年增速 TOP5 城市分別是佛山、東莞、重慶、福州和天津;在教學方面,越來越多的高校老師開始關注 AI 課程,非計算機專業高校教師佔比從 2019 年的 35% 增長到 2020 年的 45%。

當然,AI 社區的持續壯大離不開人才培養。而在這方面,基於在產品、技術、生態各個方面的積累,飛槳已經準備就續,準備全面開啟大航海計劃。

大航海計劃包括領航、啟航和護航三個部分,領航計劃面向核心開發者群體,踐行開源布局理念,永當 AI 時代的先行者,領航前行。護航計劃面向產業界,通過企業培訓、技術諮詢、技術服務等方式護航企業智能化轉型,啟航計劃面向人才培養,通過校企合作、產教融合開啟 AI 人才培養的新篇章。在本次峰會上,飛槳正式發布了啟航計劃,預計在未來三年投入總價值 5 億元的資金與資源,支持全國 500 所高校,聯合培養 50 萬關鍵 AI 人才。

在峰會上,百度、LF AI&DATA 基金會、深度學習技術及應用國家工程實驗室也聯合為 97 位飛槳社區核心開發者頒發了「PPDE 飛槳開發者技術專家」證書,作為對開源開放工作的鼓勵與支持。

百度副總裁徐菁現場為AI瀕危物種保護項目、AI 文物保護項目、AI 沙漠栽樹機器人項目三支團隊頒發了 2020 年度 AI 公益合作項目證書並授予星辰計劃基金。

左上:王愛華、吳甜為產業應用獎獲獎項目頒獎、右上:徐菁頒發星辰計劃基金;左下 & 右下:張偉民、朱軍為飛槳技術開發者技術專家頒發證書

時隔半年,人們再次見證了百度飛槳在開源開放之路上的巨大進步。驅動這種核心力量的正是每一位飛槳平臺的開發者,265 萬飛槳開發者的每一步,都將推動中國人工智慧領域走向全新的方向。

相關焦點

  • 百度飛槳秀出最新成績單,產業應用、人才培養、開源生態全面繁榮
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVE SUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • 一文速覽百度飛槳八大全新發布與升級 | WAVE SUMMIT+2020
    據此前報導,在今年5月的WAVE SUMMIT+峰會上,百度飛槳發布35項全面升級以及飛槳全景圖,當時平臺開發者數量、模型數量、服務企業數量分別為190萬、23萬和8.4萬,對比目前來看,飛槳的技術與生態發展顯然正在提速。接下來,我們來逐一揭秘飛槳的最新升級成果。
  • 百度飛槳推出開源框架V2.0RC版本,帶來「編程一致、動靜統一」全新...
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVE SUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • 一文速覽百度飛漿八大全新發布與升級 | WAVE SUMMIT2020
    有支持前沿技術探索和應用的生物計算平臺 PaddleHelix 螺旋槳,開發更加便捷的飛槳開源框架 2.0 RC 版,端雲協同的 AI 集成開發環境 BML CodeLab,支持更強大分布式訓練的業界首個通用異構參數伺服器架構
  • 百度飛槳全新發布「大航海」計劃,5億資源重磅加碼高校人才培養
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVESUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • 硬核AI開發者大會來襲:飛槳發布2.0 RC版,李宏毅老師課程上線
    因為飛槳的開源開放,參與到其中的開發者也越來越壯大,百度透露,飛槳平臺迄今為止凝聚了265萬開發者,服務了10萬+企業,創造了34萬+個模型。而在今年5月的WAVE SUMMIT深度學習開發者峰會上,飛槳的開發者數量還是190多萬,這半年來可謂進步神速。越來越多的開發者加入飛槳,飛槳的技能也在開源社區的幫助下不斷前進。昨天,百度又為飛槳帶來了多項重磅升級更新。
  • 百度開源2020:二十個技術領域持續開源 飛槳、阿波羅成行業領先者...
    一、20個技術領域持續開源  截止2020年底,在GitHub/Gitee百度官方組織下已經圍繞著安全、監控、知識圖譜、網絡與接入、視覺、量子計算、開發框架等20個技術領域開源了86個項目,其中自然語言處理、開發框架與前端領域的開源項目數佔比超過50%。
  • Wave Summit+2020峰會 百度吳甜:讓開發者基於飛槳更好地創新造物
    百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜這樣總結道。12 月 20 日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的 WAVE SUMMIT+2020 深度學習開發者峰會在北京舉行。吳甜從開發生態、產業應用、人才培養方面分享飛槳最新的發展成果及洞察,並全新發布了基於飛槳的 PaddleHelix 螺旋槳生物計算平臺。
  • WAVE SUMMIT+2020深度學習開發者峰會召開,飛槳開源生態繁榮成勢
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVESUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • 百度開源2020年度報告:兩大開源平臺、九個捐贈項目
    一、20個技術領域持續開源截止2020年底,在GitHub/Gitee百度官方組織下已經圍繞著安全、監控、知識圖譜、網絡與接入、視覺、量子計算、開發框架等20個技術領域開源了86個項目,其中自然語言處理、開發框架與前端領域的開源項目數佔比超過50%。
  • AI的星辰與大海,百度的理性和感性
    有支持前沿技術探索和應用的生物計算平臺PaddleHelix螺旋槳,開發更加便捷的飛槳開源框架2.0 RC版,端雲協同的AI集成開發環境BML CodeLab,支持更強大分布式訓練的業界首個通用異構參數伺服器架構,開源算法庫增至200+等。除了產品、技術迭代之外,此次大會最引人注目的是飛槳公布了全新的「大航海計劃」。
  • 從技術突圍到生態繁榮 飛槳「硬核」構建AI時代話語權
    今年11月進行的IDC中國智能開發者調研中,有超7成受訪者使用開源的深度學習框架,自己訓練算法模型;在用戶認知度方面,TensorFlow、Caffe2/Pytorch、飛槳(PaddlePadlle)穩居前三,飛槳在去年的基礎上,繼續延續著明顯的增長趨勢。在機器學習平臺方面,百度EasyDL佔比強勁增長,再度登上市場份額首位。
  • 駛向智能時代的星辰大海,百度AI這一年
    有支持前沿技術探索和應用的生物計算平臺PaddleHelix螺旋槳,開發更加便捷的飛槳開源框架2.0 RC版,端雲協同的AI集成開發環境BML CodeLab,支持更強大分布式訓練的業界首個通用異構參數伺服器架構,開源算法庫增至200+等。除了產品、技術迭代之外,此次大會最引人注目的是飛槳公布了全新的「大航海計劃」。
  • 百度開源進行時
    百度從布局 AI 開始,就一直堅持開放的戰略,在研發 AI 技術的同時,通過百度大腦 AI 開放平臺、飛槳產業級深度學習開源開放平臺、Apollo 自動駕駛開放平臺、小度開放平臺以及各類開源框架和數據集等,向廣大開發者和企業用戶開放 AI 能力,提供技術和解決方案,賦能各行各業轉型升級。
  • 產業智能化升級浪潮洶湧,百度飛槳劃時代
    百度首席技術官王海峰在12月20日召開的「WAVE SUMMIT+2020」深度學習開發者峰會上演講時表示,「開源開放的精神內涵,已不僅是技術開發領域的協作機制,更是驅動技術創新和加速產業發展的核心動能」。被稱為AI時代作業系統和百度AI底座的開源深度學習平臺飛槳也帶來了八大全新發布與升級。
  • IDC公布中國深度學習市場綜合份額:百度超越Facebook位列第二
    在今年11月進行的IDC中國智能開發者調研中,超7成受訪者使用開源的深度學習框架,自己訓練算法模型;在用戶認知度方面,TensorFlow、Caffe2/Pytorch、飛槳(PaddlePadlle)穩居前三,飛槳增長趨勢明顯。在機器學習平臺方面,百度EasyDL的用戶認知度最高,也是受訪者使用頻率最高的平臺。
  • 「開源」江湖前景廣闊,百度一馬當先推動人工智慧共同發展進步
    近日,權威科技媒體通過分析GitHub上的開源項目數據集GitHubArchive,得出2020和2019年度全球深度學習框架排名榜單,其中,百度飛槳PaddlePaddle均力壓谷歌TensorFlow,緊隨Facebook PyTorch之後,其搶眼的數據表現意味著在開發者積極貢獻代碼和項目、社區活躍、代碼迭代速度上一直保持著強勁的競爭力,已經成為了國內第一、世界第二的深度學習開源框架
  • 2020啟智開發者大會開幕 百度飛槳正式發布「OpenI-星辰PPSIG共建...
    百度牽頭的"OpenI-飛槳",正式發布了"OpenI-星辰PPSIG共建計劃",號召全球有志於生物計算、量子計算、貝葉斯概率網絡等十大前沿領域奮勇探索的開發者攜手創新。此外,大會還公布了《"啟智社區優秀開發者激勵計劃-啟夢行動"》評選結果,百度啟智飛槳項目成為了首批"啟智社區優秀開源項目"之一,飛槳PaddleHub SIG小組也被評為"啟智社區優秀開發者"。 人人心中都有一個開源夢,飛槳社區開發者張弘基僅憑興趣驅動,不斷輸出專業觀點為開發者答疑解惑,並在飛槳社區持續發揮著旗幟性作用,獲評首批"啟智社區優秀開發者突出貢獻獎"。
  • 深度學習開發者的情人節520,飛槳將帶來哪些大消息
    這也是繼2019年春秋兩場WAVE SUMMIT深度學習開發者峰會後,飛槳引領深度學習技術發展,分享產業實踐落地、人才生態建設最新成果的開發者盛會。峰會定檔5.20的消息一經發布,便引起廣大開發者的極大關注。據官網信息,峰會主論壇於上午十點開始。百度首席技術官、深度學習技術及應用國家工程實驗室主任王海峰將做開場致辭。