機器之心報導
作者:蛋醬、張倩
在 12 月 20 日舉行的「WAVE SUMMIT+ 2020 深度學習開發者峰會」上,飛槳平臺交出了一份非常亮眼的年終成績單。
2020 年,是不平凡的一年:這一年,人工智慧全面進入落地期,與各行業深度融合,也更加深刻地改變了人類社會。
數以千萬計的開發者,正扮演著越來越重要的角色。像百度飛槳這樣的產業級深度學習平臺,也為產業智能化貢獻著更多的力量。
本屆峰會,百度飛槳帶來八大全新發布與升級,有支持前沿技術探索和應用的生物計算平臺 PaddleHelix 螺旋槳,開發更加便捷的飛槳開源框架 2.0 RC 版,端雲協同的 AI 集成開發環境 BML CodeLab,支持更強大分布式訓練的業界首個通用異構參數伺服器架構,開源算法庫增至 200+,飛槳企業版 EasyDL 智能數據服務升級,飛槳硬體生態路線圖以及攜手全球開發者開啟「大航海」計劃。可見飛槳技術與生態發展的步調越來越快。
飛槳是一個開源的平臺,既受益於開源,也反過來促進了開源社區的發展。在談到開源開放的重要性時,百度 CTO 王海峰表示,「開源開放對人類社會過去幾百年科學和技術的發展起到非常重要的作用,讓我們可以更快追蹤到最新的技術進展,並將改進意見以及創新思想迅速進行反饋,形成一個正循環,進一步推動科技的創新迭代。當下,中國開源力量正在影響全球的科技創新。同時,在以深度學習為代表的人工智慧發展浪潮中,產業界已經成為驅動開源開放的重要力量。而成熟的開源開放技術生態與開放平臺,也正在推動社會各界加快融合發展。」
關於飛槳,王海峰分享了幾個重要的數字:從今年 5 月份的「WAVE SUMMIT 2020」深度學習開發者峰會到現在,飛槳平臺的開發者數量實現了大幅度的增長,達到了 265 萬。基於 34 萬多個模型,飛槳平臺已經服務了超過 10 萬家企業。
這是在飛槳平臺與開發者的共同努力下,短短半年內取得的卓越成績,且它的未來更加可期。
接下來,讓我們打開百度飛槳這份 2020 年度成績單。
飛槳的跨界:生物計算平臺「螺旋槳」發布
人工智慧是新一輪科技革命和產業變革的重要驅動力量,飛槳在這場時代變革中成為了承載體。作為 AI 開發的基礎設施,飛槳和人工智慧一起在向更多的行業、地域和領域發揮著價值。在人工智慧技術和生物計算領域的結合上,百度已經做出了一系列嘗試和探索。
在本次的 Wave Summit + 峰會上,百度正式發布了生物計算平臺「PaddleHelix 螺旋槳」。這個人工智慧和生物計算領域結合的平臺,是飛槳的一次「跨界」。
該平臺先期將開源螺旋槳生物計算開源工具集,提供包括 RNA 二級結構預測、大規模的分子預訓練、DTI 藥物靶點親和力預測以及 ADMET 成藥性預測等在內的新藥研發和疫苗設計環節的核心能力,幫助生物信息學、計算機交叉學科背景的學習者、研究者和合作夥伴,更便利地構建 AI 算法模型。
編程一致、動靜統一:飛槳開源框架迎來 2.0RC 版本
作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,飛槳一直在進行迅速地迭代。在本次的 Wave Summit + 峰會上,百度深度學習技術平臺部高級總監馬豔軍宣布:飛槳開源框架 2.0RC 版本正式發布。
經過兩年的研發,新版本能夠給開發者帶來「編程一致、動靜統一」的全新開發體驗。這一體驗的實現,離不開飛槳在以下幾個方向的重要創新和升級。
動態功能走向成熟,默認開發模式升級為動態圖模式
目前深度學習框架主要有聲明式編程和命令式編程兩種方式,對應靜態圖和動態圖兩種編程範式。靜態圖模式能夠對整體性做編譯優化,更有利於性能的提升,而動態圖則非常便於用戶對程序進行調試。
為了兼顧兩種編程範式的優勢,飛槳 2.0RC 將默認的開發模式正式升級為動態圖模式。開發者可以隨時查看變量的輸入、輸出,方便快捷地調試程序,還可以使用 Python 原生的控制流(如:if,for 等)靈活組網。
然而,動態圖的模型在使用 C++ 部署時會面臨巨大的挑戰。對此,新版飛槳提供了完備的動轉靜支持,在 Python 語法支持覆蓋度上達到領先水平。在動態圖編程調試的過程中,開發者僅需添加一個小小的裝飾器,就可以無縫平滑地自動轉靜態圖訓練部署。同時,2.0RC 版本的飛槳還做到了模型存儲和加載的接口統一,保證動轉靜之後保存的模型文件能夠被純動態圖加載和使用。
全新升級的 API 體系
如果說深度學習框架是開發者們在 AI 海洋中乘風破浪的動力引擎,那麼 API 就是這個引擎的控制面板上的按鈕,是深度學習框架威力發揮的直接入口。飛槳開源框架 2.0RC 版本升級了整個 API 體系,使其更加簡潔、系統,還能向前兼容。
在開發過程中,開發者往往需要以一種更加簡單、快捷的方式應用 API,完成數據增強、建立數據流水線等可以標準化的工作流程。針對這個需求,新版飛槳提供了更適合低代碼編程的高層 API,允許開發者用 10 行代碼編寫完成訓練部分的程序。而且,這些高層 API 和基礎 API 可以靈活地交叉使用,讓開發者在簡捷開發與精細化調優之間自由定製,改變了很多開源框架高層 API 和基礎 API 割裂的局面。
說到這裡,很多開發者可能會問,這個新的 API 體系遷移成本高不高?馬豔軍在會場強調,「我們是完全向前兼容的」。此外,飛槳還提供了專門的遷移工具和新舊版本的 API 對照表,以降低開發者的遷移成本。
更好地支持深度概率編程等前沿學術研究
飛槳 2.0RC「編程一致,動靜統一」的編程體驗對深度概率編程、量子機器學習開發等前沿技術研究也有巨大的支撐作用。
此次大會上,清華大學計算機系教授、深度學習技術及應用國家工程實驗室副主任朱軍介紹了珠算深度概率編程與百度飛槳的合作,依託飛槳框架成熟的底層功能和動靜統一的開發體驗,更好地支持深度概率編程工具開發和前沿技術探索。
在設計上,珠算底層復用了飛槳框架的核心能力,實現了動態圖編程。它還基於飛槳的全新 API 體系實現了進一步的豐富和擴展,增加了 BayesianNet、StochasticTensor 等特色組件,豐富了底層概率庫,讓開發者能夠輕鬆地完成深度生成模型建模、變分推斷、蒙特卡洛採樣等應用,有力支持了深度概率編程領域的研究與探索。
在量子機器學習開發方面,飛槳框架新增了對複數計算方面的支持,成倍地提升了複數運算的效率,基礎複數運算速度最高可提升 22.3 倍。此外,飛槳還優化了複數 Tensor 運算的寫法,簡化了使用量槳開發模型的代碼實現規模,助力量槳進一步提升了性能和易用性。
業內首個通用異構參數伺服器架構
伴隨著 2.0RC 版本的發布,飛槳還宣布了大規模分布式訓練的升級,正式推出業內首個通用異構參數伺服器架構。
在搜索推薦領域,模型通常具有大規模稀疏特徵,訓練時是一個 IO 密集型任務。這種任務適合用 CPU 搭建的參數伺服器架構來完成。但為了追求更好的效果,開發者通常需要在推薦模型中增加越來越多的複雜網絡結構,使得訓練算力成為瓶頸。
算力不夠,加 GPU 行不行?首先,傳統伺服器架構往往要求硬體類型一致,無法加入算力較強的 GPU 等硬體。其次,GPU 等硬體不擅長 IO 密集型任務,因此我們也不能用 GPU 完全取代原來的硬體。
在這種背景下,飛槳推出了首個異構伺服器訓練架構,實現了異構硬體的自由混布,能夠實現數據的獨立存取傳輸,大幅提高了數據吞吐量。此外,它還通過流水線機制提高了訓練速度,通過多種通信策略提高了帶寬的利用率。
測試結果表明,在相同的硬體條件下,飛槳的異構參數伺服器架構比單純的非異構參數伺服器架構性能提升了 65% 以上。
開源算法庫全面升級
開源算法庫的升級也是新版飛槳的一個重大更新。新版飛槳官方支持的算法從 140+個擴充到 200 + 個,涉及各個領域,而且都升級到了動態圖實現。
飛槳企業版兩大新特性發布
除了以上發布的全新內容外,飛槳企業版還迎來了兩大新特性的發布。
全新 AI 集成開發環境 BML CodeLab
很多 AI 開發者都遇到過「想做模型訓練,本地機器資源不夠用」、「租雲伺服器好貴,機型少不穩定」等問題。基於開發者的痛點,百度飛槳企業版推出了全新的端雲協同 AI 集成開發環境——BML CodeLab。
BML CodeLab 在基於 JupyterLab 優秀功能的基礎上,引入了微軟 Monaco Editor-VSCode 的編碼體驗,支持任何程式語言的代碼補全、用法提示、多光標等 IDE 功能,實現了 50 多個體驗優化項。
為了達到開箱即用的效果,BML CodeLab 集成了許多高性能的 AI 工具組件,比如高性能單機引擎,相比開源 Pandas/Sklearn 加速性能平均高 6 倍以上;還有飛槳文心 (ERINE)NLP 開發套件,將數據標註、算力投入、開發時長等成本大幅降低。
另一個非常有特色的功能是端雲協同。BML CodeLab 可通過雲端倉庫把本地的代碼、數據、模型上傳到雲端,在大數據量和大計算量的情況下,將本地任務無縫擴展到雲端。
智能數據服務平臺 EasyData
隨後,百度 AI 平臺研發部總監忻舟介紹了智能數據服務 EasyData 的升級。
在智能數據標註方面,EasyData 通過核心算法、算法流程、硬體的升級,將智能標註的時長平均減少了 74%,在物體檢測和圖像分割上的準確率分別提升了 6.4 和 3.2 個點。
EasyData 的多人標註功能能夠解決數據分發、標註結構審核等問題,將數據集和標籤管理進行了拆分,讓開發者更加靈活地使用數據。
第三個新特性是高級智能清洗,可自動過濾無人臉、無人體的數據,廣泛應用於安全生產、視頻監控等場景。
此外,飛槳的生態建設離不開廣大的生態夥伴。為了加快生態建設,飛槳在 5 月份發布了硬體生態圈共建計劃。在半年之後的今天,馬豔軍宣布:飛槳硬體生態路線圖正式發布。
從圖中可以看出,整個飛槳已經與 20 家硬體企業達成合作,目前正在適配和已經完成適配的晶片和 IP 的型號已經有 29 種,並且在國產硬體的支持方面遙遙領先,加速了國產 AI 產業鏈適配升級。
產業共進、人才共育、開源共建:AI 大咖共話未來發展
開源以來,飛槳一直秉持開源開放、技術創新,產學研用通力融合,從產業應用、人才培養、開源社區三個維度全面推進生態繁榮,助力產業智能化升級。在本次的 Wave Summit + 大會中,多位大咖圍繞「產業共進」、「人才共育」、「開源共建」探討了深度學習的未來發展問題。
在「產業共進」環節,寧德時代智能製造部部長張偉和崑崙數智科技有限公司人工智慧與物聯網技術總監衛乾分享了應用經驗,並與其他十個項目一起獲得了「飛槳產業應用創新獎」。
在「人才共育」環節,百度研究院大數據實驗室和商業智能實驗室主任竇德景主持了一場圓桌論壇,邀請北京大學信息科學技術學院教授黃鐵軍、北京航空航天大學計算機學院教授王蘊紅、中國人民大學信息學院院長文繼榮分享他們在 AI 人才培養方面的經驗和見解。深度學習領域頗受歡迎的「精靈寶可夢大師」李宏毅作為首批入駐 AI Studio 的名師,也加入現場連線與大家分享了如何「如何高效掌握深度學習」這一話題。
在「開源共建」環節的圓桌論壇上,百度飛槳總架構師於佃海邀請了復旦大學計算機科學技術學院教授邱錫鵬、北京大學信息科學與技術學院前沿計算研究中心助理教授董豪、PreAngel 合伙人李卓桓、Zilliz 創始人兼執行長星爵等人共同探討了 AI 開源項目的創建與維護經驗。
從左到右:於佃海、董豪、邱錫鵬、星爵、李卓桓
如何打造一個成功的 AI 開源項目?嘉賓們認為,首先要保證實現「生態」和「技術」兩個閉環,做開源項目和創業十分相似,找到一個好的「選題」是重中之重,而項目成員的多樣性,能夠促使項目後期去探索無限的可能性,此外還需要一群優質的、多元化的開發貢獻者。
開源開放的飛槳促進了 AI 產學研社區的發展壯大。其實,這不僅是我們的主觀感受,還體現在飛槳平臺的一些數據中。在大會上,百度集團副總裁吳甜為我們解讀了其中的一些數據。
在產業方面,飛槳平臺上的應用品類明顯增加,非網際網路 IT 行業佔比從 53.4% 增長至 67.9%;在社區方面,全國開發者 AI 熱情升溫,過去一年增速 TOP5 城市分別是佛山、東莞、重慶、福州和天津;在教學方面,越來越多的高校老師開始關注 AI 課程,非計算機專業高校教師佔比從 2019 年的 35% 增長到 2020 年的 45%。
當然,AI 社區的持續壯大離不開人才培養。而在這方面,基於在產品、技術、生態各個方面的積累,飛槳已經準備就續,準備全面開啟大航海計劃。
大航海計劃包括領航、啟航和護航三個部分,領航計劃面向核心開發者群體,踐行開源布局理念,永當 AI 時代的先行者,領航前行。護航計劃面向產業界,通過企業培訓、技術諮詢、技術服務等方式護航企業智能化轉型,啟航計劃面向人才培養,通過校企合作、產教融合開啟 AI 人才培養的新篇章。在本次峰會上,飛槳正式發布了啟航計劃,預計在未來三年投入總價值 5 億元的資金與資源,支持全國 500 所高校,聯合培養 50 萬關鍵 AI 人才。
在峰會上,百度、LF AI&DATA 基金會、深度學習技術及應用國家工程實驗室也聯合為 97 位飛槳社區核心開發者頒發了「PPDE 飛槳開發者技術專家」證書,作為對開源開放工作的鼓勵與支持。
百度副總裁徐菁現場為AI瀕危物種保護項目、AI 文物保護項目、AI 沙漠栽樹機器人項目三支團隊頒發了 2020 年度 AI 公益合作項目證書並授予星辰計劃基金。
左上:王愛華、吳甜為產業應用獎獲獎項目頒獎、右上:徐菁頒發星辰計劃基金;左下 & 右下:張偉民、朱軍為飛槳技術開發者技術專家頒發證書
時隔半年,人們再次見證了百度飛槳在開源開放之路上的巨大進步。驅動這種核心力量的正是每一位飛槳平臺的開發者,265 萬飛槳開發者的每一步,都將推動中國人工智慧領域走向全新的方向。