10月20日-22日,第六屆世界網際網路大會在中國烏鎮召開。在此次大會的重頭戲「世界網際網路領先科技成果」發布活動上,人工智慧獨角獸曠視發布了名為Brain++的人工智慧算法平臺。據曠視聯合創始人兼首席技術官唐文斌介紹,Brain++是「一套端到端的AI算法平臺,目標是讓研發人員獲得從數據到算法產業化的一攬子技術能力,不用重複造輪子也可以推進AI快速落地。我們的Brain++還引入了AutoML技術,可以讓算法來訓練算法,讓AI來創造AI。」
如果說算法模型是果實,那麼開發它的環境和框架就是培育果樹的土壤。儘管平時在開發中,框架和底層環境沒有那麼引人矚目,但沒有這些底層技術的支持,優秀的思路和創意也就無從實現。當前,深度學習社區基本被 TensorFlow 和 PyTorch 兩大框架壟斷。開源框架固然具有很高的人氣和易用性,但是在國際環境變幻莫測的大背景下,依賴這些框架是否足夠保險呢?同時,如果企業有新的想法和業務需求,開源框架能否完美實現?是否能夠無縫嵌入業務之中?這些都是 AI 企業需要思考的問題。
為此曠視從 2014 年開始自研深度學習框架,到現如今構建了一整套圍繞 AI開發的整體系統。很多人會誤以為這僅僅只是曠視的一個深度學習框架,或者是企業內部開發的雲計算平臺。而事實上,Brain++ 在曠視內部已成為了支撐算法研究和開發的整體基礎底層平臺。
Brain++ 涵蓋了深度學習算法開發的整個流程
具體而言,Brain++涵蓋了深度學習算法開發的所有環節。從數據的獲取、清洗、預處理、標註和存儲開始,到研究人員設計算法架構、設計實驗環節、搭建訓練環境、訓練、加速、調參、模型效果評估和產生模型,到最終的模型分發和部署應用,Brain++為曠視的研發人員提供了一站式全流程的 AI 工程解決方案。
總體架構上,Brain++可以大體分為三部分,包括作為主體的深度學習算法開發框架MegEngine、提供算力支持的MegCompute、以及用於提供數據服務和支持的MegData。
Brain++人工智慧算法平臺在曠視內部被全體員工使用。曠視在2017年拿下3項COCO冠軍,2018年拿下4項COCO冠軍,以及今年發布了全新的通用物體檢測數據集Objects365,都與Brain++的功勞密不可分。
MegEngine:極致性能
MegEngine的整體架構
MegEngine是基於計算圖像的深度學習框架,相比於開源的大部分深度學習框架,MegEngine具有以下優勢:
運算速度快:MegEngine擁有動態、靜態結合的內存優化機制,因此速度比 TensorFlow 更快;
內存佔用少:通過分析整個執行方案的內存使用情況,MegEngine充分優化內存,特別是亞線性內存優化,可以支持複雜的網絡結構,自動利用部分冗餘計算縮減內存佔用,可達兩個數量級,從而支持更大規模的模型訓練;
易用性好:MegEngine封裝了平臺細節,易於新人用戶快速上手;
支持多種硬體平臺和異構計算:MegEngine支持通用 CPU、GPU、FPGA 以及其他行動裝置端硬體,可多卡多機進行訓練;
訓練部署一體化:整個框架既可用於訓練又同時支持推理,實現模型一次訓練,多設備部署,避免複雜的轉換過程造成的性能下降和精度損失。
另外,MegEngine 還集成了曠視最新的AutoML技術,對深度學習算法的各個關鍵環節進行自動化的設計、搜索和優化。這項技術以One-Shot方法為核心,通過一次訓練完成自動化過程,將計算代價減小至傳統AutoML方法的萬分之一,在可控的時間內搜索出高性能、易部署的模型結構。
曠視AutoML技術圖示
相比於市場上的AutoML技術,曠視的AutoML技術有以下優勢:
計算代價小。傳統的AutoML技術常常需要多次訓練模型甚至會遍歷部分模型空間,計算代價巨大。曠視的AutoML技術只需訓練一次即可得到整個模型空間的刻畫,大大減小了計算代價,只是平常訓練代價的1-3倍。
應用範圍廣。曠視AutoML技術提供了一套完整的解決方案,覆蓋了大部分業務,包括活體檢測、人臉識別、物體檢測、語義分割等。
部署方便。曠視AutoML技術涵蓋了數據處理、模型訓練、模型壓縮、模型量化等流程,自動處理從數據到落地。
精度高。曠視AutoML技術在諸多視覺任務上,超過人類手工設計,達到了業界最優。
MegCompute:高效靈活
有了性能極佳的深度學習框架和全面的數據平臺支持,Brain++也需要強大的算力支撐才能發揮完全的能力。深度學習框架的基礎之上,曠視開發出了支撐整個平臺計算的系統,被稱為MegCompute。
MegCompute 平臺的整體架構
這是一個包括了硬體基礎設施、數據存儲和計算調度的平臺,用於協助研究人員部署訓練環境、設計訓練流程、提供算力和資源分配服務、監控實驗進程、提供可視化效果展示、管理用戶權限、存儲數據等。
MegCompute有以下幾大特點:
性能強大:MegCompute有豐富的GPU計算資源,同時也支持各類硬體,可靈活高效地分配計算任務。
全流程覆蓋:MegCompute支持模型構建的全部流程環節,讓研究人員能夠實現一站式的業務應用服務,滿足工業級的AI能力研發測試、部署上線和業務生產方面的工作。
彈性部署:MegCompute採用了Docker容器技術,可以讓用戶彈性化地構建部署訓練環境,在不需要使用的時候直接銷毀,使得資源可以及時釋放給其他用戶,具有非常彈性的特點。
用戶友好:用戶使用過程中,通過可視化界面進行環境搭建和訓練設計方面的工作,也可以通過可視化的方式查看模型測試的結果,不需要關注太多的底層技術細節,使用非常方便。
支持多種深度學習框架:除了和MegEngine自研深度學習框架緊密結合外,MegCompute也支持使用TensorFlow和PyTorch。
MegData:數據綜合處理
在構建模型的時候,也需要大量的數據支持。Brain++中的MegData負責提供數據方面的服務,主要包括四個方面:1)數據管理;2)數據標註;3)數據處理;4)數據安全。
曠視Brain++的核心組件 MegData
曠視在研發過程中需要使用大量的圖像數據,因此需要一個綜合平臺提供管理、標註、處理和存儲安全相關的服務。根據曠視介紹,MegData可以提供完整的數據服務,為用戶提供了全流程的解決方案。
在標註方面,MegData提供了數據標註相關的服務,將人工標註和輔助算法相結合,提升標註效率。經過多次的業務打磨,MegData平臺現已擁有全生命周期的項目管理平臺,進一步實現AI助力,解放人工。另外,MegData還將曠視原創算法引入標註平臺中,利用數據輔助算法實現標註效率的大幅提升。這些標註算法都是基於雲的,可以伸縮和擴展。
在自動標註上,曠視採用了很多算法。比如,使用聚類算法,曠視可以使某項標註任務的成本下降為原有的10%。一些標註任務通過算法輔助驗收,效率提升150%以上。
相比於其他同類平臺,MegData在數據層面為AI模型研究提供了安全、高效的數據存儲和處理方式。同時,由於它是基於雲的,具有很高的靈活性。最後,MegData補全了AI算法研發中數據處理的缺失環節,使研發人員不需要花太多精力在數據層面,很大程度上提升了效率,節省了時間和研發成本。
總體而言,雖然不似其他兩個Brain++模塊那樣引人關注,但是MegData在系統中發揮著重要的功能,負責完成了深度學習訓練前很大一部分的數據管理、處理、標註和安全的工作。這些都是整個流程環節必不可少的。
總結來看,Brain++人工智慧算法平臺凸顯了曠視在技術開發上的三個趨勢。首先,Brain++完全是自主研發的深度學習系統,涵蓋了AI業務的整體流程。這說明曠視能夠完全掌握核心的研發工具和平臺。另外,曠視Brain++是為計算機視覺場景而專門研發的,這是一個以業務為導向的專業AI服務系統,因此曠視可以拿出很多精力,針對業務中的需求提出專門的解決方案,而新方法可以快速在實際應用中得到測試和驗證,通過業務驅動框架的發展。
由於曠視對Brain++本身具有完整的掌握能力,並且通過計算機視覺相關場景驅動 Brain++的發展,因此它的迭代速度非常快。當前,新算法層出不窮,企業急需能夠快速實現算法的人工智慧平臺,能夠迅速將新方法投入實際的生產中,Brain++是一個很好的參考範例。
原文連結:http://www.iliandian.cn/detail?id=5090
【免責聲明:CSDN本欄目發布信息,目的在於傳播更多信息,豐富網絡文化,稿件僅代表作者個人觀點,與CSDN無關。其原創性以及中文陳述文字和文字內容未經本網證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本網不做任何保證或者承諾,請讀者僅作參考,並請自行核實相關內容。凡註明為其他媒體來源的信息,均為轉載自其他媒體,轉載並不代表本網贊同其觀點,也不代表本網對其真實性負責。您若對該稿件由任何懷疑或質疑,請即與CSDN聯繫,我們將迅速給您回應並做處理。】