更大的數據,更大的模型,更好的算法,深度學習興起之後,這些因素就成了 AI 公司最重要的考量。尤其對於語音、NLP、計算機視覺等應用,海量數據與精確算法支撐下不斷提升的應用,是 AI 企業建立外部認知的最重要載體。
在技術爬坡、訂單獲取上,算法是基礎。但當企業經歷幾年的跑馬圈地,單純的算法之外,一家 AI 公司還需要什麼?巨頭與行業獨角獸們正在試圖回答這個問題。
近日,計算機視覺領頭公司曠視正式宣布開源其深度學習框架 MegEngine,中文名「天元」(傳送門:MegEngine.org.cn)。
從算法到 AI 基礎設施
印奇說,曠視要成為中國最強的 AI 公司,這其中是對算法能力、產品能力、解決方案能力、業務運營能力的多重要求,而算法是曠視的核心基因。
曠視業務以機器視覺為核心,對算法精度要求更高。早幾年,和很多企業一樣,團隊主要精力都聚焦在如何精進算法上。在算法精度上,如何在「小數點」後的數字上做提高,再把算法放入相應的場景,為客戶提供視覺解決方案,是團隊的工作重點。
但如 CTO 唐文斌所言,AI 應用是一個無限遊戲——算法無限,場景無限,對應所需要的產品也是無限的,要達成企業用 AI 惠及世界的最初願景,一個更高效的做法是解決 AI 基礎設施的問題。
何為 AI 基礎設施?唐文斌給出了兩大核心要素:承載 AI 計算的晶片平臺是其一,一個可以協同優化算法、數據、算力的平臺,即 AI 生產力平臺是其二。因此曠視打造了自己的AI 基礎設施 Brain++。
生產好的AI 算法是一個系統工程,要求同時具備標準化的數據管理、高效的深度學習框架和強大的算力。為此,Brain++ 作為AI 生產力平臺主要涵蓋了數據解決方案 MegData、深度學習框架 MegEngine、算力解決方案 MegCompute,是為三位一體。天元( MegEngine)的開源只是開始, Brain++ 的更多數據管理、計算能力之後也將向企業級用戶陸續開放。
發布會上,曠視雲服務業務資深副總裁趙立威表示,曠視可以為企業級用戶打造專屬的Brain++ 平臺,為合作夥伴提供AI生產全流程的服務,從專業諮詢、到數據生產、模型優化,再到私有化AI平臺的建設運維,滿足各行業在」AI+「的過程中降本增效、自主安全和商業創新的訴求。
「單一算法壁壘很低,但是能夠系統化地產生大量算法,並且結合場景不斷迭代、優化,最終還能打造算法相關的產品和方案,這個壁壘非常高。」一年前印奇面對量子位的回答,已經宣示了曠視在此的雄心。
而從曠視近兩年的一系列動作中,也可看出一個從底層算法到 AI 基礎設施的上升軌跡。
2019 年 1 月,曠視發布 AIoT 作業系統「河圖」,後者將作為智慧機器人的網絡協同大腦,接入物流場景下的多種硬體,在發布會上,「回歸產業」、「賦能產業」幾乎是印奇演講的主題。
2019 年 10月,曠視推出城市物聯網作業系統 CityIoT OS ,將公共安全、智慧交管、城市管理和智慧園區全局管理能力整合為一體。
AI 需要聚攏更多人的力量,才能創造更多價值。天元(MegEngine) 乃至 Brain++ 的開源和開放,意在聯合中小企業和更多開發者,接入更多設備,從而把 AI 這張網抻大。
深度學習,簡單開發
天元是圍棋棋盤最中心的點,MegEngine 中文名藉此命名,一來致敬 AlphaGo;二來,天元是萬物的基礎,這個名字也是曠視對 天元(MegEngine) 成為中國人工智慧發展的一塊基石的寄望。
曠視副總裁謝憶楠做了一個樸素的舉例:智能化是往硬體裡植入算法。往越多的硬體裡塞入算法,社會的協同網絡便越大、越智能。這張協作網絡便是物聯網。天元的開源,則是賦予其它中小企業往硬體裡內置算法的能力,並進一步迎合其在特殊場景的定製化需求,以幫助其達到真正的「深度學習,簡單開發」。
除了最新開源的天元(MegEngine),目前國際主流的幾種深度學習框架主要包含谷歌大腦2015年開源TensorFlow、谷歌的人工智慧研究員Franois Chollet 2015年推出的Keras、Amazon 2015年底開源的MXNet、Facebook 2016年開源的PyTorch、微軟2016年開源的CNTK、百度2016年開源的飛槳等。天元(MegEngine)則從實際開發經驗中的幾個痛點入手,在性能上表現不俗:
1. 訓練推理一體化
曠視天元既可支持研究員進行算法訓練,同時訓練得到的模型和產物是可以直接進行用於產品的推理、封裝。省去模型轉換不僅極大簡化算法開發流程,更實現了速度和精度的無損遷移,即使是模型的跨設備部署,天元依然能夠做到精度的對齊。在部署時,天元還可以幫助開發者自動刪除冗餘代碼,實現模型自動優化。
2. 動靜合一
靜態圖性能高、佔用資源少且易於部署;動態圖簡單靈活、方便調試且易於上手。曠視天元整合了動態圖與靜態圖各自的優勢,在充分利用動態圖模型訓練優勢時,通過動靜態一鍵轉換功能,以靜態圖的形式完成生產和部署;此外,天元還支持動靜態的混合編程,靈活性更強。
3. 兼容並包
曠視天元具備Pythonic的API,這對習慣用Python進行傳統機器學習的開發者來說非常友好,學習成本更低、易於上手,同時天元還支持PyTorch Module功能,可以直接導入模型,遷移成本低且極大方便模型復現;天元內置高性能計算機視覺算子和算法,可為計算機視覺相關模型訓練和應用實現深度優化。
4. 靈活高效
曠視天元具備很強的多平臺多設備適應能力,可通過類似彙編和指令重排等技術,使得天元內置算子能夠在推理或生產環境中充分利用多核優勢,靈活調用設備的計算力,尤其適用於大模型算法訓練。
總的來說,MegEngine 在協同設計、高效訓練、大規模訓練能力上,做到了更完整的統一與升級。
相比平臺級公司的科技巨頭,曠視成立之初便是一家以 AI 為驅動的企業,天元深度學習框架的開發以其核心業務為土壤,在應用場景和落地案例中經過不斷的反饋、調試,尤其在視覺任務的處理上,更加適合開發者。
基於與TensorFlow、PyTorch 等框架的不同優勢,開發者也可以同時使用不同框架,解決自身問題。
生態共建者
過去幾年,中國企業紛紛擁抱開源,但多數是被形勢驅動,勉力上趕,早期便做下鋪墊並持續技術積累的不多,從這個角度看,曠視算是個異類。
2014 年,深度學習剛剛興起不久,當時公司使用的還是 Theano 框架,效率低下。曠視研究院的 3 名實習生,在其自動化算法研發系統 Cycle++ 的基礎上,不到半年的時間裡,寫出了一個初版的深度學習框架,便是 MegEngine 的雛形。
MegEngine 誕生的第二年,谷歌開源了 TensorFlow。 在深度學習框架的選擇上,買巨頭的船票,還是自己造船,團隊內部經歷了長久的爭論。
高投入的自研意味著對團隊的極大考驗,此時,成立不到 4 年的曠視,技術團隊尚不足20人,再配合業務的落地推進,難度指數級增長。但剛剛開源的 TensorFlow 尚有不少缺憾有待完善,對團隊來說,遠不如自研的 天元(MegEngine )稱手。並且,對於一個以 AI 為絕對主業務的企業來說,長期來講,自研深度學習框架更易於面向自身需求調整、迭代算法。
如今來看,當年的爭論結果已經非常明顯, 曠視選了那條難走但是正確的路。
2015 年,天元便在曠視內部全員使用,其所有算法都是基於該框架進行訓練、推理。目前,天元已經迭代到第 8 版,用在了上百個產品、幾十種計算平臺上。
再問:有大哥坐鎮,天元有自身優勢雖不假,但又如何與先來者抗衡?
這家 AI 企業似乎並沒有在這個問題上花費太多時間。
「我們不覺得天元和其他的(框架)是競爭關係,而是共同藉助開源生態的培育與建設,形成良性有機的局面。我們期望能夠營造一個開放的社區,一個能夠接納大家新想法、共同創造的社區。不論是一個技術產品,還是一個開源框架,都需要以是否好用、是否成熟、是否能夠做得更好來作為最終的評判標準。」曠視研究院高級技術總監田忠博總結道。
歡迎規則「打亂」者
天元現在開源的是Alpha版本,其開源生態最終將如何展開,還需要持續迭代,但一個在算法上有成績的優秀選手,在算法工具上自然具備充分的底氣。在不斷推進的手機智能、智慧城市、供應鏈等落地案例之外,曠視研究院的參賽團隊一直是近些年各大頂級比賽和會議的常駐冠軍。
從目前的規劃來看,天元將保持每 3 月一迭代的節奏:3 月發布 Alpha 版本,釋放關鍵代碼;6 月發布 Beta 版本,全面提供基於 ARM 系列的 CPU 支持能力,並引入更多加速設備;9 月的 1.0 版本將涵蓋所有核心功能、部件,支持所有主流計算設備。之後,天元也將在 GitHub、Ihub 逐步開源。
「雖然在國外有兩家非常大的深度學習引擎,有很大的體量,但裡面依然有一些開放的和技術的難題沒有解決。」曠視研究院院長孫劍解釋道。
「我們希望開源這個框架,能夠將很多年輕人提出的創造性的新解法注入進去,我們也希望,有更多優秀的開發者能夠貢獻出他們的創造力,把我們的規劃打破、打亂。」