ICML 2020放榜,接收率再創新低,為21.8%。
縱覽榜單,中國學術界依然是清華領銜,公司維度上,阿里則以7篇論文入選的數量拔得頭籌。
根據ICML官方資料,阿里7篇論文涵蓋在圖像識別、自然語言處理、搜索推薦等領域的研究成果。
比如,其中一篇《Boosting Deep Neural Network Efficiency with Dual-Module Inference》,提出了一種全新的AI推理方法,可大幅減少AI對計算和內存資源的消耗,能將推理速度提升3倍。
AI雙模推理
如何讓神經網絡的推理過程在有限的硬體資源下,延時更小,耗能更少,一直是業界難題。
尤其是類似語言模型這類大模型,給計算、內存資源帶來了新的挑戰。
目前,業界通用的解決方法是採用更先進的計算性能來運行AI任務,例如採用GPU、FPGA或者NPU等異構計算,但該方法並沒有從根源上解決問題。
阿里巴巴達摩院設計出了一種「AI雙腦思考」的方法,能讓大型神經網絡像人類一樣學會「快思考」與「慢思考」,從而進行高效且準確的推理過程。
該方法被稱為「雙模推理」, 即將一個複雜任務拆分成兩個任務,例如在複雜AI推理任務過程中,可以先以很小的資源運行「小網絡」,同時分析哪些網絡的區域較為敏感,然後只對敏感區域在「大網絡」中運行計算。
推理時:
先以很小的資源運行量化為FIX POINT的「小網絡」;
將該結果的每一個輸出與閾值對比,判斷這個數值是不是「關鍵的敏感數值」;
如果是「關鍵敏感」數值,那麼適用原有的精確大網絡,計算其精確數值;
如果不是,那麼就用這個小網絡的數值作為其估計值,繼續計算。
小網絡,實際上就是大網絡的一個估計。
研究人員同時考慮了維度縮減和量化,借鑑 random projection 的方法,用 W^LLPx 來估計 WHHx,其中 W^HH 大網絡是一個 nd 的矩陣,而 W^LL 是一個 nk (k << d) 的矩陣,P 是一個轉化矩陣(稀疏的 0/1 矩陣)。
在訓練上,採用知識蒸餾(Knowledge Distillation)的方法,把大網絡作為「老師網絡」小網絡作為「學生網絡」。
小網絡的訓練過程如下:
研究人員在CPU server上對該方法進行了實現,並與MKL的Pytorch實現進行了對比。
實際效果顯示,該方法能在保證模型精度的基礎上,在語言模型上減小40%的訪存,達到1.54倍-1.75倍的性能提升,同時可以在僅損耗0.5%精度基礎上,提升3倍的推理速度。
One More Thing
近年來,阿里在AI領域迎來了基礎研究與產業應用成果雙爆發的階段。
三年前,阿里巴巴成立了內部前沿研究機構達摩院,達摩院下設十餘個基礎研究實驗室,涵蓋語音實驗室、視覺實驗室、語言技術實驗室、決策智能實驗室、城市大腦實驗室、自動駕駛實驗室等AI相關部門。
據了解,阿里AI已在國際頂級技術賽事上獲得了近60項世界第一,500多篇論文入選國際頂會。同時,阿里AI落地了多項重大研究成果,全面賦能各行各業。達摩院醫療AI團隊疫情期間研發的AI診斷技術,已在全球近600家醫院落地,完成50餘萬例臨床診斷。
— 完 —