「智能時代的作業系統」飛槳和自研 AI 處理器百度崑崙都已就位,產業智能化時代正在到來。
在剛剛開幕的百度世界大會上,總臺央視主持人康輝和年輕 20 歲版的自己對話,成為了人們喜聞樂見的話題。
這個虛擬版康輝同樣「立志成為新聞播音員」。
之所以說是年輕 20 歲的康輝,是因為「他」是基於幾十年前康輝的新聞播報視頻數據生成的。與我們此前見過的一些類似技術相比,今天亮相的「康輝」,是一款具備認知能力的終端虛擬人,甚至可以進行機器——機器對話。
除了更會思考,全新的虛擬人技術還有另一個突破:他們的生成和展示的門檻已經大大降低,可以在普通手機上流暢運行。像這樣帥氣、聰明又會思考的虛擬人,背後整合了視覺、語音、語言與知識等多種模態的 AI 技術。這些技術是由升級後的百度大腦 6.0 提供的。
百度大腦是百度技術多年積累和業務實踐的集大成,其中包括視覺、語音、自然語言處理、知識圖譜、深度學習、人工智慧安全等 AI 核心技術和 AI 開放平臺,對內支持了百度所有業務,對外也是全方位開放。
從技術到硬體,從場景到應用,百度大腦作為軟硬一體 AI 大生產平臺,有效地降低了各行業應用 AI 技術的門檻。截至目前,百度大腦共計開放了 273 項 AI 能力,吸引到 230 萬開發者,創建超過 31 萬模型,並已培養出 100 萬人工智慧領域的從業者,目前在業內規模最大。
「百度大腦自 2010 年開始布局和積累基礎技術,迄今為止已經發展了十年,」百度 CTO 王海峰說道。「今天我們發布的百度大腦 6.0,是『AI 新型基礎設施』,它將方便各行各業更全面、更高效地應用 AI 技術,加快智能化升級。」
在百度,不論是無人駕駛汽車、小度音箱、度曉曉、康輝和李彥宏的虛擬形象,還是人們常用的百度搜索、地圖、輸入法等等產品的背後,都有百度大腦提供的 AI 技術。
百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜
對於百度大腦 6.0 的升級,吳甜從多個層次進行了概括:在基礎層,飛槳深度學習平臺和百度崑崙AI晶片「軟硬一體」升級為開發者打下了堅實的基礎;在技術層,百度大腦實現多個核心技術融合,形成知識增強的跨模態語義理解能力,在語音語言一體化理解的支持下,語音識別的準確率和交互成功率也迎來大幅提升。具有認知能力的「虛擬人」正是這些前所未有技術的集中展示。
「從時代大背景來看,人類社會正處在第四次工業革命的開端,人工智慧是其核心科技,正在驅動新一輪科技革命和產業變革,帶領人類進入智能時代,」王海峰表示。「近期國家提出了『推動網際網路、大數據、人工智慧和實體經濟深度融合』,推進新基建,加速產業轉型升級,促進社會經濟高質量發展等戰略。人工智慧是新基建重點建設的新型基礎設施。百度建設的 AI 基礎設施就是百度大腦。」
什麼樣的技術才能承擔起這樣的重任?在今天的大會中,百度大腦 6.0 宣布了從內到外的升級。
新一代百度崑崙晶片
首先是 AI 技術最為依賴的算力。「百度崑崙」是百度在 2018 年 7 月 4 日發布的一款 AI 晶片,但在之後的很長一段時間裡鮮被提及。但實際上,百度崑崙團隊已在業界頂級晶片會議 Hotchips 上發表了 4 篇論文,是國內發表最多的機構。
在今天的大會上,百度介紹了晶片研發的最新消息。目前,百度崑崙晶片一代已經大規模部署,在百度搜尋引擎及雲計算任務上部署了 2 萬片。在實際工作環境中,相比英偉達 Tesla T4 GPU,這種晶片在不同模型任務上的性能可以提升 1.5 到 3 倍。
百度還宣布了百度崑崙 2 晶片的計劃,新一代晶片將採用 7nm 工藝打造,性能相比百度崑崙 1 代提升三倍,計劃明年上半年量產。新一代晶片將加入高速片間互聯能力,並推出多款細分型號,覆蓋訓練和推理,還將有邊緣計算的型號。
飛槳平臺:核心技術自主研發
百度飛槳是國內首個開源的,功能完整的產業級深度學習平臺,集深度學習核心訓練和推理框架、基礎模型庫、端到端開發套件和豐富的工具組件於一體。隨著功能的不斷完善,飛槳吸引了越來越多的開發者。
「飛槳正在作為中國智能經濟的基礎底座,對外輸出產業智能化升級轉型的強大推動力。」王海峰說道。
最近,飛槳也經歷了大幅度的升級,其範圍覆蓋動態圖和 API 體系,一些核心技術也有了新的突破。其迎來了「動靜統一、軟硬融合」的升級:已適配 22 種晶片型號,覆蓋 15 家硬體廠商,對國產硬體的支持業內第一,範圍超過 TensorFlow 和 PyTorch。
在動態圖轉靜態圖方面,飛槳現在已經支持完備的語法覆蓋和帶控制流的任務,僅需一個裝飾器就可以觸發操作,統一的接口可以讓模型保存加載實現自動適配。
在動態圖上,飛槳提供了比靜態圖更簡潔靈活的混合精度訓練接口,並且實現媲美靜態圖的混合精度與量化訓練效果。以 ResNet 訓練為例,FP 使用混合精度訓練,比 FP32 方式速度提升了 2.7 倍。動態圖還支持量化,在 MobileNet,ResNet 等動態圖模型的任務中,在保持精度不變的情況下,僅佔 FP32 體積的 1/4。
飛槳的 API 體系也在全面升級。據介紹,飛槳形成了貼合用戶使用習慣的全新 API 體系,包括包結構、API 規範、共性問題優化等,面對用戶更加友好。為了減少開發者的工作量,飛槳可以提供包含視覺、NLP 等領域的模型和工具封裝的高層 API,以及最經典的模型結構。
語音交互,日均調用量超 155 億次
在語音識別領域,百度推出了端到端信號聲學一體化建模的技術。語音合成方面,最新的 Meitron(語音風格遷移)和單人千面合成個性化技術亮相。
個性化 TTS 是個性化定製的 Meitron 語音合成系統的最新演進,是基於子帶分解和 GAN_loss 的端側神經網絡聲碼器,也是業內首個在手機端多人通用的端側的基於神經計算的聲碼器。個性化 TTS 相較於傳統的基於信號處理和參數的聲碼器,ABS 提升可以達到 65:35,其已應用於地圖導航,目前每日的導航播報超過 1 億次。
多角色的語音合成,則是針對娛樂內容產業存在的挑戰。在製作小說有聲讀物等任務中,多個角色交替出現,單一音色演繹會出現沒有張力的問題。通過深度學習技術對小說文本進行分析,AI 可以判斷出文字中的角色、身份、情感,再藉助多風格、多角色語音合成技術去合成小說中的聲音,從而實現聲音自然、體驗優美的效果。
百度在大會上還交出了語音技術的最新成績單:日均調用量超過 155 億次,廣泛應用在移動端、智能家居、和語音 IoT 等場景。
全球最大知識圖譜的再次升級
百度擁有目前全球最大的知識圖譜,其中包含超過 50 億實體、5500 億事實,日均調用量超 400 億。百度的知識中臺現在向企業提供了面向知識應用全生命周期的一站式解決方案,其知識圖譜產品目前已覆蓋 100 多個行業場景。
最近,這個知識圖譜也有了全新升級。在通用圖譜方面,百度提出了基於深度自注意力機制的知識表示框架,通過深度自注意力網絡對知識圖譜中的實體和關係進行連續向量表示,在此基礎上,進一步引入預訓練語言模型助力結構化知識表示,二元關係推理能力全面超越現有方法,語言學知識圖譜上提升尤為顯著。
利用多元關係異構圖表示,百度還實現了簡單知識表示到複雜知識表示的躍遷,多元關係推理效果大幅提升,關鍵指標平均提升 10%+。
在關係抽取技術上,百度研究人員提出了基於文本圖譜聯合預訓練的關係抽取,通過聯合文本語境與圖譜路徑,共同推斷實體間的語義關係,從而大幅提升了關係抽取效果。
在事件圖譜方面,百度已經形成了事件檢測、事件表示、事件抽取、事件關係挖掘等核心能力,可實現分鐘級檢測熱點、構建了包含 4000 多種事件類型、千萬量級的事件庫,並發布了業界規模最大的中文事件抽取數據集 DuEE。
除此之外,百度還研發了事理圖譜,並升級了多模態語義理解技術。
語義理解框架文心(ERNIE)
在預訓練模型火熱的 NLP 領域裡,百度提出的知識增強語義理解框架文心(ERNIE)最近一直被人們所關注。它以知識增強和持續學習為核心創新點,在深度學習的基礎上融入了知識,通過持續學習技術不斷吸收海量數據中的詞彙、結構、語義等方面的知識。此前,文心在最具影響力的 NLP 評測基準 GLUE 上刷新了不少業內最佳水平記錄。
目前,文心已經實現了基於知識增強的跨模態深度語義理解。通過知識關聯多模態信息,AI 模型可以使用語言描述不同模態信息的語義,讓機器實現從「看清」到「看懂」、「聽清」到「聽懂」,即圖像和語言、語音和語言的一體化理解。
這種能力被百度稱為「知識增強的跨模態深度語義理解」,它讓機器能夠聽懂語音、看懂圖像視頻、理解語言,進而理解真實世界,並與人進行更好的交流。
因為語義理解框架文心的新發展,基於多流機制的預訓練語言生成技術 ERNIE-GEN 和知識增強跨模態語義理解技術 ERNIE-ViL,ERNIE-ViL 首次將場景圖知識融入到跨模態的預訓練模型中。百度推出了文心語義理解技術平臺,為企業提供一整套 NLP 定製與應用能力,目前已累計支持 2 萬餘名開發者。
文心基於深度學習平臺飛槳打造,依託領先的語義理解核心技術,集成優秀的預訓練模型、全面的 NLP 算法集、端到端開發套件和平臺,這套技術可以向開發者們提供一站式 NLP 開發與服務,讓開發者更簡單、高效地定製企業級 NLP 模型。經過大量真實應用場景的應用,這項技術已經具備工業級的落地實力。
視覺計算進入「軟 + 硬」時代
視覺計算在端側的需求凸顯,模型小型化已成為趨勢。百度大腦 6.0 讓視覺計算走向極致效率,基於 PaddleSlim,為開發者開源 Slim 系列視覺模型,不僅包括端側檢測和分類上性能優異的基礎模型,還包括計算量下降到 1/7 的人臉識別、僅有 3.1M 的文字識別模型,並開放了 3 款業界首發的視頻生成 SDK 方案,可在手機端賦予用戶 2D 虛擬真人、二次元等獨特的形象。最後還探討了以度目為代表的視覺硬體在生產生活中的落地應用,正式開啟「軟硬一體」的視覺時代。
目前,Slim 系列模型擁有業界最小的人臉識別、文字識別等模型等,在人臉識別方向,Slim 系列模型可以做到計算量小至 7 倍壓縮。
百度大腦度目硬體則將優勢算法通過嵌入式開發技術移植到邊緣產品上,打造了人臉應用套件、人臉抓拍機、AI 鏡頭模組、視頻分析盒等民用軟硬體產品。通過軟硬結合的一體化設計,實現了算法與硬體的深度調優,配備預設應用,可直接部署應用及簡單的二次開發和集成。
首發國內首個面向疫情預測與追蹤的多方位數據協作平臺
在分論壇中,百度研究院大數據實驗室與商業智能實驗室主任竇德景發布了國內首個面向疫情預測與追蹤的多方位數據協作平臺——百度數據聯邦平臺。其具備安全數據存儲、雲上可信數據交換、大規模數據演算等特性,能夠實現多個機構間的隱私數據融合、數據訪問與聯邦學習,目前已助力清華大學、西安交通大學,廈門大學等研究機構進行疫情研究。
在安全性方面,百度數據聯邦平臺可以保證數據不被洩露、篡改。在可擴性方面,這一平臺可以提供自動部署服務打通不同城市的數據中心,加快不同數據中心數據的讀寫。而在可持續性方面,數邦平臺與百度智能雲原生集成,基於百度智能雲進行了定製化的優化,極大限度地減少了損耗。
百度數據聯邦平臺還通過彈性動態配置,實現了多方數據的安全共享,形成了全動態的自動部署。
量脈 + 量槳 + 量易伏
今年 5 月,百度提出的量子機器學習工具「量槳」讓飛槳成為了國內首個支持量子機器學習的深度學習平臺。百度研究院量子計算研究所今天全新發布了國內首個雲原生量子計算平臺量易伏,並全面升級了量脈與量槳。
量易伏具備一系列特色功能:首先是三大量子開發套件——針對開發者,量易伏提供基於 Python 的開源開放工具包 QCompute,對於量子研究人員直接登陸瀏覽器而不需要任何人工配置即可使用在線編程工具 PyOnline,而對於量子計算愛好者來說,可以使用 QComposer 拖動編程體驗量子計算的樂趣。
量易伏還帶有量子編程全生命周期的支持,根據需要可以調用本地或者雲端的伺服器完成計算。量子工具鏈則支持用 Python 和量子彙編語言進行混雜編程,還具有設備無關性。量易伏的特色應用「變分量子特徵求解器」,可以準確高效求解分子基態及能量,有望用於量子化學模擬以及新藥發現等領域。
現在,百度量子平臺已提供了連接頂層解決方案和底層硬體基礎所需的大量軟體工具以及接口,百度希望這一平臺,幫助開發者與合作夥伴們免除學習複雜量子軟硬體的麻煩,更快速地為各行業提供量子計算的能力。
在危害出現之前,保證 AI 安全
隨著 AI 技術的不斷落地,IoT 設備進入人們的家庭,人工智慧技術的安全可信問題逐漸被人重視。面對前所未有的挑戰,百度提出了 AI 安全三大維度:Security、Safety 和 Privacy,即強對抗環境下的安全威脅、非對抗條件下自然環境所產生的真實威脅,以及數據安全與隱私保護。
針對安全威脅,百度首創的模型魯棒性體系化評估框架和對抗樣本工具箱,將為量化評估安全威脅,幫助飛槳、TensorFlow 等主流機器學習平臺快速提升模型魯棒性提供支撐。
在隱私保護方面,百度在聯邦學習等方面的技術探索,將為整個數據生命周期提供安全保障,進一步釋放數據價值,擴大 AI 時代大規模數據協作的信任邊界。
「我們希望通過長期的研究與實踐,能夠跑在這些威脅造成重大危害之前。」百度副總裁馬傑說道。
現在,百度大腦的技術,已經可以實現設備端、服務端的軟硬體一體部署,覆蓋企業服務、智能零售再到醫療和教育等多個行業。
李彥宏表示,晶片、作業系統這樣過去被「卡脖子」的技術,都是需要長期堅持的,它們的商業價值不可能在短短幾年之內就體現出來,需要我們的科技人員有雄心、有耐心、耐得住寂寞,而且有信仰。我們也有長期的考慮和耐心,希望把中國的這些被「卡脖子」的技術能夠一點一點突破,最後被市場廣泛接受。
百度大腦從 2010 年開始布局和積累基礎技術,迄今為止已經發展了十年。它已成為百度人工智慧技術積累和產業實踐的集合,覆蓋了人工智慧工作的基礎層、感知層、認知層、平臺層和安全的所有方面。這家公司希望能夠能力通過雲服務和開放平臺將技術輸出給更多人,支持各行業進行智能化升級。
百度大腦是百度 AI 生態建設的基礎,結合對 AI 技術的底層研究,中間層的智能雲、Apollo 等智能化平臺,以及最上層各行業的解決方案,AI 先進技術已經開始批量商業化落地的進程。在多年的大幅研發投入之後,百度的 AI 戰略已經開始顯現成效。