清華張鈸院士專刊文章:邁向第三代人工智慧

2020-12-09 澎湃新聞

機器之心轉載

來源:清華大學人工智慧研究院

作者:張鈸、朱軍、蘇航

在這篇評述文章中,清華大學人工智慧研究院院長、中國科學院院士張鈸教授闡述了自己對於「第三代人工智慧」的看法。他認為,第三代 AI 發展的思路是把第一代的知識驅動和第二代的數據驅動結合起來,通過利用知識、數據、算法和算力等 4 個要素,構造更強大的 AI,目前存在雙空間模型與單一空間模型兩個方案。本文對這篇評述進行了全文刊載。

全文連結:http://scis.scichina.com/cn/2020/SSI-2020-0204.pdf

人工智慧(ArtificialIntelligence,簡稱 AI)在 60 多年的發展歷史中,一直存在兩個相互競爭的範式,即符號主義與連接主義(或稱亞符號主義)。符號主義(即第一代人工智慧)到上個世紀八十年代之前一直主導著 AI 的發展,而連接主義(即第二代人工智慧)從上個世紀九十年代逐步發展,到本世紀初進入高潮,大有替代符號主義之勢。但是今天看來,這兩種範式只是從不同的側面模擬人類的心智 (或大腦),具有各自的片面性,不可能觸及人類真正的智能。

清華大學人工智慧研究院院長、中國科學院院士張鈸教授在「紀念《中國科學》創刊 70 周年專刊」上發表署名文章,首次全面闡述第三代人工智慧的理念,提出第三代人工智慧的發展路徑是融合第一代的知識驅動和第二代的數據驅動的人工智慧, 同時利用知識、數據、算法和算力等 4 個要素, 建立新的可解釋和魯棒的 AI 理論與方法,發展安全、可信、可靠和可擴展的 AI 技術,這是發展 AI 的必經之路。

自 2018 年成立以來,清華大學人工智慧研究院本著「一個核心、兩個融合」的發展戰略,大力推動人工智慧的基礎理論和基本方法的源頭性和顛覆性創新,在人工智慧基礎理論、關鍵技術和產學研合作等諸方面取得了創新成果。人工智慧的序幕剛剛拉開,正劇正在上演。基礎研究是科技創新的源頭,尤其在當前複雜多變的國際環境下,更需要提升我國的原始創新能力,久久為功,努力實現人工智慧領域更多「從 0 到 1」的突破。

以下全文刊載張鈸院士的文章《邁向第三代人工智慧》。

1 第一代人工智慧

人類的智能行為是怎麼產生的, 紐威爾 (A.Newell)、西蒙 (H.A.Simon) 等 [1∼4] 提出以下模擬人類大腦的符號模型, 即物理符號系統假設。這種系統包括:

(1) 一組任意的符號集, 一組操作符號的規則集;

(2) 這些操作是純語法(syntax)的,即只涉及符號的形式不涉及語義,操作的內容包括符號的組合和重組;

(3)這些語法具有系統性的語義解釋,即它所指向的對象和所描述的事態。

1955 年麥卡錫 (J.McCarthy) 和明斯基 (M.L.Minsky) 等學者[5],在達特茅斯人工智慧夏季研究項目 (the Dartmouth Summer Research Projecton ArtificialIntelligence) 的建議中, 明確提出符號 AI(artificialintelligence) 的基本思路:「人類思維的很大一部分是按照推理和猜想規則對『詞』(words)進行操作所組成的」。根據這一思路,他們提出了基於知識與經驗的推理模型,因此我們又把符號 AI 稱為知識驅動方法。

符號 AI 的開創者最初把注意力放在研究推理(搜索)的通用方法上,如「手段–目的分析」(meanendanalysis)、「分而治之」(divideandconquer)、「試錯」(trialanderror)法等,試圖通過通用的方法解決範圍廣泛的現實問題。由於通用方法是一種弱方法,實際上只能解決「玩具世界」中的簡單問題,如機器人擺放積木,下簡單的井字棋(tic-tac-toe)等,與解決複雜現實問題相差很遠。尋求通用 AI 的努力遭到了失敗,符號 AI 於 20 世紀 70 年代初跌入低谷。

幸運的是,史丹福大學教授費根堡姆(E. A. Feigenbaum)等及時改變了思路,認為知識,特別是特定領域的知識才是人類智能的基礎,提出知識工程(knowledgeengineering)與專家系統(expertsystems)等一系列強 AI 方法,給符號 AI 帶來了希望。他們開發了專家系統 DENDRAL(有機化學結構分析系統,1965∼1975)[6],隨後其他學者相繼開發了 MYCIN(血液傳染病診斷和抗菌素處方,1971∼1977)[7],XCON(計算機硬體組合系統)等。不過早期的專家系統規模都較小,難以實用。

直到 1997 年 5 月 IBM 的深藍(deepblue)西洋棋程序打敗世界冠軍卡斯帕諾夫(Kasparov),符號 AI 才真正解決大規模複雜系統的開發問題。費根堡姆和雷蒂(R. Raddy)作為設計與構造大型人工智慧系統的先驅,共同獲得 1994 年 ACM 圖靈獎。

符號 AI 同樣可以應用於機器學習,把「機器學習」看成是基於知識的(歸納)推理。下面以歸納邏輯編程(inductivelogicprogramming,ILP)[8]為例說明符號 AI 的學習機制。在 ILP 中正負樣本(具體示例)、背景知識和學習結果(假設)都以一階邏輯子句(程序)形式表示。學習過程是在假設空間中尋找一個假設,這個假設應儘可能多地包含正例,儘量不包含負例,而且要與背景知識一致。一般情況下假設空間很大,學習十分困難,不過有了背景知識之後,就可以極大地限制假設空間,使學習變成可行。顯然,背景知識越多,學習速度越快,效果也越好。

為解決不確定問題,近年來,發展了概率歸納邏輯編程方法(probabilisticinductivelogicprogramming,PILP)[9]。基於知識的學習,由於有背景知識,可以實現小樣本學習,而且也很容易推廣到不同的領域,學習的魯棒性也很強。以遷移學習(transferlearning)[10]為例,可以將學習得到的模型從一種場景更新或者遷移到另一場景,實現跨領域和跨任務的推廣。

具體做法如下,首先,從學習訓練的環境(包括訓練數據與方法)出發,發現哪些(即具有某種通用性)知識可以跨域或者跨任務進行遷移,哪些只是針對單個域或單個任務的特定知識,並利用通用知識幫助提升目標域或目標任務的性能。這些通用知識主要通過以下 4 種渠道遷移到目標域中去,即源域中可利用的實例,源域和目標域中可共享的特徵,源域模型可利用的部分,源域中實體之間的特定規則。可見,知識在遷移學習中起關鍵的作用,因此,符號 AI 易於跨領域和跨任務推廣。

在創建符號 AI 中做出重大貢獻的學者中,除費根堡姆和雷蒂(1994)之外,還有明斯基(1969),麥卡錫(1971),紐威爾和西蒙(1975)共 6 位先後獲得圖靈獎(括號中的數字表示獲獎的年份)。總之,第一代 AI 的成功來自於以下 3 個基本要素。以深藍程序為例,第 1 是知識與經驗,「深藍」從象棋大師已經下過的 70 萬盤棋局和大量 5∼6 個棋子的殘局中,總結出下棋的規則。另外,在象棋大師與深藍對弈的過程中,通過調試「評價函數」中的 6000 個參數,把大師的經驗引進程序。第 2 是算法,深藍採用α−β剪枝算法,有效提高搜索效率。第 3 是算力(計算能力),為了達到實時的要求,深藍使用 IBM RS/6000 SP2, 11.38 G FLOPS(浮點運算 / 秒),每秒可檢查 2 億步,或 3 分鐘運行 5 千萬盤棋局(positions)。

符號 AI 有堅實的認知心理學基礎,把符號系統作為人類高級心智活動的模型,其優勢是,由於符號具有可組合性(compositionality),可從簡單的原子符號組合成複雜的符號串。每個符號都對應著一定的語義,客觀上反映了語義對象的可組合性,比如,由簡單部件組合成整體等,可組合性是推理的基礎,因此符號 AI 與人類理性智能一樣具有可解釋性和容易理解。符號 AI 也存在明顯的局限性,目前已有的方法只能解決完全信息和結構化環境下的確定性問題,其中最具代表性的成果是 IBM「深藍」西洋棋程序,它只是在完全信息博弈(決策)中戰勝人類,這是博弈中最簡單的情況。而人類的認知行為(cognitivebehavior),如決策等都是在信息不完全和非結構化環境下完成的,符號 AI 距離解決這類問題還很遠。

以自然語言形式表示(離散符號)的人類知識,計算機難以處理,必須尋找計算機易於處理的表示形式,這就是知識表示問題。我們已有的知識表示方法,如產生式規則(productionrules),邏輯程序(logicprogram)等,雖然計算機易於處理(如推理等),但都較簡單,表現能力有限,難以刻畫複雜和不確定的知識,推理也只限於邏輯推理等確定性的推理方法。更加複雜的知識表示與推理形式都在探討之中,如知識圖譜(knowledgegraph)[11]、概率推理等[12]。符號 AI 缺乏數學基礎,除數理邏輯之外,其他數學工具很難使用,這也是符號 AI 難以在計算機上高效執行的重要原因。

基於知識驅動的強 AI 只能就事論事地解決特定問題,有沒有廣泛適用的弱方法,即通用 AI,目前還是一個值得探討的問題。此外,從原始數據(包括文本、圖像、語音和視頻)中獲取知識目前主要靠人工,效率很低,需要探索有效的自動獲取方法。此外,真正的智能系統需要常識,常識如何獲取、表達和推理還是一個有待解決的問題。常識的數量巨大,構造一個實用的常識庫,無異於一項 AI 的「曼哈頓工程」,費時費力。

2 第二代人工智慧

感官信息(視覺、聽覺和觸覺等)是如何存儲在記憶中並影響人類行為的? 有兩種基本觀點,一種觀點是,這些信息以某種編碼的方式表示在(記憶)神經網絡中,符號 AI 屬於這一學派。另一種觀點是,感官的刺激並不存儲在記憶中,而是在神經網絡中建立起「刺激–響應」的連接(通道),通過這個「連接」保證智能行為的產生,這是連接主義的主張,連接主義 AI 就是建立在這個主張之上。

1958 年羅森布拉特(Rosenblatt)按照連接主義的思路,建立一個人工神經網絡(artificialneuralnetwork,ANN)的雛形——感知機(perceptron)[13,14]。感知機的靈感來自於兩個方面,一是 1943 年麥卡洛克(McCulloch)和皮特(Pitts)提出的神經元數學模型——「閾值邏輯」線路,它將神經元的輸入轉換成離散值,通常稱為 M-P 模型[15]。二是來自於 1949 年赫布(D. O. Hebb)提出的 Hebb 學習率,即「同時發放的神經元連接在一起」[16]。感知機如圖 1 所示。

其中 b 為閾值,w 為權值。

AI 的創建者從一開始就關注連接主義的思路。1955 年麥卡錫等在達特茅斯(Dartmouth)AI 研究建議中寫道「如何安排一組(假想的)神經元使之形成概念 ······ 已經獲得部分的結果,但問題是需要更多的理論工作」[5],並把它列為會議的研討內容之一。由感知機組成的 ANN 只有一個隱蔽層,過於簡單。明斯基等 [17] 於 1969 年出版的書《感知機》中指出,感知機只能解決線性可分問題,而且即使增加隱層的數量,由於沒有有效的學習算法,感知機也很難實用。明斯基對感知機的批評是致命的,使剛剛起步的連接主義 AI 跌入低谷達 10 多年之久。在困難的時期裡,在許多學者的共同努力下,30 多年來無論在神經網絡模型還是學習算法上均取得重大進步,逐步形成了深度學習的成熟理論與技術。

其中重要的進展有,第 1,梯度下降法(gradientdescent),這本來是一個古老的算法,法國數學家柯西(Cauchy)[18]早在 1847 年就已經提出; 到 1983 年俄國數學家尤裡 · 涅斯捷諾夫(YuriiNesterov)[19]做了改進,提出了加強版,使它更加好用。第 2,反向傳播(backpropagation,BP)算法,這是為 ANN 量身定製的,1970 年由芬蘭學生 SeppoLinnainmaa 在他的碩士論文中首先提出; 1986 年魯梅哈特(D.E.Rumelhart)和辛頓(G.Hinton)等做了系統的分析與肯定 [20]。「梯度下降」和「BP」兩個算法為 ANN 的學習訓練注入新的動力,它們和「閾值邏輯」、「Hebb 學習率」一起構成 ANN 的 4 大支柱。

除 4 大支柱之外,還有一系列重要工作,其中包括更好的損失函數,如交叉熵損失函數(cross-entropycostfunction)[21]; 算法的改進,如防止過擬合的正則化方法(regularization)[22]; 新的網絡形式,如 1980 年日本福島邦彥(Fukushima)的卷積神經網絡(convolutionneuralnetworks,CNN)[23,24],遞歸神經網絡(recurrentneuralnetworks,RNN)[25],長短程記憶神經網絡(longshort-termmemoryneuralnetworks,LSTM)[26],辛頓的深度信念網絡(deepbeliefnets,DBN)[27] 等。這些工作共同開啟了以深度學習(deeplearning)為基礎的第二代 AI 的新紀元[28]。

第二代 AI 的學習理論有堅實的數學基礎,為了說明這個基礎,下面舉一個簡單的有監督學習的例子,有監督學習可以形式化為以下的函數回歸問題: 從資料庫 D 中提取樣本

,對樣本所反映的輸入–輸出關係 f:X→Y 做出估計,即從備選函數族(假設空間)F={fθ:X−→Y;θ∈A}中選出一個函數 f^∗使它平均逼近於真實 f。在深度學習中這個備選函數族由深度神經網絡表示:

參數學習中有 3 項基本假設。(1)獨立性假設: 損失函數和備選函數族 F(或者神經網絡結構)的選擇與數據無關。(2)大容量假設: 樣本(x_i,y_i)數量巨大(n→∞)。(3)完備性假設: 訓練樣本完備且無噪聲。

如果上述假設均能滿足,f^∗將隨樣本數的增加最後收斂於真實函數 f。由此可見,如果擁有一定質量的大數據,由於深度神經網絡的通用性(universality),它可以逼近任意的函數,因此利用深度學習找到數據背後的函數具有理論的保證。這個論斷在許多實際應用中得到了印證,比如,在標準圖像庫 ImageNet(2 萬類別,1 千 4 百萬張圖片)上的機器識別性能,2011 年誤識率高達 50%,到 2015 年微軟公司利用深度學習方法,誤識率大幅度地降到 3.57%,比人類的誤識率 5.1% 還要低 [29]。低噪聲背景下的語音識別率,2001 年之前基本上停留在 80% 左右,到了 2017 年識別率達到 95% 以上,滿足商品化的要求。

2016 年 3 月谷歌圍棋程序 AlphaGo 打敗世界冠軍李世石,是第二代 AI 巔峰之作,因為在 2015 年之前計算機圍棋程序最高只達到業餘五段!更加令人驚奇的是,這些超越人類性能成果的取得,並不需要領域知識的幫助,只需輸入圖像原始像素、語音原始波形和圍棋棋盤的布局(圖像)!

深度學習的成功來自於以下 3 個要素:一是數據,以 AlphaGo 為例,其中 AlphaGo-Zero 通過強化學習自學了億級的棋局,而人類在千年的圍棋史中,下過的有效棋局只不過 3000 萬盤。二是算法,包括蒙特卡洛樹搜索(Monte-Carlotreesearch)[30]、深度學習和強化學習(reinforcementlearning)[31] 等。三是算力,運行 AlphaGo 的機器是由 1920 個 CPU 和 280 個 GPU 組成的分布系統。因此第二代 AI 又稱數據驅動方法。

在創建第二代 AI 中做出重大貢獻的學者中,有以下 5 位獲得圖靈獎。他們是菲麗恩特(L. G. Valiant,2010)、珀爾(J. Pearl,2011)、本傑奧(Y. Bengio,2018)、辛頓(G. Hinton,2018)、楊立昆(Y. LeCun,2018)等。

早在 2014 年,深度學習的諸多缺陷不斷地被發現,預示著這條道路遇到了瓶頸。下面僅以基於深度學習的圖像識別的一個例子說明這個問題(材料引自本團隊的工作)。文獻 [32] 表示利用基於動量的迭代快速梯度符號法(momentumiterativefastgradientsignmethod,MI-FGSM)對 Inceptionv3 深度網絡模型實施攻擊的結果。無噪聲的原始圖像——阿爾卑斯山(Alps),模型以 94.39% 的置信度得到正確的分類。利用 MI-FGSM 方法經 10 次迭代之後生成攻擊噪聲,將此攻擊噪聲加進原圖像後得到攻擊樣本。由於加入的噪聲很小,生成的攻擊樣本與原始圖幾乎沒有差異,人類無法察覺,但 Inceptionv3 模型卻以 99.99% 的置信度識別為「狗」。

深度學習為何如此脆弱,這樣容易受攻擊,被欺騙和不安全,原因只能從機器學習理論本身去尋找。機器學習的成功與否與 3 項假設密切相關,由於觀察與測量數據的不確定性,所獲取的數據一定不完備和含有噪聲,這種情況下,神經網絡結構(備選函數族)的選擇極為重要,如果網絡過於簡單,則存在欠擬合(under-fitting)風險,如果網絡結構過於複雜,則出現過擬合(overfitting)現象。雖然通過各種正則化的手段,一定程度上可以降低過擬合的風險,但是如果數據的質量差,則必然會導致推廣能力的嚴重下降。

此外,深度學習的「黑箱」性質是造成深度學習推廣能力差的另一個原因,以圖像識別為例,通過深度學習只能發現重複出現的局部片段(模式),很難發現具有語義的部件。文獻 [33] 描述了利用深度網絡模型 VGG-16 對「鳥」原始圖像進行分類,從該模型 pool5 層 147 號神經元的響應可以看出,該神經元最強烈的響應是「鳥」頭部的某個局部特徵,機器正利用這個局部特徵作為區分「鳥」的主要依據,顯然它不是「鳥」的不變語義特徵。因此對於語義完全不同的對抗樣本(人物、啤酒瓶和馬等),由於具有與「鳥」頭部相似的片段,VGG-16 模型 pool5 層 147 號神經元同樣產生強烈的響應,於是機器就把這些對抗樣本錯誤地判斷為「鳥」。

3 第三代人工智慧

第一代知識驅動的 AI,利用知識、算法和算力 3 個要素構造 AI,第二代數據驅動的 AI,利用數據、算法與算力 3 個要素構造 AI。由於第一、二代 AI 只是從一個側面模擬人類的智能行為,因此存在各自的局限性。為了建立一個全面反映人類智能的 AI,需要建立魯棒與可解釋的 AI 理論與方法,發展安全、可信、可靠與可擴展的 AI 技術,即第三代 AI。其發展的思路是,把第一代的知識驅動和第二代的數據驅動結合起來,通過同時利用知識、數據、算法和算力等 4 個要素,構造更強大的 AI。目前存在雙空間模型與單一空間模型兩個方案。

3.1 雙空間模型

雙空間模型如圖 2 所示,它是一種類腦模型,符號空間模擬大腦的認知行為,亞符號(向量)空間模擬大腦的感知行為。這兩層處理在大腦中是無縫融合的,如果能在計算機上實現這種融合,AI 就有可能達到與人類相似的智能,從根本上解決目前 AI 存在的不可解釋和魯棒性差的問題。為了實現這種目標,需要解決以下 3 個問題。

3.1.1 知識與推理

知識 (包括常識) 與推理是理性智能的基礎, 在第一代 AI 中, 以物理符號系統模擬人類的理性 智能, 取得顯著的進展, 但無論在知識表示還是推理方法上都有大量的問題需要進一步探討。下面以 IBMDeepQA 項目[34] 為例說明最近的進展, 之所以選擇這個例子是因為基於 DeepQA 構成的 Watson 對話系統, 在 2011 年 2 月美國電視 「危險邊緣」 智力競賽節目中, 以壓倒優勢戰勝全美冠軍 K. 詹寧斯 (KenJennings) 和 B. 拉特 (BradRutter), 表明 Watson 是一個成功的 AI 系統。Watson 關於知識 表示和推理方法的以下經驗值得借鑑: (1) 從大量非結構化的文本自動生成結構化知識表示的方法, (2) 基於知識質量的評分表示知識不確定性的方法, (3) 基於多種推理的融合實現不確定性推理的方法。

Watson 系統將 「問答」(question-answer) 看成是基於知識的從 「問題」 到 「答案」 的推理, 為了達 到人類的答題水平, 計算機需要擁有與人類冠軍一樣甚至更多的知識。其中包括百科全書、主題詞表、 詞典、專線新聞報導、文學作品等網際網路上數量巨大 (相當於 2 億頁的紙質材料) 的文本, 這些文本是 非結構化的, 而且質量參差不齊, 需要把這些非結構化的文本自動轉換為結構化且易於處理的表達形 式。Watson 系統使用的表達形式為 「擴展語料庫」(expendedcorpus) , 它的生成步驟如下。首先給出 基線語料庫 (baselinecorpus) 判別種子文件 (seeddocuments) , 根據種子文件從網上收集相關文件 並 並 從中挖掘 「文本核 」(textnuggets) , 對文本核做評分 按 按照評分結果集成為最後的 「擴展語料庫」。

除自動生成的擴展語料庫之外, Watson 的知識庫中還包括已有的語料庫, 如 dbPedia, WordNet, Yago 等, 以及人工編制的部分庫。Watson 採用多種推理機制 (多達百種) 將 「問題」 轉換為 「答案」(見圖 3)。先對 「問題」 做分析、分類和分解, 根據分解的結果從答案源 (語料庫) 中搜索假設與候選答 案, 經初步過濾之後, 篩選出 100 個左右候選答案。再從證據源中收集證據, 對候選答案進行評分, 評 估過程同時考慮數據源的可靠性, 依據評分結果合成出幾種候選答案, 按照置信度大小進行排序, 最後輸出排序後的答案。

此外,Watson 還通過 155 場與人類現場對決和 8000 次的實驗,學習對「問題」(自然語言)的理解。

3.1.2 感知

符號主義用符號系統作為人類心智的模型, 以實現與人類相似的推理能力。但從認知的角度看, 二者卻有本質上的不同, 即存在 「符號基礎問題」(symbolgroundingproblem)[35]。在物理符號系統中, 客觀世界的 「對象」 和 「關係」 等用符號表示, 但符號本身並無語義, 我們只好人為地給它們規定語義, 也就是說是外部強加的 「寄生語義」(parasiticsemantics) , 機器本身並不知道。這與人類大腦中存在的 「內在語義 」(intrinsicsemantics) 完全不同, 人類大腦中的 「內在語義」, 特別是 「原子概念」 和 「常識」, 除極少數先天之外, 主要是通過感官 (視聽等) 或者感官與動作的結合自我習得的, 即將感官圖符式 (iconic) 表示或反映語義不變性的分類 (categorical) 表示轉化為符號表示。這本來是深度學習要完成的任務, 但很可惜, 目前深度學習的模型並不能完成這項使命。因為深度學習所處理的空間是特徵空間, 與語義空間差別很大, 它只能學到沒有明確語義的 「局部片段」, 這些片段不具備可組合性, 因此不 能用來作為 「物體」 的 「內在語義」 表示。換句話講, 目前的深度學習只能做到 「感覺」(sensation) , 達不到感知 為 為達到感知的水平 , 機器必須通過自我學習獲取 「物體」 的語義部件 (semanticparts) , 如 「狗」 的腿、頭、尾等,才有可能通過這些部件的組合形成 「狗」 的不變 「內在語義」。解決這個問題的基本思路是利用知識為引導,將感覺的信息從向量特徵空間提升到符號語義空間,如圖 2 所示。這方面已經有不少的研究工作 [36∼39] ,下面以本團隊的工作闡述這方面工作的初步進展。

文獻 [40] 描述如何利用一個三元生成對抗網絡 (triplegenerativeadversarialnetworks , Triple-GAN) 提高圖像分類性能的方法。三元生成對抗網絡由 3 部分組成: 分類器、生成器和鑑別器,分別用於條件化圖像生成和半監督學習中的分類。生成器在給定真實標籤的情況下生成偽數據,分類器在給定真實數據的情況下生成偽標籤,鑑別器的作用是區分數據標籤對是否來自真實標記的數據集。如果設計好合適的效用函數,利用三元生成對抗網絡,可以通過無監督(或弱監督)學習,讓生成器(網絡)學到樣本中「物體」的表示(即先驗知識),同時利用這個先驗知識改善分類器的性能。

此項研究表明,通過 ANN 的無監督學習可以學到「物體」的先驗知識,這就是「物體」(符號)的「內在語義」。利用這個具有「內在語義」的先驗知識提高分類器的識別率,從根本上解決計算機視覺中存在的「檢測」(where)與「識別」(what)之間的矛盾,實現小樣本學習,提高魯棒性和推廣能力。

還可以從另外的角度思考,先回到深度學習所使用的人工神經網絡(圖 4),以視覺為例,它與人類的視覺神經網絡相比過於簡單了,既沒有反饋連接,同層之間的橫向連接和抑制連接,也沒有稀疏放電、記憶和注意等機制。如果我們能夠將這些機制引進 ANN,將會逐步提高計算機視覺的感知能力。由於我們對大腦視神經網絡的工作原理了解得很少,目前只能沿著「腦啟發計算」(brianinspiredcomputing)的道路一步一步地往前探索。

目前有一些試探性的工作,有些效果但都不夠顯著。下面介紹本團隊的一項研究。如文獻 [41] 所述,將稀疏放電的原理運用到 ANN 各層的計算中。網絡共 6 層,包括 Gabor 濾波和 Max 池化等,在各層的優化計算中加上「稀疏」正則約束項,稀疏性的要求迫使 ANN 選擇最具代表性的特徵。如果用背景簡單的「人類」「小汽車」「大象」和「鳥」等圖像作為訓練樣本訓練網絡,那麼神經網絡的輸出層就會出現代表這些「類別」的神經元,分別對人臉、小汽車、大象和鳥的輪廓做出響應,即提取了「整個物體」的語義信息,形成部分的「內在語義」。

這種方法也只能提取部分的語義信息,還不能做到提取不同層面上的語義信息,如「整體」、「部件」和「子部件」等,達到符號化的水平,因此仍有許多工作有待研究。

3.1.3 強化學習

上面說過通過感官信息有可能學到一些基本知識(概念),不過僅僅依靠感官信息還不夠,比如「常識概念」,如「吃飯」「睡覺」等僅依靠感官難以獲取,只有通過與環境的交互,即親身經驗之後才能獲得,這是人類最基本的學習行為,也是通往真正 AI 的重要道路。強化學習(reinforcementlearning)就是用來模擬人類的這種學習行為,它通過「交互–試錯」機制,與環境不斷進行交互進而學習到有效的策略,很大程度上反映了人腦做出決定的反饋系統運行機理,成為當前人工智慧突破的重要方法,在視頻遊戲[42,43]、棋牌遊戲[44,45]、機器人導航與控制[46,47]、人機互動等領域取得了諸多成果,並在一些任務上接近甚至超越了人類的水平[48,49]。

強化學習通常看成是離散時間的隨機控制過程,即智能體與環境的交互過程。智能體從起始狀態

出發,取得起始觀察值

,在 t 時刻,智能體根據其內部的推理機制採取行動

之後,獲得回報

,並轉移到下一個狀態

,得到新的觀察

。強化學習的目標是,選擇策略π(s,a)使累計回報預期 V^π(s):S→R 最優。如果我們考慮簡單的馬爾可夫(Markov)決策過程,即後一個狀態僅取決於前一個狀態,並且環境完全可觀察,即觀察值 o 等於狀態值 s,即 O=S; 並假設策略穩定不變。如圖 5 所示。以 AlphaZero 為例,智能體不依賴人類的標註數據,僅僅通過自我博弈式的環境交互積累數據,實現自身策略的不斷改進,最終在圍棋任務上達到了超越人類頂級大師的水平,代表強化學習算法的一個巨大進步[45]。

強化學習算法在選擇行為策略的過程中,需要考慮環境模型的不確定性和目標的長遠性。具體的,通過值函數也就是未來累積獎勵的期望衡量不同策略的性能,即

其中γ∈[0,1]是折扣因子。值函數可以寫成貝爾曼方程(Bellmanequation)的形式。該方程表示了相鄰狀態之間的關係,可以利用其將決策過程劃分成多個不同的階段,其中某一階段的最優決策問題可以利用貝爾曼方程轉化為下一階段最優決策的子問題。

強化學習的核心目標就是選擇最優的策略,使得預期的累計獎勵最大,即值函數取得最優值

需要指出的是,儘管強化學習在圍棋、視頻遊戲等任務上獲得了極大的成功,但是這些任務從本質上是相對「簡單」的,其任務的環境是完全可觀察的、反饋是確定的、狀態主要是離散的、規則是明確的,同時可以相對比較廉價地得到大量的數據,這些都是目前人工智慧算法所擅長的。但是在不確定性、不完全信息、數據或者知識匱乏的場景下,目前強化學習算法的性能往往會出現大幅度的下降,這也是目前強化學習所面臨的重要挑戰。其中的典型問題如下所述。

(1)部分觀測馬氏決策過程中強化學習: 在真實的問題中,系統往往無法感知環境狀態的全部信息,因此不僅需要考慮動作的不確定性,同時也需要考慮狀態的不確定性。這就導致了部分感知的強化學習往往不滿足馬爾可夫環境假設。儘管相關的研究者近年來進行了大量的探索,但是部分觀測馬氏決策(partiallyobservableMarkovdecisionprocess,POMDP)仍然是強化學習中比較有挑戰的問題。

(2)領域知識在強化學習中的融合機制: 如何實現領域知識的融合在強化學習中同樣是重要科學問題。對提高收斂速度、降低採樣複雜度、改善模型遷移性和算法魯棒性等具有重要意義。本團隊針對這一問題,在領域知識指導的動作空間抽象壓縮 [50]、結構設計[51] 等方面進行了初步探索,但是如何實現領域知識和強化學習框架的高效融合仍然是亟待解決的問題。

(3)強化學習和博弈論的結合: 博弈論和強化學習的結合是近年來領域內研究的熱點問題。二者的結合可以讓多智能體之間的競爭和合作關係的建模變得更加直觀和清晰,這其中包含了多智能體之間的零和 / 非零和、完全信息 / 非完全信息等多種不同的任務類型,尤其是在對抗性的任務中更具有研究和應用價值[43]。本團隊前期在這方面也進行了探索性的研究,將智能體對環境的探索建模成智能體和環境之間的博弈過程[52],也是目前第一個在擴展型博弈、參數未知的場景下能夠從理論上保證收斂的算法。

除此之外,強化學習所面臨的難題還包括仿真環境和真實環境的差異、探索和利用的矛盾、基於模型的強化學習算法等諸多難點的問題,相比於監督學習所獲得的成功而言,強化學習的研究還處於相對較為初級的階段。

3.2 單一空間模型

單一空間模型是以深度學習為基礎,將所有的處理都放在亞符號(向量)空間,這顯然是為了利用計算機的計算能力,提高處理速度。問題在於深度學習與大腦的學習機制不同,在許多方面表現不佳,如可解釋性和魯棒性等。關鍵是要克服深度學習所帶來的缺陷,如圖 6 所示。下面討論幾個關鍵問題。

3.2.1 符號表示的向量化

知識通常以自然語言的離散符號形式表示,為了實現單一空間模型,首先要將符號表示的詞、短語、句子和篇章等轉換為向量,或者將知識圖譜轉換為向量表示。關鍵是「詞」的變換,即詞嵌入(wordembedding)。目前「詞嵌入」已有各種方法,如 Word2Vec[53]和 GloVe[54]等。

下面介紹 Word2Vec 中採用的 Skip-gram[55]策略,用來說明詞是如何由符號轉換為向量的。

其中 w 是給定的目標詞,c 是從其上下文中任選的一個詞,p(c|w;θ)是給定詞 w 下,詞 c 出現的概率。D 是從語料庫中提取的所有 w−c 對,θ是模型參數,式(5)進一步參數化後,得到

其中

是詞 c 和詞 w 的向量表示,C 是所有可用文本。參數

,i=1,2,...d,共 | C|×|W|×d 個。調整這些參數使式(5)最大化,最後得到所有詞 w∈W 的向量表示

這些詞向量具有以下良好的性質,即「語義相似的詞,其詞向量也很相似」(見圖 7)。變換後的詞向量之所以具有上述良好的性質,出自嵌入過程的以下假設,兩個詞在上下文中同現的頻率越高,這兩個詞的語義越可能接近,或者越可能存在語義上的某種關聯。嵌入詞向量的這些特性,表明它帶有語義信息,因此稱嵌入空間為準語義空間。式(5)是難計算的,可以採用深度神經網絡等做近似計算。利用類似的嵌入法也可以把「短語」「句子」和「篇章」或者知識圖譜等轉換到具有準語義的向量空間中去[56]。

向量形式的知識表示具有上述良好的性質,且可以與數據一樣,使用大量的數學工具,包括深度學習方法,因此被大量應用於文本處理,如機器翻譯等,取得明顯的效果。下面以神經機器翻譯(neuralmachinetranslation)為例予以說明[57,58]。

神經機器翻譯的基本思路是,給定源句子(比如中文)

,尋找目標句(比如英文)

。神經翻譯的任務是,計算詞一級翻譯概率的乘積,

其中θ是一組模型參數,

是部分翻譯結果。詞一級的翻譯概率可用 softmax 函數 f(·)定義:

其中

是目標句中第 j 個詞的向量表示,v_x 是源句子的向量表示,

是部分翻譯句的向量表示,y=y_j,j=1,2...,J 是要找的目標句。

神經翻譯模型的構造: 給定訓練樣本為一組「源句–目標句」對

,模型訓練的目標是最大化 log 似然:

即選擇一組模型參數θ,使目標函數最大化。利用這個模型,通過式(7)計算(翻譯)目標句子。這種翻譯方法儘管可以得到比傳統方法錯誤率還低的翻譯結果,但它具有深度學習方法的共性缺陷,如不可解釋、會發生重大錯誤、魯棒性差等。為克服這些缺陷,需要加入知識,通過先驗知識或後驗正則化等方式引入語言知識等。

3.2.2 深度學習方法的改進

基於深度學習的 AI 具有不可解釋和魯棒性差等缺陷,目前有許多改進工作。下面介紹本團隊的一些工作。

(1)可解釋性問題。可解釋人工智慧算法的研究近年來引起眾多研究人員的關注。而人類理解機器決策過程的核心難點是跨越數據特徵空間和人類語義空間之間的鴻溝[59]。無論是早期的以手工特徵為基礎的算法,還是當前以特徵學習為代表的深度學習,其核心思想都是將觀測樣本映射到特徵空間中,進而在特徵空間進行分析,發現樣本在特徵空間不同區域內的規律,從而達到算法要實現的任務目標(如分類、回歸等)。與之不同的是,人類的分析和決策是利用自身的背景知識,在語義空間當中完成。但是數據特徵空間和人類的語義空間在結構和內涵上存在顯著的區別,而可解釋人工智慧的最終就是要在二者之間架起一座橋梁,進而跨越二者之間的鴻溝。

總體而言,相關的研究主要分為(i)模型的後解釋技術(post-hocexplanation),也就是給定了人工智慧的模型,通過可視化、交互技術等方式,分析給定模型的工作機理,為其決策結果尋找解釋途徑;(ii)可解釋模型,即通過發展新的網絡架構、損失函數、訓練方式等,發展具有內在可解釋性的新型人工智慧模型。從整體來說,兩類方法目前都在發展過程中,在可解釋性的研究中具有重要作用。

可視分析是人工智慧算法可解釋的一種直觀的思路。既然深度學習是「黑箱」學習法,內部的工作機理是不透明的,「不可解釋」,如果利用可視化,打開「黑箱」,一切不就清楚了嗎? 為了幫助機器學習專家更加理解卷積神經網絡的工作機理,我們開發了 CNNVis 這一可視分析工具[60]。CNNVis 旨在幫助專家更好地理解與診斷深度卷積神經網絡,作為一種混合可視化方法,綜合應用了基於雙聚類技術的邊綁定方法,以及矩形布局算法、矩陣重排算法和有向無環圖布局算法等。作為可視化領域的首批深度學習可視分析工作,該工作在工業界和學術界都引起了廣泛關注。在此基礎上,為了分析複雜神經網絡的訓練過程,我們以深度生成模型(對抗生成網絡(generativeadversarialnetworks,GAN)和變分自編碼器(variationalauto-encoder,VAE))為例,研究了如何幫助機器學習專家診斷訓練過程中出現的常見問題。

解釋模型的另外一個思路是利用部分統計分析的技巧,針對神經網絡決策過程中的參數冗餘性,對神經網絡內部最後決策起到關鍵作用的子成分進行分析,得到複雜模型內部對決策起到最關鍵作用的核心部分。為了更高效發掘子網絡,我們借鑑了網絡剪枝(networkpruning)思路,提出一種普適的提取子網絡的方法,而無需對模型從頭進行訓練[61]。具體來說,我們對網絡中每一層都附加一組控制門(controlgate)變量,在知識蒸餾[62](knowledgedistillation)準則下優化該組變量控制各層輸出通道,用以確定關鍵子網絡。具體來說,令 p(y | x;θ)為具有權重參數θ的原始模型對於單個樣本 X 所做出的預測概率。而我們想要提取參數為θ_s 的關鍵子網絡,其預測輸出應為 q(y | x;θ_s),應該與原模型輸出結果在 Kullback-Leibler 散度度量下接近。因此總體最小化目標函數為

其中Ω(θ_s)為稀疏正則項,即鼓勵模型通過儘量少的激活神經元達到和原網絡相似的性能。通過對關鍵子網絡可視化分析,我們觀察到對於樣本特定子網絡,各層控制門值表徵形式隨著層級增高而展現出類別區分特性。實驗結果表明,對於類別特定子網絡,其整體表徵形式與類別語義之間有著密切聯繫。

以上方法更多的關注是模型的後解釋,也就是給定一個深度學習模型「強行」尋求對其決策過程的解釋,而這種解釋是否符合神經網絡的內在機理仍然是需要討論的問題。由於深度學習模型的不可解釋性是由於機器推理的特徵空間和人類可理解的空間存在著本質的區別,因此深度學習要想實現可解釋性就需要把機器特徵空間和人類的語義空間聯繫起來。本團隊也在此方面進行了探索性研究[63],主要針對如何將人類的先驗知識融入到深度學習模型的訓練中,使特徵具有更加明確的語義內涵,從而能夠做到決策的追溯。具體的,在圖文的聯合分析中,我們利用文本信息中抽取出來的人類可理解的主題信息指導神經網絡的訓練過程,並對文本和圖像 / 視頻數據進行協同訓練,引導神經網絡訓練得到人類可以理解的語義特徵。具體的,我們通過在神經網絡的目標函數中引入可解釋的正則約束:

其中第 1 項是相關任務的損失函數,第 2 項是可解釋正則約束。通過這種方法,可以在文本數據引導下,通過不同模態數據之間的信息互補性,利用可解釋正則約束,提升深度學習模型的可解釋性。

(2)魯棒性問題。由於對抗攻擊給深度學習模型帶來的潛在的惡意風險,其攻擊不但精準且帶有很強的傳遞性,給深度學習模型的實際應用帶來了嚴重的安全隱患,迫切需要增強深度學習模型自身的安全性,發展相應的深度學習防禦算法,降低惡意攻擊帶來的潛在威脅[64]。具體來說,目前的深度學習防禦算法主要有兩類思路。

第 1 是基於樣本 / 模型輸入控制的對抗防禦。這類方法的核心是在模型的訓練或者使用階段,通過對訓練樣本的去噪、增廣、對抗檢測等方法,降低對抗攻擊造成的危害。其中去噪器由於不改變模型自身的結構和性質,具有「即插即用」的性質,引起了廣泛的關注。但是由於對抗噪聲的特殊屬性,其形成的幹擾效應往往可以隨著神經網絡的加深逐步放大,因此在普通的高斯噪聲(Gaussiannoise)上具有良好濾除效果的自編碼器往往不能很好地濾除對抗噪聲。

針對這一問題,本團隊提出了基於高層表示引導的去噪器(HGD)[65],通過高層特徵的約束使得對抗樣本與正常樣本引起目標模型的上層神經元響應儘可能一致。將傳統像素級去噪網絡 DAE(denoisingautoencoder)與 U-net 網絡結構進行結合,到負噪聲輸出

,用對抗樣本加上負噪聲可以得到去噪圖片

,即

。研究表明該方法不僅去掉了一部分對抗擾動,還增加了一部分「反對抗擾動」,取得了非常好的防禦效果,獲得「NIPS2017 對抗性攻防競賽」中對抗防禦任務冠軍,以及 2018 年在拉斯維加斯(LasVegas)舉辦的 CAADCTF 對抗樣本邀請賽冠軍。

第 2 是基於模型增強的對抗防禦。這類方法的核心是通過修改網絡的結構、模型的激活函數、損失函數等,訓練更加魯棒的深度學習模型,從而提高對對抗攻擊的防禦能力。其中集成模型(ensemble)是近年來出現的一類典型的防禦方法。針對經典集成防禦由於各個子模型的相似性導致防禦性能下降的問題,本團隊提出自適應多樣性增強訓練方法(adaptivediversitypromotingtraining,ADP)[66]。相比於經典集成模型,ADP 方法在訓練函數中額外引入了多樣性正則項,鼓勵每個子模型在正確類別上決策一致,而在其他類別上預測不一致。由於其他類別包括所有潛在的對抗樣本的目標類別,所以這種不一致性可以使得各個子模型難以被同時欺騙,從而增強集成模型的魯棒性。具體來講,在 ADP 方法中,為了保證每個子模型的最大預測都對應於正確的類別,這種多樣性定義在每個子模型輸出的非最大預測上,當不同子模型的非最大預測向量相互正交時,這種多樣性取得最大值。具體的,其訓練的目標函數為

其中,

;

為每個子模型 k 的交叉熵(cross-entropy)損失函數。ADP_α,β(x,y)=α·H(F)+β·log(ED)是模型集成多樣性的度量,鼓勵不同的子模型形成儘量差異化的決策邊界。實驗結果表明,通過鼓勵不同子模型的差異化決策性質,有效地提升了模型的對抗魯棒性。但是,總體而言,目前多數的對抗防禦方法是基於經驗主義的,研究表明很多防禦對抗樣本的方法在很短的時間就會被後來的攻擊算法攻破。其重要原因之一是深度學習只是在做簡單的函數擬合,缺乏像人一樣對問題的理解能力[67]。因此通過理解機器學習模型的內部工作機理,發展數據驅動和知識驅動融合的第三代人工智慧理論框架,將成為提高人工智慧算法魯棒性的重要途徑。

但是,總體而言,目前多數的對抗防禦方法是基於經驗主義的,研究表明很多防禦對抗樣本的方法在很短的時間就會被後來的攻擊算法攻破。其重要原因之一是深度學習只是在做簡單的函數擬合,缺乏像人一樣對問題的理解能力[67]。因此通過理解機器學習模型的內部工作機理,發展數據驅動和知識驅動融合的第三代人工智慧理論框架,將成為提高人工智慧算法魯棒性的重要途徑。

3.2.3 貝葉斯深度學習

如圖 6 所示,圖像和語音等信息是在特徵空間中處理的,這些特徵語義信息很少,需要提取含有更多語義的特徵,其中的一種解決辦法是將知識引入深度學習。下面以貝葉斯深度學習為例,說明這一思路。

我們前面說過深度神經網絡沒有考慮數據觀測的不確定性,這種不確定性的存在,以及對於數據背後物理背景的無知,使我們對深度學習結果的正確性難以判斷。同時,在數據量有限但模型逐漸變大(如包括十億甚至千億參數)的過程中,模型的不確定性也變得更嚴重——存在很多模型在訓練集上表現都很好,但在測試集上的表現差別很大。貝葉斯學習充分考慮了先驗知識以及模型和數據的不確定性,而且還能從不斷提供的數據(證據)中,加深對數據的了解,即根據新的證據實現增量式的學習,充分發揮知識在學習中的作用。不僅可以對學習結果的可信度做出判斷,也因此提高了學習的效率和準確度。

貝葉斯學習(Bayesianlearning)定義: 給定觀測數據 d∈D,按貝葉斯規則計算每個假設的概率,

其中 D 是所有數據[12,68]。給定 d

是對未知量 X 的預測,即通過觀測數據確定各個假設的概率,再從各個假設確定未知量 X 的分布。其中的關鍵是假設先驗 p(h_i)和給定假設 h_i 下數據 d 的似然 p(d|h_i)。貝葉斯預測(式(13))不管樣本量大小,均可達到最優,但當假設空間很大時,式(13)的加法計算量太大(在連續情況下為積分),難以實際應用。通常需要採用近似算法,主要有兩類近似方法——變分推斷和蒙特卡洛採樣[69]。另外,還有一些常見的簡化有,(1)對 X 的預測不是利用所有的假設,而只利用其中讓 p(h_i|d)最大化的一個 h_i,稱為最大化後驗(maximumaposteriori,MAP)假設。(2)假定 p(h_i)是均勻分布,問題就簡化為,選擇一個讓 p(d|h_i)最大化的 hi,稱為最大化似然(maximumlikelihood,ML)假設。(3)如果不是所有數據都可以觀測,即存在隱變量,通常採用 EM(expectationmaximization)算法[70]。該算法分為兩步(式(14)),E 步: 利用觀測的數據 x 和θ^(i),計算 p(Z=z|x;θ^(i));M 步: 利用計算出來的 z 和 x,計算模型參數θ^(i+1)。兩個步驟交替進行,找到最終的模型參數θ:

貝葉斯準則 (式 (12)) 是一個從先驗分布和似然函數推斷後驗分布的過程, 為了更靈活地考慮知識, 我 們團隊提出了正則化貝葉斯 (regularized Bayesian inference, RegBayes) [71] , 它基於貝葉斯定理的信息 論描述 [72] , 通過引入後驗正則化, 在變分優化的框架下可以靈活地考慮領域知識 (如基於邏輯表達式 的知識 [73] ) 或者學習任務優化的目標 (如最大間隔損失 [74] ) 等.

更進一步的, 貝葉斯深度學習是將貝葉斯學習的基本原理與深度神經網絡的表示學習有機融合的 一類方法, 融合主要體現在兩個方面, (1) 用貝葉斯方法更好地學習深度神經網絡 (如貝葉斯神經網絡、 高斯過程等), 包括計算預測的不確定性、避免過擬合等; (2) 用深度神經網絡作為非線性函數變換定 義更加豐富靈活的貝葉斯模型, 如圖 8 所示, 包括深度生成模型 (如 GAN, VAE, 基於可逆變換的流模 型等). 其中第 1 種融合早在 20 世紀 90 年代就被霍普菲爾德 (J. Hopfield) 和辛頓指導博士生系統研究過 [75, 76] , 當時的算力和數據都很有限, 稍微大一點的神經網絡都面臨著嚴重的過擬合, 因此, 那時 候就開始研究用貝葉斯方法保護神經網絡, 並且選擇合適的網絡結構. 隨著神經網絡的加深, 貝葉斯 方法又引起了很多研究興趣, 主要進展包括對深度貝葉斯神經網絡進行高效的 (近似) 計算, 需要克服 的主要困難是深度網絡過參數化 (over-parametrization) 帶來的維數災難. 在這方面, 我們團隊進行了 深入研究, 先後提出了隱式變分推斷 (implicit variational inference) 算法 [77, 78] , 在泛函空間進行粒子 優化的推斷算法 (functional variational inference) [79] 等.

對於第 2 種融合, 我們知道一個簡單分布的隨機變量 z 經過函數 f 變化之後, 得到的變量 x = f(z), 具有更複雜的分布, 當 f 是一個雙射變換時, 我們可以得到 x 分布的解析形式

但是, 在處理複雜數據時, f 是未知的, 因此, 我們希望從數據中進行學習. 利用深度神經網絡的強大擬合能 力, 我們將 f 定義成一個深度神經網絡, 通過一定的準則學習最優的 f_θ. 如圖 8 所示, 這種想法被證明是非常有效的, 已經發展了包括 VAE, GAN 以及基於流的模型 (flow-based models), 即使在完全無 監督訓練下, 這些模型都可以產生高質量的自然圖片或人臉等.

具體的, 這幾種模型的區別在於定義 x 的變化函數, 在 VAE 中,

其中 ϵ 是一個噪聲變量 (如白噪聲對應的標準高斯分布); 在 GAN 和基於流的模型中, 沒有顯式的噪聲變量。這種區別帶來了參數估計上的不同, VAE 和基於流的模型採用最大似然估計, 而 GAN 定義了對抗學習的目標——「最大最小博弈」。同樣的, 這些模型雖然功能強大, 但是給推斷和學習也帶來了很多挑戰。例如, GAN 網絡的訓練過程經常是不穩定的, 會遇到梯度消失或梯度爆炸等問題, 我們團隊最新的成果利用控制論對這一問題進行了分析研究, 提出了有效的反饋機制, 能夠讓 GAN 的訓練更平穩[80]。此外, 基於可逆變換的流模型往往受限於維數的約束, 為此, 我們提出了自適應數據增廣的流模型 [81] , 顯著提升這類模型的表達能力。

基於上述介紹, 能夠看出貝葉斯深度學習提供了一種強大的建模語言, 將不確定性建模和推斷與深度表示學習有機融合, 其關鍵挑戰在於推斷和學習算法。幸運的是, 近年來, 在算法方面取得了很多突破進展 (如上所述)。同時, 也發展了性能良好的概率編程庫, 支持貝葉斯深度學習模型的開發和部 署。例如, 我們團隊研製的「珠算」[82]1) , 是最早的系統支持貝葉斯深度學習的開源庫之一。在應用方面, 貝葉斯深度學習的方法已經在時間序列預測、半監督學習、無監督學習、小樣本學習、持續學習 等複雜場景下, 取得良好的效果.

3.2.4 單一空間中的計算

如圖 6 所示, 我們要在單一的向量空間中, 對來自文本的嵌入向量和來自視聽覺的特徵向量進行 計算, 存在一定的難度. 因為文本中以符號表示的詞, 經嵌入之後變成向量時損失了大量語義, 從視聽覺中提取的特徵, 雖然我們儘量獲取更多的語義, 但一般情況多屬底層特徵, 語義含量很少.

我們將以視覺問答 [83∼85] 為例介紹這方面的初步嘗試. 在視覺問答中既有圖像又有文本, 需要在單一的向量空間中同時處理, 涉及單一空間模型的使用。以本團隊關於 「篇章級圖文問答」 研究工作為例予以說明[85] 。如圖 9 所示, 根據給定的圖片, 回答以下問題, 「在大陸地殼下面有多少層 (類型)?」, 除問題以文本形式表示之外, 還有一個與圖片相關的篇章「板塊運動」。

首先通過詞嵌入 (採用 Word2Vec 中的 Skip-gram 策略), 將 「問題」 與 「篇章」 中的以離散符號表示的詞轉換為向量. 圖片經 ResNet 網絡處理後, 取 res5c 層的特徵作為輸出 [55] , 它是一組高維空間的特徵向量。然後將「問題」和「篇章」中的詞向量與「圖片」輸出的特徵向量做融合, 以預測「答案」。為了更好地融合, 通過注意機制, 先找出「問題」 和 「篇章」中的「關鍵詞」, 這些關鍵詞能夠更好地反映「問題」的主題 (語義)。再依據關鍵詞通過「空間注意機制」找出圖片中關鍵區域的特徵, 因為這些特徵更符合關鍵詞向量所表達的主題, 因此融合效果會更好。這裡採用的融合方法是雙線性池化 (multi modal bilinear pooling) 方法。「圖文問答」是選擇題, 備選方案有 「1」, 「2」, 「3」三種, 將融合後的向量與備選方案的向量相比較, 取最接近的一個向量作為輸出, 這裡是 「2」 (向量)。

圖文問答目前達到的水平與人類相比相差很遠, 以「選擇題」為例, 目前達到的水平只比隨機猜測略好。

4 總結

為了實現第三代 AI 的目標, 我們採用三空間融合的模型,即融合雙空間與單空間兩種模型,如圖 10 所示。雙空間模型採用類腦的工作機制,如果實現的話,機器就會像人類大腦的行為一樣,具有可解釋性與魯棒性。此外,當把感覺(視覺、聽覺等)信號提升為感知(符號)時, 機器就具備一定的理解能力,因此也解決了可解釋和魯棒的問題。當機器中的基本概念(符號)可由感知產生時,符號就有了基礎 (根基),符號與符號推理就有了內在的語義,從根本上解決了機器行為的可解釋與魯棒性的問題。單空間模型以深度學習為基礎,存在不可解釋與不魯棒的缺陷,如果經過改進提高了其可解釋性與魯棒性,就從另外一個方向邁向第三代 AI.

雙空間模型模仿了大腦的工作機制,但由於我們對大腦的工作機制了解得很少,這條道路存在某些不確定性,比如,機器通過與環境的交互學習 (強化學習) 所建立的「內在語義」, 與人類通過感知所獲取的「內在語義」是否一樣,機器是否也能具有意識? 等,目前還不能肯定。儘管存在這些困難,但我們相信機器只要朝這個方向邁出一步,就會更接近於真正的 AI。單一空間模型是以深度學習為基礎,優點是充分利用計算機的算力,在一些方面會表現出比人類優越的性能。但深度學習存在一些根本性的缺點,通過算法的改進究竟能得到多大程度的進步,也存在不確定性,需要進一步探索。但是,我們也相信對於深度學習的每一步改進,都將推動 AI 向前發展。

考慮以上這些不確定性,為了實現第三代 AI 的目標,最好的策略是同時沿著這兩條路線前進,即三空間的融合,如圖 10 所示。這種策略的好處是,既最大限度地借鑑大腦的工作機制,又充分利用計算機的算力,二者的結合,有望建造更加強大的 AI。

爬取UP主彈幕與評論,進行廣告投放分析。

10月14日,AWS解決方案架構師賀瀏璐將帶來一場live coding,演示如何利用AWS雲服務構建一個簡單的數據管道從爬取、處理到分析視頻內容。

原標題:《清華張鈸院士專刊文章:邁向第三代人工智慧(全文收錄)》

閱讀原文

相關焦點

  • 院士說丨張鈸院士:邁向第三代人工智慧(全文收錄)
    來源:清華大學人工智慧研究院作者:張鈸、朱軍、蘇航在這篇評述文章中,清華大學人工智慧研究院院長、中國科學院院士張鈸教授闡述了自己對於「第三代人工智慧」的看法。清華大學人工智慧研究院院長、中國科學院院士張鈸教授在「紀念《中國科學》創刊 70 周年專刊」上發表署名文章,首次全面闡述第三代人工智慧的理念,提出第三代人工智慧的發展路徑是融合第一代的知識驅動和第二代的數據驅動的人工智慧, 同時利用知識、數據、算法和算力等 4 個要素, 建立新的可解釋和魯棒的 AI 理論與方法,發展安全、可信、可靠和可擴展的 AI 技術,這是發展 AI
  • 邁向第三代AI需突破「三關」 多方聯手讓AI更安全
    中新網北京12月11日電 (記者 張素)「第三代人工智慧(AI)」最初由中國科學院院士、清華大學人工智慧研究院院長張鈸提出。近日在2020第三代人工智慧產業論壇上,業內專家表示加強AI內生驅動力需突破「三關」。
  • 引領第三代AI時代,清華學霸再發新品為行業保駕護航!
    數百位行業嘉賓,共同探索第三代人工智慧領域的前沿趨勢、創新實踐與生態融合發展之道。作為致力於研究和推廣安全、可靠、可信的第三代人工智慧的基礎設施的瑞萊智慧,將在現場發布全新第三代AI產品——隱私保護機器學習平臺RealSecure,及人工智慧安全平臺RealSafe2.0 版本,樹立行業頂尖技術標準,促進人工智慧產業正向發展。
  • 清華大學人工智慧研究院知識中心成立儀式隆重舉行,發布知識計算...
    知識智能研究中心成立儀式清華大學人工智慧研究院常務副院長孫茂松教授是本次會議的主持人,清華大學人工智慧研究院院長張鈸院士,清華大學副校長、清華大學人工智慧研究院管委會主任尤政院士分別進行了致辭,並為知識中心舉行了揭牌儀式。
  • 科學網—人工智慧獨角獸為何不賺錢
    這些人工智慧獨角獸企業的主要技術支撐來自大數據深度學習方法。其優勢在於可以為圖像處理、語音處理、文本處理等提供一體化的解決方案。藉助該優勢,人工智慧獨角獸企業搭建了自己的深度學習平臺。 目前這樣的深度學習平臺有TensorFlow、PyTorch、百度飛槳、清華校友辦的OneFlow等,呈現出一派欣欣向榮的景象。但它們為什麼不賺錢?問題出在哪裡?
  • 第三代人工智慧基礎設施背後,是一次技術應用的常識普及運動
    12月9日舉辦的「2020第三代人工智慧產業論壇」上,清華系AI公司瑞萊智慧RealAI發布了一系列AI基礎設施,就將更安全、可靠、可信及可拓展的第三代人工智慧作為核心,來推動企業智能化升級。與以往基於深度學習的數智化解決方案相比,有哪些不同?要回答這個問題,需要先來看看今天橫亙在企業與AI應用落地之間的困境。
  • 清華系AI公司發布首款人工智慧殺毒軟體
    騙過人工智慧的「眼睛」已經不再是一件難事。在近日舉辦的2020第三代人工智慧產業論壇上,中國科學院院士、清華大學人工智慧研究院院長張鈸指出,現在很多人工智慧公司估值很高,但是營收很少,問題在於沒有解決算法和數據的不安全性,造成深入到更多高價值的場景速度較慢。「企業要做大做強,必須解決安全和魯棒(穩定強健)的問題。」
  • 瑞萊智慧發布第三代AI新品,RealAI驅動AI產業「第二增長曲線」
    12月9日,由清華大學人工智慧研究院、北京智源人工智慧研究院、北京瑞萊智慧科技有限公司聯合主辦的「2020第三代人工智慧產業論壇暨瑞萊智慧RealAI戰略發布會」在北京召開。清華大學人工智慧研究院院長、中科院院士張鈸,清華大學教授、中科院院士王小雲,清華大學教授、安全人工智慧創新中心主任朱軍、北京智源人工智慧研究院院長黃鐵軍,清華大學技術轉移研究院院長王燕、瑞萊智慧RealAI CEO田天等出席大會。
  • 瑞萊智慧的「長期主義」:走出清華,給AI產業畫一條新的「增長曲線」
    「幾乎所有的AI企業都沒有賺到錢,而根源問題在於人工智慧技術本身的缺陷——數據與算法的不安全性。」對於目前AI企業的生存困境,清華大學人工智慧研究院院長張鈸院士的這番話很直接。張鈸院士表示,在AI技術驅動的產業中,全球前40個獨角獸企業遍布了所有的領域,估值70億到500億之間。
  • 驅動AI產業」第二增長曲線」,清華系RealAI發布首個企業級隱私保護...
    12月9日,由清華大學人工智慧研究院、北京智源人工智慧研究院、北京瑞萊智慧科技有限公司聯合主辦的」2020第三代人工智慧產業論壇暨瑞萊智慧RealAI戰略發布會」在北京召開。清華大學人工智慧研究院院長、中科院院士張鈸,清華大學教授、中科院院士王小雲,清華大學教授、安全人工智慧創新中心主任朱軍、北京智源人工智慧研究院院長黃鐵軍,清華大學技術轉移研究院院長王燕、瑞萊智慧RealAI CEO田天等出席大會。本次會議上,瑞萊智慧RealAI旗下兩款第三代AI新品——隱私保護機器學習平臺RealSecure和人工智慧安全平臺RealSafe2.0 版本正式發布。
  • 2020中國人工智慧年會在京召開_要聞_科技頻道首頁_財經網...
    12月22日,由中國電子商會人工智慧委員會主辦的2020中國人工智慧年會暨中國AI金雁獎頒獎典禮在北京舉行,中國科學院院士張鈸、加拿大工程院院士杜如虛等人工智慧領域知名專家及得意音通董事長鄭方、中科匯聯董事長遊世學、捷通華聲董事長武衛東、馭勢科技創始人吳甘沙、格靈深瞳創始人趙勇、百度首席技術官王海峰等200位人工智慧企業負責人到會。
  • 中國工程院院士丁烈雲談武漢人工智慧產業發展——人工智慧現在有...
    人物簡介丁烈雲,中國工程院院士,土木與建築工程管理專家,華中科技大學教授,全國人大代表。長期從事數字建造、工程安全理論與技術研究。提出工程安全風險「能量-耦合」理論,創建地鐵工程安全風險「識、警、控」技術體系,研發數字軌道交通工程集成建設關鍵技術,構建工程質量精益控制模型、標準和平臺。
  • 清華唐傑教授深度報告:人工智慧的下個十年!「附PPT」|智東西內參
    最後說到下一波人工智慧浪潮的興起,就是實現具有推理、可解釋性、認知的人工智慧。本期的智能內參,我們推薦清華大學的報告《淺談人工智慧的下個十年》,分析人工智慧近十年的發展,闡述了人工智慧在感知方面取得的重要成果,預測下一波人工智慧浪潮的興起方向。
  • 他兩分之差落榜清華,被985高校「撿漏」,不想撿到個中科院院士
    他兩分之差落榜清華,被985高校「撿漏」,不想撿到個中科院院士清華、北大為什麼一直牢牢佔據中國高校傍一、榜二的位置,因為每年中國最厲害的學生都被這兩所高校「收入囊中」,但是清華、北大也有走眼的時候,今天我們就要介紹一位落榜清華的中國頂級科學家
  • 院士:新一代人工智慧須變革研究範式
    12月5日,在2020(第三屆)中國信息通信大會開幕式暨院士主題報告會上,多名專家學者圍繞下一代網際網路體系結構、人工智慧、新基建、數字經濟等主題展開討論,分享自己對於推動數字經濟發展的思考和建議。「智能化是信息技術應用發展的必然,人類社會從信息化向智能化發展,人工智慧已成為國際科技競爭制高點。」中國科學院院士鄭志明重點探討了人工智慧技術與發展的話題。鄭志明表示,現在人工智慧用得最多的還是在圖像識別、語音識別領域,「再擴大到其他的工業領域、產業領域或是社會領域,人工智慧就必須要從核心技術上做一些改變。」
  • ...原常務副院長潘雲鶴:我國要如何布局人工智慧 2.0?| GAIR 2017
    今天帶來的是國家 AI 智庫權威人物:中國工程院院士、原常務副院長潘雲鶴教授。人工智慧應用開拓者2016 年 12 月,潘雲鶴院士在中國工程院院刊 Engineering(主刊)發表了題為「Heading toward artificial intelligence 2.0(邁向人工智慧 2.0)」的論文,從人工智慧 60 年的發展歷史出發,通過分析促成人工智慧 2.0 形成的外部環境與目標的轉變,分析技術萌芽,首次明晰了人工智慧 2.0 的核心理念:「我們給出的
  • 清華尖子班—「姚班」:只招學霸中的學霸,圖靈獎得主親自授課
    此班級由姚期智院士在2005年創辦,致力於培養能夠比肩美國麻省理工學院、普林斯頓大學等世界一流高校畢業生的頂尖計算機科技創新人才。姚期智院士是2000年圖靈獎獲得者,是享譽世界的計算機科學專家。2004年,他離開普林斯頓大學,出任清華大學計算機科學專業教授,並先後創辦了清華學堂計算機科學實驗班和清華學堂人工智慧班(智班)。