今日頭條人工智慧實驗室主任李航:如何構建擁有長期記憶的智能問答...

2021-01-09 雷鋒網

雷鋒網 AI 科技評論按,2017 年 11 月 25-26 日,中國中文信息學會 2017 學術年會暨理事會在深圳隆重舉行。會議第一天,主辦方邀請到美國伊利諾伊大學香檳分校(UIUC)計算機系教授翟成祥、中國科學院心理研究所所長傅小蘭、京東矽谷研究院主任研究員李維、清華大學醫學院生物醫學工程系宋森、今日頭條人工智慧實驗室主任李航為大家帶來了五場精彩紛呈的特邀報告。關於大會第一天的內容,雷鋒網 AI 科技評論之前有詳細報導,具體信息請參見橫跨心理學、計算機科學、神經科學,看中國中文信息學會 2017 學術年會如何引起多個領域大碰撞

在此次會議上,作為最後一位特邀報告嘉賓,李航研究員帶來了主題為《人工智慧的未來—記憶、知識與語言》的分享,他此次的分享主要圍繞智能問答系統展開,為大家分析了 NLP 所面臨的三大挑戰、目前值得借鑑的應對方法以及對智能問答系統的展望。關鍵詞如下:長期記憶、神經處理、符號處理。

以下為他的演講內容,雷鋒網(公眾號:雷鋒網) AI 科技評論做了不改變原意的編輯和整理。

構建擁有長期記憶的智能問答系統,是我們現在的願景

今天非常高興來到這裡,與大家一起從記憶、知識和語言的角度探討自然語言處理、人工智慧在未來發展的趨勢。首先我們來看記憶和智能的關係,分析自然語言處理的發展是否可以構建智能化的問答系統。

先來看看記憶對人的智能有多麼重要。這裡是一個示例,英國有一名叫 Clive Wearing 的音樂家,他現在七十多歲,他在四十多歲時患了腦炎,非常幸運的是他存活下來了,但不幸的是他大腦裡的海馬體受到了損傷,得病了之後不能再記新的東西。日常的症狀如下,他認識自己的太太,但不認識自己的女兒,雖然說話、行動、唱歌、彈鋼琴都沒問題,但他沒有記憶了,只有瞬間意識。大家有興趣的可以去網上搜關於他的視頻看一下。

他太太把他的病總結的非常清楚,能夠做簡單的思考,但沒有記憶。從這個案例中,可以看到記憶對人來說是非常重要的。這裡面涉及到一個重要的器官,即大腦中的海馬體。這裡有一張圖,是人體大腦的結構。

下面這幅圖是斯坦福的一個腦科學家 Frank Longo 畫的大腦的功能模型,他是從記憶的角度看的。大腦的記憶部分首先有感官,來感受到客觀的信息,這種感官寄存器能記住外界傳來的 1-5s 的信息,如果大腦感興趣,就會記住大概 18-30s 的內容,如果對這個內容特別感興趣,就能放到大腦的長期記憶裡。

長期記憶的特點是信息的壓縮。我們大腦在記憶的過程當中,記新的東西是把已有的鏈路增強,而不是增加新的腦細胞。

剛才看的是人腦,現在看人工智慧系統,比如 AlphaGo、自動駕駛等,其實這些系統都是沒有長期記憶的。這些系統裡都有一定的模型,通過機器學習的方法事先學好,比如 AlphaGo 在下棋的過程中,調用訓練好的模型。現在的人工智慧系統,和我一開始提到的那個英國音樂家的案例很像,都屬於 moment to moment,沒有長期記憶。

日裔科學家 Michio Kaku 對意識的定義如下:系統和外界交互,如果系統的內部狀態發生變化,就認為這個系統是有意識的。從他的觀點來看,溫度計和花都是有意識的。對意識的討論大家都有不同觀點,很難達到共識。從他的定義來說,人工智慧系統是有簡單意識的,但沒有長期記憶。

往下走智能問答系統應該是什麼樣的呢?暢想 5-10 年後的未來,有可能構建這樣的智能系統,在這個系統中,有語言處理模塊,包括短期記憶、長期記憶,系統能自己不斷去讀取數據,能把數據裡面的知識做壓縮表示,放到長期記憶模塊。構建這樣的擁有長期記憶的智能問答系統,這是我們現在的願景。

在這一過程中,面臨著歧義性、多樣性、模糊性這三個問題

自然語言處理中有個非常重要的想法:把語言的表示映射到計算機內部的表示。有了這個表示,我們認為計算機進行了語言的理解,在學習知識。

這裡面有好幾個挑戰。人類的語言到大腦的語義理解映射是多對多的,會遇到歧義性的問題,即同一個語言表達會有不同的意思。另外會遇到多樣性的問題,即不同的語言表達是同一個意思。最後一個問題是從認知的角度來看,語義是非常模糊的。

進一步來分析這三個挑戰,下圖中是用 claim 的幾個例子,可以擴展為不同的意思。即具有多義性。

第二是多樣性,比如太陽和地球的距離,有很多種不同的說法。

最後是知識概念的模糊性,比如 bachelor 的概念,它表示單身男子,但是未婚的父親、假結婚的人等是不是可以定義為單身,大家的觀點可能不一樣。這與語言的多樣性會有一定的關聯,我們會對典型的單身男子的概念有個共識。

從這裡可以看到自然語言並不好做,在自動問答系統中需要去做一個映射,映射裡會面臨前面提到的多義性、多樣性、知識的模糊性這三大挑戰。大家都在朝這樣的智能問答系統努力。

未來:神經系統和符號系統的結合

現在考慮的是神經系統和符號系統的結合。

深度學習非常熱,特別是在自然語言處理和機器翻譯方面給我們帶來了很大的進步。雖然它確實很強大,但局限性也很明顯:它不能很好地處理符號。在計算機上做語言處理,離不開符號,符號很重要,是語言的本質特點。

在自然語言處理中,深度學習在人的感知領域,比如說圖像、語音方面比較成功,所以自然就會想到,能不能用神經符號的處理方法實現我們所說的智能問答系統。這樣的智能問答系統,通過把神經處理和符號處理相結合,加上語言處理模塊,沿用深度學習的概念,這裡面包括編碼器、解碼器。在表示信息的時候,既有符號表示,又有神經表示,用詞向量去表示單詞。將符號表示和向量表示組合起來,產生一定的結構,更好地表示知識。

這樣的工作業界已經開始在做。比如 2015 年提出的 Nell(Never Ending Language Learning) 系統,這個工作強調讓系統看大量文本內容,自動學到知識。這個系統能自動在網際網路上爬取數據、處理數據、抽取知識,加入到資料庫。

另外一個比較具有代表性的工作是 Percy Liang 在 2016 的研究。首先要有語法,語法通常是人定義的,通過語法產生多個解釋;然後要有模型,模型也是事先學好的;再基於上下文選擇最有可能的解釋,轉換為邏輯表達式。在這裡,我們的思考是,現在是否能借鑑深度學習的想法,做一個端到端的系統,完全自動學到語言處理的編碼器、解碼器等。

為什麼很多人都關注長期記憶,因為長期記憶確實是現在幾乎所有的人工智慧系統所不具備的能力。現在也有這方面的研究,比較有名的就是 DeepMind 的 DNC(Differentiable Neural Computers)工作,這個工作也是在關注如何把知識用矩陣的形式存儲在長期記憶裡。這個系統裡提出了三類不同的神經網絡,這三種不同的神經網絡實際上模仿了老鼠的海馬體機理,目前對老鼠的海馬體機制已經研究得比較透徹。

大家也知道 Facebook 的 Memory Networks 系統,這個系統可以根據描述做些簡單的問答。系統最核心的概念也是長期記憶,想法相對來說是比較傳統的深度學習概念,模型的構建全是神經網絡在做。

最近的最接近的工作是谷歌 16 年出的 Neural Symbolic Machines 模型,這個想法非常有意思,要做的事情也是問答,訓練數據是大量的問句和命令,去學習 Sequence to Sequence 模型,可以執行複雜的計算機命令,找到答案。

華為諾亞方舟實驗室在神經符號處理方面的相關工作

下面是我之前在華為諾亞方舟實驗室做的兩個工作,都是神經符號處理方面的。

第一個是 GenQA。這個工作是這樣的,假設你有個知識圖譜,這裡面含有大量的問答句。我們希望模型能自動學習神經網絡,去做問答,生成答案。

這個工作是基於神經符號處理的思想,其中包括長、短期記憶模塊。假設來了一個問句,現在有編碼器,可以把這個問句轉化為內部表示,其中既有符號表示,又有向量表示,然後用這些表示去檢索知識庫。這個過程用神經網絡來控制。這個工作主要的特點是得到的三元組可能是最好的三元組,根據問句的向量表示,檢索到三元組的向量符號表示。

在下圖中,左下方是根據語言的理解該生成什麼,右邊是從長期記憶裡檢索的結果,通過把兩者結合來做判斷。

第二個要介紹的是今年比較新的工作,叫做 Neural Enquirer and Symbolic Enquirer,與基於神經符號處理的思想非常一致。其中既有神經表示,又有符號表示。查詢資料庫是個非常複雜的過程,在這個工作中,我們希望把 Enquirer 做得非常好,真正去把問句的表示利用起來,很好地檢索資料庫。

怎麼樣把自然語言的描述轉化為命令還是有一定的挑戰,這個系統中有兩個 Enquirer,一個是 Neural Enquirer,一個是 Symbolic Enquirer。資料庫的查詢操作用符號來表示,整個操作過程用神經網絡來控制,通過三步就能把答案找到。我們可以把資料庫查詢分解成為最基本的操作,比如 argmax、select 等,可以定義一個命令的集合來組成命令,命令每次的操作是針對一列進行的。

Symbolic Enquirer 的特點是操作的過程全是符號,底層全是用神經網絡去做。用端到端就能構建這樣的系統,不需要任何人的參與。假設有大量的語法,就能學習神經網絡,自動產生命令序列,訪問資料庫找到答案。另外一個對應的想法是 Neural Enquirer,同樣的問句,邏輯上也要執行三步,我們全部用神經網絡去實現。這一塊用到五個 executor。

Symbolic Enquirer 在執行上很快,它的缺點是學習非常困難。Neural Enquirer 的優點是學習比較快,但執行上比較慢,相當於每次都要把資料庫的表重新掃描一遍。自然的想法是將這兩個 Enquirer Couple 起來,把兩者的優點結合。學習的時候,先學 Neural Enquirer,學好了之後再讓他去指導 Symbolic Enquirer,然後 Symbolic Enquirer 再去引導 Neural Enquirer,兩個 Enquirer 互相幫助。

總結

下面我做一個簡單的總結,今天我們暢想的是自然語言的未來,希望未來自然語言處理系統能慢慢實現長期記憶,能把深度學習和符號處理結合起來,發揮兩者的優勢。同時,我們也要更多地參考人腦的信息處理機制,未來把自然語言處理推到另一個高度。考慮有這樣的智能問答系統,能看大量的文獻,知識庫,讀取到重要的信息知識。目前業界正在做很多的相關工作,相信這在未來會是一個重要方向。

後續,李航研究員會以這次公開演講的主題為契機,撰寫長文來描述他眼中「人工智慧的未來」,雷鋒網 AI 科技評論也會第一時間關注。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 李航:人工智慧的未來 ——記憶、知識、語言
    如果一個系統與外部環境(包括生物、非生物、空間、時間)互動過程中,其內部狀態隨著環境的變化而變化,那麼這個系統就擁有「意識」[2]。按照這個定義,溫度計、花兒是有意識的系統,人工智慧系統也是有意識的。擁有意識的當前的人工系智能系統缺少的是長期記憶。具有長期記憶將使人工智慧系統演進到一個更高的階段。這應該是人工智慧今後發展的方向。
  • 今日頭條實驗室的「AI黑科技」到底都有啥?聽馬維英怎麼說
    智東西(公眾號:zhidxcom) 編 | 司北智東西12月1日消息,在今日頭條舉辦的「人工智慧與人類文明」論壇上,今日頭條人工智慧實驗室主任、副總裁馬維英博士不僅介紹了今日頭條在AI領域的幾大優勢,還詳細展示了今日頭條實驗室的寫稿機器人
  • 華為諾亞方舟實驗室主任李航:迎接自然語言處理新時代
    華為技術有限公司諾亞方舟實驗室主任。主要研究方向為信息檢索、自然語言處理、機器學習等。本文經李航博士授權發布。人類的語言具有什麼特性?下面是幾位最權威學者的看法。語言是草根現象,它像是維基百科,聚集了數以十萬計的人的貢獻。
  • ...計算機科學、神經科學,看中國中文信息學會2017學術年會如何...
    此次會議邀請到學界和業界的多位知名專家,會議首日,美國伊利諾伊大學香檳分校(UIUC)計算機系教授翟成祥、中國科學院心理研究所所長傅小蘭、京東矽谷研究院主任研究員李維、清華大學醫學院生物醫學工程系宋森、今日頭條人工智慧實驗室主任李航為大家帶來了五場精彩紛呈的特邀報告,橫跨心理學、計算機科學、神經科學等多個領域。
  • 今日頭條張一鳴談AI「搶人」戰略:付最高的薪資請最優秀的人,不設...
    今日頭條的招聘策略一直為人關注,如今公司CEO張一鳴來親自揭秘了。據媒體報導,今日頭條創始人兼CEO張一鳴在接受採訪時表示,頭條對頂尖人才的薪資不設上限,「人才的水平有多高,我們的薪酬就有多高。」未來,今日頭條或招聘超200名人工智慧工程師。
  • 怎樣讓人工智慧產生記憶
    怎樣讓人工智慧產生記憶 新華網 發表於 2019-12-17 11:26:25 人工智慧要形成長期記憶,還需要腦科學、神經科學、心理學和行為經濟學等多學科的交叉研究
  • 今日頭條參加「東湖論壇」:如何用AI技術和內容賦能營銷
    今日頭條華南營銷中心總經理付玉東以「智能技術賦能移動內容」的主題,分享了人工智慧浪潮下,今日頭條利用自身技術、內容及數據優勢為營銷賦能,帶動品牌營銷全面智能化,引發現場熱烈討論。截止2018年8月,頭條號帳號總數達到160萬,日均內容發布量高度60萬,日均內容閱讀量達50億。海量優質作者聚集,讓內容體驗更加豐富多元。與此同時,今日頭條及其公司不斷嘗試創新,通過多元形式內容輸出打造豐富綜合信息陣地,已經形成圖文、問答、短視頻、微頭條等多元化的內容形態,為品牌主營銷提供了多樣化的形式。而優質的PGC、PUGC等優質內容也為品牌提供了很多定製化的玩法。
  • 手機中國頭條問答第8期:如何評價三星S8
    【手機中國 頭條問答】手機中國頭條問答是我們建立的一個新欄目,目前已進行到了第八期。我們的編輯每周會將今日頭條上的一些熱門問題挑選出來,並在周間進行較詳細全面的解答,希望能夠給廣大網友提供一些啟發和幫助。這周的頭條問答裡面有沒有你關心的問題呢,趕緊來看看吧;你還有什麼問題想跟我們交流,也可以本文後面跟我們互動分享,最後歡迎大家踴躍提問!
  • 百度、滴滴出行、商湯……十大人工智慧實驗室「安家」中關村
    如今,中關村擁有大約9000家高科技公司,包括中國搜尋引擎和人工智慧巨頭百度、社交媒體巨頭新浪公司,以及微軟和谷歌等全球巨頭的地區總部。在中國70家獨角獸企業(估值10億美元以上的初創企業)中,近一半位於該地區。 以下是中關村十大人工智慧實驗室的名單(排名不分先後)。
  • 百分點認知智能實驗室:基於知識圖譜的問答技術和實踐
    百分點認知實驗室參加了該評測任務中的」知識圖譜的自然語言問答」比賽,經過長達3個多月的激烈角逐,百分點認知智能實驗室在比賽數據集上得分0.90106,位列A榜第三名。本文主要介紹實驗室在本次比賽和基於知識圖譜問答業務的實踐中使用的技術方案。
  • 今日頭條馬維英入選全球計算機TOP100頂級科學家,成中國科技企業...
    其中今日頭條人工智慧實驗室主任馬維英是國內唯一一位入選TOP100的產業科學家,全球排名86,甚至一度高於facebook前人工智慧實驗室負責人Yann LeCun(該榜單為實時排名)。該排名是基於 Google Scholar 和 DBLP 提供的 H-index 指標。
  • 直播預告丨騰訊天衍實驗室主任鄭冶楓:AI助力全民抗疫經典案例分享
    除擁有3690張床位的武漢日海方艙醫院之外,首批設備也落地武漢協和西院和洪湖市人民醫院。而「騰訊覓影」可以在患者CT檢查後最快2秒就能完成AI模式識別,1分鐘內即可為醫生提供輔助診斷參考。3月27日,雷鋒網邀請到騰訊天衍實驗室主任鄭冶楓,為我們分享騰訊天衍實驗室以人工智慧技術為工具,助力全民抗疫的經典案例,包括疫情趨勢預測、肺炎智能問答、發熱AI自查、患者蹤跡查詢、CT新冠AI輔助診斷等。後續雷鋒網公開課將繼續帶來一系列AI醫療課程分享,邀請一線醫療科技企業的資深高管做客,進行更深入的案例詳解和技術乾貨。如何聽課?
  • 華米科技與中科大共建腦機智能聯合實驗室
    5月25日,華米科技和中國科學技術大學先進技術研究院宣布,共同建立「腦機智能聯合實驗室」,共同突破關鍵技術,構建主動健康新模式。隨著人工智慧已上升為國家戰略,從信息化邁向智能化,結合腦科學和神經科學發展智能技術成為大勢所趨。
  • 「今日頭條」張一鳴的「逃逸速度」(深度)
    往往是後者的智能推薦模式在新的領域一加成,成熟後就直接成為了既有格局的對立面,快且準。也因此,我們看到字節跳動切割的不只是騰訊一家的地盤。比如在內容分發和信息流廣告上,和騰訊、百度直接開戰;與曾經的投資方微博分道揚鑣,推出微頭條;上線悟空問答,與知乎展開競爭;在短視頻領域,和快手爭奪老大地位。
  • AAAI 七大精華大盤點,零距離體驗國際人工智慧大會
    今年的 AAAI 2017 上,百度、騰訊、華為、360、今日頭條、攜程、iPIN 等公司的人工智慧團隊都有論文被收錄。第一篇論文主要通過介紹如何對人力資源實現人工智慧化的管理。據稱,百度的智能化人才管理系統目前算得上是全球首創,將採用人工智慧探討如何從員工的視角讓公司產生更大的人力價值。百度IDL主任林元慶也領導團隊提交了一篇關於本地化描述的深度學習論文,主要是解決基於細粒度的識別定位。團隊認為,這一問題的核心挑戰在於尋找最具區分度的本地區域,並引入了一個屬性引導的定位方案。
  • 今日頭條-用算法計算世界
    為什麼叫「今日頭條」,拆分出去的問答為什麼叫「悟空問答」,汽車欄目為什麼改成「懂車帝」,據說都是測試後的結果:選擇的用戶更多。今日頭條的系統能夠做到,每天有上百個 A/B Test 同時在線運轉。二、Go Big or Go Home豆瓣早期做移動產品時,將原有 PC 的功能進行分割為多個 App。
  • 人類擁有八大智能 人工智慧是鸚鵡學舌?
    文/楊劍勇上世界八十年代,美國著名發展心理學家、哈佛大學教授霍華德·加德納博士提出多元智能理論,人類的智能是多元化而非單一的,主要是由語言智能、數學邏輯智能、空間智能、身體運動智能、音-樂智能、人際智能、自我認知智能、自然認知智能八項組成,每個人都擁有不同的智能優勢組合。
  • 今日頭條的 2018:整改、抗爭,與那些瘋狂擴張
    2億用戶、張一鳴推出最早的產品、2000萬+MAU,擁有巨大流量入口的內涵段子曾是最大的搞笑類社區,但其產品內野蠻生長的段子文化中,充斥著大量違規內容,央視報導稱「導向不正,格調低俗」。內涵段子關停後,大量段友直呼「無家可歸」。正所謂「人民的需求一直存在,只能開闢新領地」,於是,「皮皮蝦」誕生了。如今在App Store,皮皮蝦的介紹也為:今日頭條官方爆笑社區,代言人為娛樂明星沈騰。
  • 科大訊飛承建國內首個認知智能國家重點實驗室
    中證網訊(記者 任明傑)日前,科技部正式設立第一個人工智慧國家重點實驗室——認知智能國家重點實驗室,這一實驗室交由科大訊飛股份有限公司來承建。  據介紹,認知智能是人工智慧的高級階段,可以對人類特有的自然語言、知識表達、邏輯推理、自主學習等能力進行深入的機理研究與計算機模擬,推動機器能夠擁有類似人類的智慧,甚至具備各個行業領域的人類專家的知識積累和應用的能力。