雷鋒網 AI 科技評論按,12 月 14 日,中國計算機學會 YOCSEF 在中科院計算所舉辦「知識圖譜」專題探索班。知識圖譜和圖數據是目前計算機學科相關研究中的熱點,具體研究涵蓋知識圖譜構建,知識圖譜的存儲和查詢系統,面向知識圖譜應用,以及大圖數據的處理分析方法及系統等。
知識圖譜和圖數據為計算機研究者提供了一個非常好的交叉研究對象,這包括自然語言處理、資料庫、知識工程和機器學習等領域。同時基於知識圖譜的工業應用,也是各大網際網路公司以及一些創業型企業共同關注的焦點。
基於此,此次探索班邀請到自然語言處理、資料庫、知識工程和機器學習領域重量級的專家做報告,進行報告的專家教授名單如下:
大家結合自己的研究領域,圍繞知識圖譜,對其理論、應用以及創新和未來進行了精彩討論,以下為各位嘉賓的探討內容,雷鋒網 AI 科技評論整理。
首位演講嘉賓為清華大學計算機系教授、中科院院士張鈸,他的演講主題為《人工智慧與知識圖譜》。張鈸教授表示,進入深度學習時代,技術的門檻變得很低,例如對於一些創業公司,掌握好數據和算法就可以進入一個行業。但是現在大家發現深度學習並不那麼好用,它的缺點很突出,一是系統非常脆弱、容易受攻擊等,存在不魯棒性、不可解釋性,這是其本質缺點。他表示,一是我們使用的原始數據質量差,二是系統不能學出有語義的特徵。
他舉了一個形象的例子,將一張阿爾卑斯山的圖片加上噪聲,加噪聲之前和之後,人類看起來沒差別,但計算機就把加噪聲之後的圖片識別成了狗,這說明這樣的系統非常脆弱,和人類視覺系統完全不同。這樣的系統存在極大的問題,所以我們提出後深度學習時代。
張鈸教授表示,人類的優點是在大是大非前非常明確,雖然會犯小錯,但不會犯大錯,但機器與人相反,雖然不會犯小錯,但一犯就是大錯。
他表示,後深度學習時代,應該努力克服深度學習存在的問題。我們需要將知識驅動和數據驅動相結合,進行多學科交叉研究。而我國目前的研究現狀如下,研究機器學習的人很多,但很少有人研究知識表示和推理。他表示,科學研究必須強調多樣化,我們應該重視知識表示和推理,這是人工智慧最核心的內容。
隨後,他提到如何把知識圖譜嵌入向量空間,「現在的很多方法看起來都不太理想,問題是在投射的過程中要儘量少丟失語義。當數據很大的時候很難做到。」
他表示,從人工智慧的觀點來看,IBM Watson 真正把知識推理和數據結合起來了,是非常好的研究工作。
從人工智慧的角度看知識圖譜未來的發展趨勢,張鈸教授表達了如下觀點,我國必須要建立大規模的知識庫。他表示,美國現在已經做了很多相關工作,我們如果想要靠別人的資料庫、知識圖譜,很難發表創新性的、有見解的文章。
第二位演講的嘉賓是明略科技首席科學家、路易斯安那大學教授、IEEE/AAAS Fellow 吳信東,他的主題是《大數據,大知識,大智慧》。
吳信東教授表示,每個人對大數據的理解都不一樣。大數據的核心問題是多維數據問題,會遇到很多困難,比如在數據的來源不一樣的時候,例如如何進行數據融合,如何去尋找和添加不存在的知識。
對於大數據有兩種理解方式,一是常規意義上的大數據,二是將本來不是大數據的信息變成大數據,這就需要找出大數據的底層特徵。大數據最底層特徵有四個:
1.大數據不是指數據的體積大,而是數據多元,有聲音、文本、表格、不同的語言等;
2.每個信息來源自治,數據是異構的,都有自己的邏輯,不同來源的信息會可能會產生矛盾、斷層現象。這就和盲人摸象、小馬過河一樣;
3.大數據的體量是巨大的,每個數據講的可能是某件事物不同的方面,可以把它們進行融合;
4. 數據是變化的,觀點在變,內容在變,信息也在變。
想做大知識,必須要考慮到知識的體量是巨大的,要從大量的知識裡羅列出有質量的知識,從量到質、從質到序。從量到質是指要從大量的數據裡面找出對自己有用的數據,從質到序是指根據需求使用數據,正如知識是一樣的,但是每個人學習的途徑不一樣,根據個人需求進行學習。
他表示,在大數據、大知識之後,就是機器學習。我們用數據挖掘獲取知識,一般來說,數據獲取和數據挖掘要花掉大約 3/4 的時間,數據一旦變化時,是重做還是更新,如何進行融合等都是數據挖掘所面臨的挑戰。
第三位上臺演講的嘉賓為阿里巴巴達摩院高級算法工程師周暢,他帶來了圖表示學習在阿里的相關應用。
開場伊始,他提到圖表示學習在阿里的如下應用:帳號匹配、反作弊、推薦、金融風控、搜索廣告、NLP、知識圖譜。隨後,他提到目前在工業界中比較主流的兩大類方法:
一是 Skip-Gram+Random Walk,類 DeepWalk;二是 Sampled GCN,類 GraphSage.
他提到與業務比較相關的應用——用戶對齊,也講解了他們在 ICDM2018 上的文章。
這一系列介紹之後,他講到圖嵌入在推薦召回中的應用。
一是店內,這裡談到他們 2016 年的相關工作,在 item-item 圖上的初試。他們修正了 DeepWalk 在 Random Walk 時更新的非對稱概率的問題,店內 Ctr 穩定提升 10% 以上。
二是全網,這裡涉及到集團其他團隊工作。如首頁個性化推薦,這是在 KDD2018 上的研究工作,他們加入了 Side-Information,進行了精緻的數據預處理;還有阿里媽媽搜索廣告,這裡用 metapath GCN 來處理 Query、Item、Ad 的異構關係。
他們目前正在進行的工作是算法生成的內容化推薦。他表示,目前的推薦是被動響應式,很難做出發現性。如何將內容化、知識化的推薦構造成主動推送式,他提到如下四點:首先理解用戶是什麼樣的人,其次是內容聚合,再是分析出用戶會對什麼樣的概念、知識感興趣,最後是如何打動、說服用戶。
對於用戶是什麼樣的人,可以通過 User-Item 二部圖構建 User/Item Embedding;針對內容聚合,通過 Item Embedding 進行層次聚類;在分析用戶對什麼知識、概念感興趣時,可以用到 tree-based user interest mining;針對如何打動、說服用戶,可以找到一個解釋(路徑),能說服用戶對這個主題感興趣,說服方式有多種,如標題/短標題,知識卡片。
最後,他提到目前 Graph Learning 的挑戰。
一是計算效率與效果
二是動態圖建模
三是異構圖的表達能力
四是多任務/遷移學習
而系統層面的挑戰主要有如下三點:
一是採用 Sparse 的圖計算系統,或 Dense 的機器學習系統,或採用兩者結合的系統?應該採用何種編程思路。
二是相比於其他機器學習模型,存在著大量不規範的參數讀寫模式。
三是種類多,屬性複雜的異構圖打 Batch 困難,難以利用 GPU 優勢。
最後,他提到他們的全景圖,最下層是 Graph Engine,上面一層提供數據服務,更上一層提供算法服務,最上層是業務解決方案。
隨後進行報告的嘉賓是武漢大學信息管理學院副教授洪亮,主題是《股權網絡視角下的金融知識圖譜研究與平臺》。
他表示,智能金融在智能投研、智能風控、商業股權查詢平臺和智能監管上應用廣泛。目前,很多銀行、保險、證券、信託、支付、監管、消費金融、信用評級、網際網路金融和基金公司都會用到智能金融。知識圖譜構建了實現智能化應用的基礎知識資源,但目前的金融知識圖譜還存在很多問題,現有的金融知識圖譜數據零散,需要進一步融合;缺少基於金融股權網絡的金融知識圖譜;缺少系統性金融風險監管平臺。
他進一步提到,從股權視角來看,抓住金融股權關聯,就抓住了系統性金融風險形成與傳導的根源。目前,金融行業面臨著金融體系主體繁多、股權網絡龐大、結構複雜等難題,但他們有自己的優勢,他們有國內 400 多家商業銀行的股權信息,在工商銀行也有超過一億三元組信息數據。金融知識圖譜有助於實現股權「穿透式」監管,協助金融主管部門進行系統性金融風險的識別、防範與化解。
基於金融知識圖譜,洪亮副教授團隊建立了知融金融大數據平臺。和商用股權查詢平臺不同的是,它可以進行股權網絡結構分析,可以進行金融知識圖譜查詢與分析,防範和化解系統性金融風險。
在算法上,他們主要採用的有:Top-K 控制權路徑查詢,從直接股東出發,結合工商庫數據查找第二層股東,遞歸查找,直至最終股東;最終股東持股比例採用的是稀疏矩陣計算法;同時也使用了視圖縮放的交互式資本系圖摘要算法。
他表示,智能金融的入口是金融本體。團隊採用基於知識圖譜的 RDF 數據管理,提供面向學術界、監管部門的數據服務接口(API)。
未來,團隊的目標是實現對金融體系的大數據完全覆蓋。接下來將進一步深化金融知識圖譜的管理與分析,主要涉及的方面是:大規模金融知識圖譜的自動構建與高效管理;控制權網絡、資本系;股權網絡的風險傳導動態模擬;集成分析:系統性風險防範與化解。
第五位上臺演講的嘉賓是東南大學教授、博導漆桂林,他的報告主要圍繞知識圖譜以及知識圖譜的表示、推理、未來發展展開。
他表示,知識圖譜是一種語義網絡,即一個具有圖結構的知識庫,這裡圖的節點可以是概念,可以是實例,可以是 literal,圖的邊就是一個關係。
從知識表示的角度看,目前的研究存在很多問題,如如何用知識圖譜表示事件,這裡存在的問題是,事件可能存在關聯以及因果關係,此外,目前關於事件表示沒有特別多的相關研究。
另外他還舉了一些代表性問題,如時空知識如何表示,什麼可以成為知識圖譜中的節點,知識到底是靜態還是動態,圖表示是不是最好的表示知識的方法。
他提及,大家的研究不能太單一,如只做資料庫。
關於知識圖譜的表示,他用圖例進行了形象說明,包括 RDF、literal、OWL、知識圖譜嵌入、基於上下文的表示學習等。
對於知識圖譜的推理,他提到邏輯方面的推理和統計方面的推理。在關於統計方面的推理上,他表示 Path-based reasoning 和 knowledge representation learning 這兩方面值得關注。他提到他們開發的一些規則引擎(0 型、1 型、2 型、3 型),目前 2 型的性能是萬級規則、十萬級本體、秒級速度,其他三類的性能是萬級規則、毫秒級速度。他表示,當到萬級規模時,無論管理還是推理都比較麻煩。隨後,他也提到這些規則引擎的應用場景,0 型可以用在疾病診斷、知識表示和推理,1 型已經用於國家 863 項目、高考機器人、地理知識表示和推理等,2 型可以用於疾病診斷、知識表示和推理,3 型可用於多模態人機互動中的交互知識表示和推理。
演講最後,他總結到,我們應該更強調對知識圖譜的表示,我們需要了解本體,包括 RDF、RDFS,另外,不應該把自己的研究限制得太窄,例如可以把圖像考慮在內。他表示,推理有很多應用,例如做問答和輔助決策,邏輯推理並不像大家想的那樣,實用性比較差。統計推理目前在知識圖譜推理裡的應用更多是做問答和推薦,如果用來做決策和知識庫補全,不是特別適用。
第六位嘉賓是北京大學教授、大數據研究院自然語言處理與認知智能實驗室主任趙東巖,他的報告主題是《基於知識圖譜的文本語義理解及其智能應用》。
他表示,目前,研究類人智能技術的團隊有很多,如 MIT 人工智慧實驗室、IBM Watson、Todai Robot、DeepMind、Google 問答搜尋引擎團隊等,文本語義理解是這項技術中非常重要的一個方面。
機器是如何做到語義理解的?以高考機器人技術研究為例,有四個步驟:
構建基礎語義資源庫及深度語義分析技術平臺;
研製大規模知識庫構建技術,構建學科知識庫;
提出語義與知識表示方法、研製深度語義理解技術;
實現面向初等教育問題求解的知識推理。
從技術上來說,就是將自然語言問題解析為與知識庫關聯的結構化查詢語句。
他提到如下三個研究方向:
第一個方向是知識圖譜的構建,主要研究如何從開放域網絡信息資源中萃取以實體及實體間關係形式存在的知識條目,並據此構建以圖模式存儲的結構化語義知識庫。
第二個研究方向是語義理解與問題求解,也就是基於大規模結構化知識資源的語義分析與理解。
第三個研究方向是答案生成,也就是自然語言答案生成。
目前,他們已經使用大規模異構知識資源的語義網絡構建了龐大的技術構建語義知識庫,如地理因果邏輯知識庫,他們從地理教材、百度百科和中文維基百科得到 13.49 萬地理因相關的因果邏輯關係條目,組成地理因果邏輯關係知識庫。解答問題使用了基於地理因果關係資源的排序方法和基於多通道卷積神經網絡的排序方法。他們也能融合多種知識資源進行事實類問題的求解。其中,基於多通道 CNN 的解答器具有加寬卷積神經網絡結構,最深處有 14 層,有 將近四百萬個神經元節點,兩千七百多萬個網絡參數。
未來,他們還想做智能對話系統,希望領域自適應對話系統可以完成檢索式對話、生成式對話和多輪及主動對話技術。
第七位上臺嘉賓是華為公司中央軟體院知識圖譜首席技術專家賈巖濤,他的演講主題是《企業級領域知識圖譜構建及其應用》。
他的分享分為四個方面,一是知識圖譜的背景,二是領域知識圖譜的構建,三是領域知識圖譜的應用,四是領域知識圖譜的挑戰。
知識圖譜最早由 Google 於 2012 年提出,它是谷歌對其索引的所有事物、任務和地點,例如地標性建築、名人、城市、球隊、大樓、電影、藝術品等構建的關係網絡。知識圖譜從本質上講是一個圖結構,由節點和邊組成。
知識圖譜的構建歷程如下,先是人工構建、服務於人,隨後是算法構建、機器可理解。
他具體講到通用知識圖譜和領域知識圖譜的構建,通用知識圖譜常用於搜索領域,為搜索提供豐富的查詢結果,領域知識圖譜是聚集在某一特定領域的知識圖譜,服務於特定場景。
他表示,領域知識可以劃分為四大類,事實類、概念類、過程類、主觀類,並詳細描述了這四類領域知識。領域知識圖譜的構建思路如下:先是領域知識建模,隨後進行數據採集、清洗、轉換,接下來進行知識抽取、融合,隨後是知識存儲、知識計算等操作。
他們在領域知識抽取上也有若干工作,介紹如下:
預定義事件抽取。這一工作發表在 EMNLP2018 上,傳統事件抽取利用句子級信息獨立預測多個事件,忽略了事件之間的依賴關係,他們提出了聯合句子和篇章信息的多事件協同抽取方法——基於層次標註神經網絡和門控多層關注機制的多事件協同抽取。
關係融合,這是與愛丁堡大學合作的一篇工作。關係之間存在蘊含關係發現,是問答系統等上層應用的基礎,現有的基於上下文的關係相似度的學習方法,無法處理數據稀疏問題,他們提出 cross-graph 與 inside-graph 相結合的蘊含關係發現方法。
在報告最後,他談到知識圖譜的三個應用以及三個挑戰。目前知識圖譜可以應用在智能搜索、智能問答、智能運維領域。三個主要的挑戰如下:一是如何將專家經驗進行知識化,二是如何自動構建知識體系,三是如何做好語音、視頻、圖像等多模態的全聯結。
第八位演講的嘉賓是復旦大學計算機科學與技術學院教授肖仰華,他主要探討機器語義理解的挑戰與未來,以及如何利用知識圖譜進行語義理解。
他表示,人類之所以成為萬物之靈,是因為其具有語言能力。機器是否具備語言能力?由於機器不能自動理解數據,因此目前的大數據並沒有被充分的利用。機器缺乏行業知識,所以不能理解文本和數據。當機器具備語言能力時,才能真正產生能為人類服務的人工智慧,而不是「人工智障」。
目前的機器語言理解存在兩方面困難。
知識圖譜是解決機器語言理解問題的一個方法,他也提到了一些創建方法。在他的研究中,用了兩類常見的知識圖譜:一是概念圖譜,是通過網際網路裡面的語義模式獲取的,採用了協同過濾等算法;二是涵蓋各種事實的知識圖譜。
他隨後提到,機器對語言的理解涉及到很多方面,包括短語、單詞的集合、對象的集合、不同的類別、不同的動詞結構以及問題等等。理解語言需要將文本裡面的對象和知識庫裡面的對象關聯起來。短文本的理解非常困難,如輸入一段話,為了讓機器產生相關的概念,必須做兩個工作:區分出正確概念和錯誤概念,找出信息量更大的概念。
最後,他總結道,得益於知識圖譜,機器可以做很多語言理解方面的工作。但目前,機器語言理解是基於統計模式的匹配,並不是真正意義上的理解。機器語言的理解還處於初級階段,未來還有還有很多難題需要科學家去解決。
至此,精彩的報告圓滿結束,各位演講嘉賓,或從學界角度,闡述了知識圖譜的理論、挑戰以及未來發展,或站在業界的角度,探討了知識圖譜的使用場景,以及在工業上的應用。相信在未來,我們將會看到知識圖譜更多技術上的革新與應用。
雷鋒網(公眾號:雷鋒網)
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。