來源:財訊網 • 2020-07-13 11:06:30
2020年7月11日,世界人工智慧大會WAIC·開發者日:開發·開源·社區主題論壇召開,全球有影響力的圖靈獎得主、頂級技術專家和開發者代表雲聚一堂,對當下人工智慧前沿理論技術和開發實踐進行深度解讀。明略科技首席科學家、明略科學院院長吳信東受邀發表主題演講,分享知識圖譜自動構建的方法論和實踐,並宣布明略科技HAO圖譜開放Text2KG API能力,賦能開發者和企業級用戶。
數據圖譜不是知識圖譜
吳信東認為,大多數情況下,我們所說的、所用到的圖譜並沒有後臺知識,只是數據圖譜,而不是知識圖譜。知識圖譜應該有三個組成部分,首先是概念,即圖譜的節點。概念跟概念之間是連接,是關係,即圖譜的邊。只有概念和關係還不夠,還需要背景知識解釋概念,和連接的語義。如果只有概念、關係,是數據圖譜,而不是具有背景知識的知識圖譜。
從數據圖譜到知識圖譜的構建,可分成三個階段。第一階段,人工階段。對當前問題充分理解,把概念、關係形成節點和邊,用電腦程式的方式進行連接、溝通。第二階段,眾包構建。當實體太多,關係類型非常複雜時,需要涉及到群體,形成分布式的開發環境進行集成。第三階段,自動構建。自動構建,始於美國的華盛頓大學,卡內基梅隆大學,Google的一些早期項目,採取計算機輔助,做自動融合、自動容錯的檢測機制。
知識圖譜的構建,首先要有數據來源。數據類型可分成結構化數據,例如,表格數據,一個成型的資料庫,關係型資料庫,或者其他層次化的數據;非結構化數據,包括新聞網頁,手寫的欄位,圖片,視頻,中間可能是根據需要、場景採集到的數據片段;半結構化數據,例如,網絡文章,雖然不是完全結構化的,但一般而言都有標題、作者、摘要,分段落以及結束語,所以具備一定的形式,即半結構化數據。
知識圖譜的構建,要考慮到三種不同的數據類型。其中,非結構化數據,由於語言、描述形式呈現了多樣性或靈活性,因此抽取實體、語義關係是知識圖譜自動構建面臨的挑戰。具體而言,信息抽取,需要判斷哪些信息的短語、動詞是和知識圖譜構建相關的。知識融合,需要把每個句子裡面存儲的不同片段的信息,形成一個整體,所形成的描述形式用於其他的知識處理。
無論是從信息抽取做知識融合,還是做知識處理,最核心的三部分,一是實體涉及到的名詞,二是涉及到中間的關係,三是實體和關係之間,可能有同名,有共線(Co-references),如何衝突消解。
知識圖譜的構建方法
圖譜構建主要有三大挑戰:第一,在構建中間可能做了一些信息搜索;第二,後臺的知識庫可能做了一些信息冗餘;第三,隨著時間和空間的變化,信息要進行更新迭代。那麼,如何構建知識圖譜?方法主要有四大類。
第一類是邏輯建模,用邏輯描述所要抽取的知識圖譜包含了哪些概念、關係和背景知識。目前,大多數知識圖譜都是邏輯+概率。邏輯,是名詞跟名詞的關係。當涉及到日常生活、社會經濟系統,這些名詞的關係不是確定的,所以要加上概率的描述方式。概率+邏輯,通常是用來描述知識圖譜的第一種技術手段。其中涉及到一些技術問題,如,邏輯變量、邏輯規則,當量非常大時,使用馬爾可夫邏輯網對問題進行簡化處理。對問題求解關注度比較高的一些描述形式,把馬爾可夫邏輯網介入到概念衍生過程中,達到高效的知識圖譜構建和利用。
第二類知識圖譜的構建方法是隱含空間,涉及隱含變量,即有哪些背景知識來解釋文本。文本包含的社會背景、人物關係、組織結構,沒有在文本中體現,但是要進行了解、梳理。隱含空間分析有多種方法,第一種方法是距離模型,一個三元組,一個head,通過一個relation,推演將來tail究竟是什麼。例如,我走到哪一個大樓,到了具體哪一層,中間可能涉及到隱含的變量。假設我今天的目標是要去訪問客戶,或者做一個項目答辯。根據當前的情況,背景的隱含空間,可以映射我的目標,要到什麼地方去,這就涉及到背景知識。所以隱含變量和隱變量模型,核心都是有一些變量是無法看到的,文本沒有進行具體刻畫的隱含信息。這就涉及到神經網絡經常用到的張量模型,張量是全方位的,是三維空間的描述,用像機、二維模型刻畫,有些變量、特徵不容易展現出來。由此引出矩陣分解,一個矩陣中間可能有一個隱含矩陣,從M到N,中間讓它變成N×K的矩陣的描述形式。所以,隱含變量帶來了很多的空間和機會,相對困難。現在國內用的比較多的是TransE翻譯模型,是從當前的一個變量,翻譯到一定程度。
第三類知識圖譜的構建方法是人機互動,通過人在迴路,以計算機和人交互的方式,完成對信息的搜集、聚合、消解。核心是一個交互接口。人機互動的圖譜構建,基本上有三種不同的模式。第一種模式是通過設計一個電腦程式,讓電腦程式對人類專家進行提問,一旦把這些問題進行完整的回答,就把該問題涉及到的概念和關係建立模型,生成知識圖譜。人機互動的範式裡有Structured Interactive Knowledge Transfer(SIKT),即結構化的交互知識牽引,通過計算機交互,把人腦中存在的關於問題的描述,形成知識圖譜。面向對象,把實體裡面關於知識的描述、知識的牽引進行刻畫,形成Knowledge Object的表示方法,這是第二種模式。第三種模式,是明略科技近兩年所做的一種嘗試,把人類智能、人工智慧、組織智能所涉及的概念、關係進行描述,通過人在迴路進行問題的刻畫。這三種模式,都涉及人機互動,也涉及一些特定的行業知識。
第四類知識圖譜的構建方法是本體模型。本體模型的意思是,我們在讀一個文本的同時,後臺有一個詞典,或者是有一個知識庫,幫助我們理解當前的問題描述。國際上比較經典、成功的是Cyc循環獲取方法,基本上有七個步驟,從問題領域的界定,到創建實例,來形成知識圖譜。Ontology Development七步法中間也涉及本體的半自動構建,利用一些專業詞典、敘詞表,缺點是在復用本體的概念和關係時,對當前的問題不一定能夠做到完全匹配。而自動構建則有基於語言規則的方法和基於機器學習的方法。基於語言的方法,涉及到一些語義的模式。基於統計學的機器學習方法,涉及到數據的聚類,還有一些模式數據的挖掘。
圖譜的自動構建涉及兩個核心要素,第一,要有一個領域知識庫,第二,對數據和知識庫進行匹配時,需要自動糾錯、自主學習,因此強化學習和人機互動是關鍵。
HAO圖譜的核心技術和應用場景
明略科技的HAO圖譜,基於HAO智能框架。其中「HAO」,指代的是Human intelligence,Artificial intelligence,Organizational intelligence。目前,以明略科技HAO智能理論框架為基礎,形成了從感知到認知,再到決策的三個能力階段的HAO技術體系,包括HAO感知、HAO數據一體機,HAO交互、HAO圖譜、HAO模型、HAO情報、HAO預測,HAO代理、HAO排序等系列基礎軟體模型、應用工具和解決方案。
在HAO智能技術環境中,實現從數據圖譜到HAO圖譜。數據圖譜在HAO交互技術環節完成。比如,演講現場,HAO交互技術可以實時採集發言者的語音數據,然後HAO圖譜技術可在後臺實時生成圖譜,首先把聲音翻譯成實體和關係,然後再精簡、關聯。「HAO」圖譜是目前第一個從聲音直接生成圖譜的系統。
HAO圖譜有三項關鍵技術。第一,句子級的信息抽取,生成名詞和名詞之間的關係連接以後,要理解中間哪些語義內容是句子級的,再從句子級,生成更高層次的內容分析。
第二,篇章級的信息抽取。多個句子就形成一個整體描述,整體描述中涉及多個概念、關係,描述一個整體現象,即是篇章級的信息抽取。
第三,動態和靜態的知識表示。從不同的篇章中間做話題演化時,隨著社會、經濟和當前討論熱點的變化,話題關注點可能發生遷移,因此話題目錄要做一些變化,當進行知識圖譜構建抽取事件時,要考慮隨著時間和空間的變化而變化,進行動態和靜態的知識圖譜的表示。
目前,HAO圖譜已在公共安全、數字城市、金融、工業、廣告營銷等多個場景中落地。
在輿情分析和個性化營銷場景中,基於知識圖譜,可以把用戶產生的評論,與品牌相結合,去看用戶的輿情走勢,然後將結果整合到BI系統,為運營人員提供用戶需求洞察,同時,在此基礎之上進行千人千面的個性化廣告生成和智能商品推薦。
在智能導購場景中,在尊重和保護用戶隱私和數據安全的前提下,把銷售溝通話術,經過語音轉成文本,進行話題分類,形成話題轉移的知識圖譜,計算出話題之間轉移的概率,幫助銷售人員復盤,分析流單的主要環節,改善話題轉移和引導,提高成單率。
HAO圖譜技術模塊,依託明略科技新一代人工智慧國家開放創新平臺,已於2020年7月11日正式對外開放Text2KG API,賦能更多開發者和企業級用戶,基於明略科技知識圖譜的底層技術,更高效地探索更多行業細分場景。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。