【試驗工程師·公益學習營】第九期第2講
【試驗工程師·公益學習營】總第42講,於2020年10月30日如期舉行,本期講師是瑞風協同技術總監,他具有20餘年軟體開發和架構設計經驗,參與多個領域的設計仿真平臺、材料庫、知識庫系統建設,重點研究方向為大數據技術和人工智慧技術,專注於文本挖掘技術、自然語言處理技術在知識庫自動構建、知識自動分類、知識智能推送、知識關聯挖掘、知識圖譜方面的應用研究。
前言:知識圖譜是知識工程不斷發展衍生出的新一代知識工程技術,知識圖譜的概念最早是由谷歌在2012年正式提出,最初僅應用在智能搜索領域,目前已應用在多垂直領域,比如金融行業、醫療衛生、政府、能源與工業得到廣泛的應用。
本期課程重點分為以下四個方面:試驗知識綜述、試驗知識圖譜分析、試驗知識圖譜構建技術和試驗知識圖譜技術展望。
一、試驗知識綜述
複雜產品試驗的程序一般為制定試驗計劃、編制試驗任務書、制定試驗大綱、抽取受試產品、組織試驗前評審、試驗、試驗數據的處理、編寫試驗報告等,其目的是為了檢查驗證研製和生產的產品達到規定標準的程度。
試驗種類繁多,可按照產品研製階段、試驗性質、試驗組織形式、試驗條件、試驗件規模、試驗件類型、試驗內容、試驗對象的數位化程度、產品的組成層級等多種方式進行分類。
試驗領域的顯性知識包括試驗類型、試驗流程、試驗工具、試驗方法、試驗場景、試驗規範和標準類知識等,而隱性知識是通過數據分析、挖掘得到的知識。
試驗知識目前共性問題:
1、試驗知識零散、分散,信息抽取困難
2、缺少合適的方法、標準來融合各類試驗知識數據
3、知識圖譜在試驗知識關聯挖掘方面的案例較少,沒有充分體現、發揮試驗知識的真實價值
4、試驗知識積累、更新方式以人工為主,遠遠跟不上大數據、人工智慧技術發展
二、試驗知識圖譜分析
知識圖譜(Knowledge Graph)簡單說是一種大規模的語義網絡,圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關係的一系列各種不同的圖形。知識圖譜是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論和方法與計量學引文分析、共現分析等方法結合,並利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構,以達到多學科融合目的的現代理論。
與傳統數據分析計算展示相比,知識圖譜的優勢更顯著:
1、關係的表達能力強
2、像人類思考一樣去做分析
3、自我知識學習
4、高速反饋
試驗知識圖譜的特徵:綜合化、定量與定性相結合、知識發現性、客觀性、關聯性、動態性、空間性、圖譜解讀的建構性、知識依賴性和滯後性。通常我們把知識分為領域知識、百科知識、場景知識、語言知識以及常識知識等,並且根據所存儲的知識的類型,可以對知識圖譜的類型進行劃分,包括:領域知識圖譜和通用知識圖譜。試驗知識圖譜是一種信息可視化方法,也是知識可視化方法。
通用知識圖譜
知識圖譜與知識地圖(knowledge map)之間存在著一定聯繫:
相同點:二者都是知識管理的工具,並不存在截然分隔的知識鴻溝,但它們在基本概念、應用領域和繪製技術方面有所不同。
不同點:
概念不同:「圖譜」是涉及時間和空間兩個維度的動態概念,「地圖」是涉及二維或三維空間形式的地理學概念。
應用領域不同:知識地圖更側重於導航功能,主要應用於企業;知識圖譜則更側重於知識發現功能,主要應用於科研領域、知識應用。
繪製技術不同:知識地圖繪製時不一定基於資料庫,而知識圖譜的繪製目前大部分基於資料庫、大數據、人工智慧(前者動態性,後者靜態性)。
知識圖譜核心內容
三、試驗知識圖譜構建技術
試驗知識圖譜構建流程為:
1、信息抽取
信息抽取是知識圖譜構建的第1步,其中的關鍵問題是如何從異構數據源中自動抽取信息得到候選知識單元;信息抽取是一種自動化地從半結構化和無結構數據中抽取實體、關係以及實體屬性等結構化信息的技術,涉及的關鍵技術包括:實體抽取、關係抽取和屬性抽取。
信息抽取結構圖
2、知識融合
通過信息抽取的結果中,可能包含大量的冗餘和錯誤信息,數據之間的關係也是扁平化的,缺乏層次性和邏輯性,因此有必要對其進行清理與合併。知識融合包括兩部分內容:實體連結和知識合併,通過知識融合,可以消除概念的歧義,剔除冗餘和錯誤概念,從而確保知識的質量。
Falcon-AO結構圖
3、知識加工
通過信息抽取,可以從原始文本中提取出實體、關係與屬性等知識要素,再經過知識融合,可以消除實體名稱項與實體對象之間的歧義,得到一系列基本的事實表達,然而,事實本身並不等於知識,要想最終獲得結構化、網絡化的知識體系,還需要經歷知識加工的過程。知識加工主要包括3方面內容:本體構建、知識推理和質量評估。
本體構建流程結構圖
4、知識更新
人類所擁有的信息和知識量都是隨著時間呈單調函數遞增,因此知識圖譜的內容也需要與時俱進,其構建過程是一個不斷迭代更新的過程。從邏輯上看,知識庫的更新包括概念層的更新和數據層的更新,概念層的更新是指新增數據後獲得了新的概念,需要自動將新的概念添加到知識庫的概念層中;數據層的更新主要是新增或更新實體、關係和屬性值,對數據層進行更新需要考慮數據源的可靠性、數據的一致性(是否存在矛盾或冗餘等問題)等多方面因素。知識圖譜的內容更新有兩種方式:數據驅動下的全面更新和增量更新。
試驗知識圖譜的應用
四、 試驗知識圖譜技術展望
在試驗知識圖譜的技術展望方面,希望與大數據技術緊密結合來發展試驗知識圖譜。試驗數據具有多個維度:被試件數據、參試件數據、試驗環境數據、人員數據和保障活動數據。
RF自動轉換器:通過類似的科學變換、人工智慧技術,將試驗件、文檔、數據、分析方法等知識,自動生成各類知識圖譜。