近日,第四屆「達觀杯」攜手國內年度學術大會CCKS舉辦的技術測評大賽完美收官。本次大賽由中國中文信息學會語言與知識計算專業委員會主辦,達觀數據與同濟大學聯合組織。經過幾個月的激烈角逐,實力卓群的國家電網旗下國網信通產業集團從幾千名參賽選手中脫穎而出榮獲冠軍,並在第十四屆全國知識圖譜與語義計算大會(CCKS-2020)上進行方案分享,達觀數據副總裁王文廣為冠軍團隊頒發獎項。
達觀數據副總裁王文廣(右一)為冠軍團隊國網信通產業集團代表(左一、二)頒獎
自2017年以來,由達觀數據主辦的「達觀杯」系列算法大賽至今已經舉辦四屆,在全國範圍內引起極大關注,目前已成為國內語義理解領域規模最大的算法競賽之一。從第一屆的「個性化推薦」為賽題,第二屆「文本分類」;第三屆文本智能信息抽取」,到第四屆與CCKS聯合舉辦的「基於本體的金融知識圖譜自動化構建技術評測」,達觀數據持續通過在技術與應用場景之間搭建互通的橋梁,讓優秀的技術在解決實際問題中發揮最大價值。
在第十四屆全國知識圖譜與語義計算大會現場,達觀數據副總裁王文廣總結了本次測評大賽的情況。本評測任務參考TAC KBP中的Cold Start評測任務的方案,圍繞金融研報知識圖譜的自動化圖譜構建所展開。評測從預定義圖譜模式(Schema)和少量的種子知識圖譜開始,從非結構化的文本數據中構建知識圖譜。
本次評測內容從現實的場景中抽象和簡化的任務,因此具有很強的現實意義。由於研報本身所容納的數據與知識涉及面廣泛,專業知識眾多,不同的研究結構和專業認識對相同的內容的表達方式也會略有差異。這些特點導致了從研報自動化構建知識圖譜困難重重,解決這些問題則能夠極大促進自動化構建知識圖譜方面的技術進步。
本次大賽冠軍團隊國網信通產業集團代表分享了其在評測任務中的方案與思路。在整體過程中採用重構研報上下文、反向標註及校正、實體抽取、屬性&關係抽取的四個過程。其在分享中介紹,常用實體關係抽取模型有實體抽取+關係分類的Pipeline模型、聯合抽取實體關係的joint模型。在本場景下種子實體關係數量偏少,基於經驗,實體抽取模型準確度較高,故團隊計劃採用改進標記、後接Beam Search解碼的關係抽取方案。
在分享最後,冠軍團隊表示,本次評測提供了將學術研究與企業的應用實踐有機結合的契機。通過參賽,學習和認知了文本智能化技術的豐富的應用場景,提升對企業非結構化信息智能化處理能力,進一步擴大了視野,保持與業內高水平技術的學習接觸,更好更快地將優秀學術研究結果應用於企業生產運營中。
除本次大賽外,達觀數據王文廣在第十四屆全國知識圖譜與語義計算大會知識圖譜工業論壇上進行了題為《工業質量體系中的知識圖譜應用實踐》的主題分享,詳細介紹了達觀淵海知識圖譜平臺和失效模式知識圖譜的應用案例。
這是行業內首個將知識圖譜技術應用與製造業質量管理體系中的應用,通過對失效知識和經驗進行充分挖掘,融入失效工作對各環節提供提供支持,輔助工程師和專家更好、更快、更精準的進行失效分析,幫助製造企業在產品質量和可靠性等工作上進行預防失效和故障的發生,減少發生失效或故障後產生的損失。
2019年,達觀數據以自主研發的文檔智能審閱系統為基礎參與「公眾公司公告信息抽取」測評大賽,達觀數據技術團隊提出的基於Open CV和Faster R-CNN的財務報表抽取模型,以及一種兩階段的結構化信息抽取方法,在表格信息點提取和文本段落信息點提取任務上,分別達到了0.978的準確率和0.940的F1-score。最終兩項子任務以0.959F1值高效斬獲亞軍。
作為深耕人工智慧的領軍企業,達觀數據持續用技術賦能產業發展的同時,不斷挖掘人工智慧領域人才,為人工智慧學術與產業發展做出貢獻。