機器之心報導
機器之心編輯部
首個語音實時生成圖譜的企業級知識圖譜開發工具包。
由深度學習掀起的這波 AI 浪潮極度依賴數據,經過 10 年的發展,深度學習在一些場景應用上已經面臨瓶頸。業內有一種聲音得到了大量認同:人工智慧的進一步發展與突破,需要從感知智能向認知智能的突破,知識圖譜能有效從數據中挖掘出知識,以更具可解釋性的 AI 指導人類在更多複雜場景中的智能決策和行動。
7 月 11 日,在 2020 WAIC 世界人工智慧大會上,明略科技 HAO 圖譜,作為目前世界上第一個語音實時生成圖譜的企業級知識圖譜開發工具包,首次公開亮相,成功入圍了大會最高獎項 SAIL 獎(Super AI Leader)TOP30 的項目及 2020 年度 SAIL 榜單。
明略科技首席科學家、明略科學院院長吳信東在開發者日:開發 · 開源 · 社區主題論壇上正式宣布 HAO 圖譜依託國家新一代人工智慧開放創新平臺開放 Text2KG API 接口,賦能開發者和企業級用戶。
負責 HAO 圖譜具體研發工作的是明略科學院知識工程實驗室,我們與實驗室主任張杰博士進行了交流,他向我們介紹了明略科技的 HAO 圖譜技術及應用落地。
HAO 圖譜,源自於 2018 年明略科技提出的 HAO 智能理論框架。HAO 智能旨在集成人類智能(HI)、人工智慧(AI)和組織智能(OI),打通感知、認知和行動系統,幫助企業和組織實現智能化發展。其中,HAO 圖譜屬於認知系統的範疇。
HAO 圖譜,可以獨立運行,也可交付給企業技術團隊進行二次開發,核心模塊包括語音流監聽,語音轉文本,標點預測,口語順滑,文本補全,實體關係抽取,實體對齊,以及圖譜話題切換。
具體來說,HAO 圖譜的輸入為一維的文字序列或語音流,系統工作時分為如下幾步:
逐句翻譯,形成大圖:首先將輸入序列逐句的做實體識別和關係抽取,繪製成圖結構,每新增一句,就在原有的圖結構上增加新節點和新邊;
篇章摘要,找到重點:當整段文本或語音輸入結束後,再在篇章級大圖譜上,根據節點的語義、圖結構、位置等特徵識別出重點節點和邊;
關聯背景知識:將重點節點和關係映射到後臺的領域知識圖譜上,利用領域知識圖譜擴展其語義信息。領域圖譜包括:由大量實例組成的數據圖譜、由因果關係組成的因果圖譜、由領域本體結構和領域詞表組成的語義工具;
圖譜增強的應用:針對領域內的特定場景需求,基於圖譜做可視化交互、分類、檢索、推薦、文本生成等特定任務。
目前 HAO 圖譜開放的 Text2KG API 接口,提供了文本轉圖譜的能力,但後臺還做了一些面對 PDF、PPT、word 等半結構化文檔的信息抽取接口。
知識圖譜技術在產業界正經歷著應用的高速增長,學術領域前沿成果與實際落地應用場景間依然存在著巨大的鴻溝,設計、開發、部署一套知識圖譜系統,會面臨數據標註、模型訓練調優、高並發高可用等一系列問題。「目前業內仍缺少一個工業級的穩定工具,HAO 圖譜是第一個語音實時生成圖譜的企業級知識圖譜開發工具包。」張杰表示。
在實際的知識圖譜構建流程中,標註數據、訓練模型需要花費大量時間。而 HAO 圖譜很大程度上解決了上述問題,讓數據分析師或者是建模人員集中精力在業務層,而底層的收集數據、標註數據、訓練模型、數據抽取以及與後臺關聯可以通過調用 HAO 圖譜 Text2KG API 完成,避免了大量的重複工作。「根據實際的企業用戶使用情況來看,可以幫助開發者節約 60% 左右的時間。」張杰介紹。
HAO 圖譜所提供的模型,既包含通用模型,也包含特定領域的模型,如汽車、奶粉、美妝等。通過 API 接口,使用已經訓練好的開放域模型和特定領域模型,開發者可以集中精力在使用知識圖譜解決實際的業務問題上。
知識圖譜的應用涉及可視化、分類、檢索、推薦和生成。目前,HAO 圖譜已經被廣泛應用在社交輿情分析、銷售技能培訓、金融交易反欺詐、案情研判、設備維護、城市及園區管理等不同場景。
在推薦領域,將領域知識有效融入算法,提高推斷準確率一直是研究的難點之一。知識圖譜,可將人類專家經驗和規則,以及大量來自網際網路、各個產業生產中獲得的數據,有機結合,通過對不同實體(節點)之間關係的進行分析,獲得洞察。「知識圖譜蘊含一定的可解釋性,因果關係相對比較明確,這一特點讓它在金融、軌交、電力、公共安全等行業中得以較快落地。」
在社交媒體輿情分析場景中,基於知識圖譜,可以把用戶產生的評論,與後臺已有的品牌數據結合,對產品特性進行觀察,分析特定維度的用戶輿情走勢,隨後把這些結果整合到 BI 系統,為運營人員提供用戶需求洞察。在此基礎之上,實現千人千面的個性化廣告。
在智能導購場景中,比如,銷售人員通過佩戴明略的智能工牌,在保障用戶隱私和數據安全的前提下,將銷售對話轉為文字,進行話題分類,形成一個話題轉移的知識圖譜,計算出話題之間轉移的概率,幫助銷售人員復盤,分析流單的主要環節,改善話題轉移和引導,提高成單率。
總之,HAO 圖譜可以把企業數據按照業務邏輯抽象為陳述性知識或過程性知識,生成數據洞察以更易使用的方式為業務服務。「通過歷史數據的分析和行業專家先驗知識的輸入,知識圖譜可以很大程度上把行業知識復現出來,並實現能力的復用,明略科技能夠在歷史數據達到 10PB 級、日均增量數據超過 10TB 的環境下進行數據價值的挖掘,實現毫秒級的預測性分析,結合行業知識圖譜形成決策和行動。」
目前,在企業智能化服務領域,明略科技已成長為一家明星公司。去年 8 月,明略科技成為第二批「國家新一代人工智慧開放創新平臺」建設單位,以開放、創新、共享為基本原則,持續建設軟體與硬體平臺、開源社區平臺、培訓平臺,構建人工智慧眾創平臺和標準驗證實驗室,設立人工智慧產業基金,全面打造平臺生態體系。HAO 圖譜 Text2KG API 已在明略科技國家新一代人工智慧開放創新平臺官網上線。