近日,在NLPCC(全稱:CCF國際自然語言處理和中文計算會議) 2020上,搜狗杭州研究院知識圖譜組以最高F1值,擊敗多隻國內外頂尖科研機構的參賽隊伍,榮獲Auto Information Extraction(信息抽取)任務組冠軍。
攻克行業難題,搜狗知識圖譜團隊實力奪冠
NLPCC是CCF TCCI(中國計算機學會,中文信息技術專委)的年度學術會議,專注於自然語言處理(NLP)和中文計算(CC)領域,不僅是國內首個NLP領域的國際會議,也是全球範圍內代表NLP領域頂尖水平的國際會議之一。NLPCC會議設置技術競賽單元,每年一屆,吸引來自全球各地的頂尖科研機構參賽競逐。此次在「信息抽取」任務組奪冠,體現了搜狗在該技術領域的行業領先地位。
當前正處於一個信息爆炸的社會,網絡上的信息更是呈現指數增長,這無疑增加了我們獲取有效信息和知識的難度。在此背景下,幫助人們從自然語言文本中,獲取特定信息,以及信息之間的相互關係,並將海量內容自動分類、提取和重構的「信息抽取」技術應運而生。通過信息抽取之後,關鍵信息將會以一定的結構展示,一目了然。
作為冠軍隊伍,搜狗知識圖譜團隊展現了強大的AI技術實力,通過採用Bert+CRF模型,並在模型上加入了標籤路徑限制 Incomplete Annotations Training(不完全標註訓練)、 Self-training(自訓練)等多種技術策略,攻克了在未提供大量有標註的人工語料,而只提供不完全的實體詞典和大量無標註文本,以及少量有標註集合的情況下抽取高精度模型的行業難題,最終在本次競賽任務中脫穎而出,贏得冠軍。值得注意的是,搜狗將知識圖譜能力不僅用於此。在和搜狗同傳3.0的結合中,利用知識圖譜進行領域內知識擴展,形成整個演講相關知識網絡,提高了識別和翻譯效果。此外,在搜狗搜索中基於知識圖譜的問答學習也廣泛得到了運用,有效提升了信息獲取效率。
信息抽取技術更成熟,推動人工智慧應用邁向新臺階
不難預見,伴隨著搜狗團隊對這一行業難題的攻克,信息抽取技術也將打開更加廣闊的應用前景。更重要的是,信息抽取作為構建知識圖譜的關鍵步驟,此技術難題的攻克,也意味著知識圖譜的發展將邁上新臺階。
知識圖譜作為人工智慧發展的一個重要基石,最大的價值是讓機器有了認知能力,可以幫助我們更好地從客觀世界中去挖掘、獲取和沉澱知識。而一個高精度的知識圖譜更是能夠廣泛應用於信息檢索、問答系統、推薦系統、金融風控、電子商務、教育醫療、公安刑偵等領域。
特別是在搜索領域,知識圖譜的應用讓搜索體驗完成質的飛躍。作為國內首家構建和應用知識圖譜的搜尋引擎,搜狗搜索早已將基於知識圖譜的人工智慧技術和差異化內容內置到產品中,一方面大大提升了產品體驗和用戶粘性,另一方面基於海量用戶與機器的互動,不斷從中獲取數據、優化算法,使得知識圖譜的構建更加完善,信息抽取技術突飛猛進。而這也正是搜狗知識圖譜團隊能夠力壓群雄,在本次信息抽取任務競賽中拿下最高分贏得冠軍的重要原因。