攻克信息抽取行業難題,搜狗知識圖譜團隊在NLPCC 2020上奪冠

2020-12-26 砍柴網

近日,在NLPCC(全稱:CCF國際自然語言處理和中文計算會議) 2020上,搜狗杭州研究院知識圖譜組以最高F1值,擊敗多隻國內外頂尖科研機構的參賽隊伍,榮獲Auto Information Extraction(信息抽取)任務組冠軍。

攻克行業難題,搜狗知識圖譜團隊實力奪冠

NLPCC是CCF TCCI(中國計算機學會,中文信息技術專委)的年度學術會議,專注於自然語言處理(NLP)和中文計算(CC)領域,不僅是國內首個NLP領域的國際會議,也是全球範圍內代表NLP領域頂尖水平的國際會議之一。NLPCC會議設置技術競賽單元,每年一屆,吸引來自全球各地的頂尖科研機構參賽競逐。此次在「信息抽取」任務組奪冠,體現了搜狗在該技術領域的行業領先地位。

當前正處於一個信息爆炸的社會,網絡上的信息更是呈現指數增長,這無疑增加了我們獲取有效信息和知識的難度。在此背景下,幫助人們從自然語言文本中,獲取特定信息,以及信息之間的相互關係,並將海量內容自動分類、提取和重構的「信息抽取」技術應運而生。通過信息抽取之後,關鍵信息將會以一定的結構展示,一目了然。

作為冠軍隊伍,搜狗知識圖譜團隊展現了強大的AI技術實力,通過採用Bert+CRF模型,並在模型上加入了標籤路徑限制 Incomplete Annotations Training(不完全標註訓練)、 Self-training(自訓練)等多種技術策略,攻克了在未提供大量有標註的人工語料,而只提供不完全的實體詞典和大量無標註文本,以及少量有標註集合的情況下抽取高精度模型的行業難題,最終在本次競賽任務中脫穎而出,贏得冠軍。值得注意的是,搜狗將知識圖譜能力不僅用於此。在和搜狗同傳3.0的結合中,利用知識圖譜進行領域內知識擴展,形成整個演講相關知識網絡,提高了識別和翻譯效果。此外,在搜狗搜索中基於知識圖譜的問答學習也廣泛得到了運用,有效提升了信息獲取效率。

信息抽取技術更成熟,推動人工智慧應用邁向新臺階

不難預見,伴隨著搜狗團隊對這一行業難題的攻克,信息抽取技術也將打開更加廣闊的應用前景。更重要的是,信息抽取作為構建知識圖譜的關鍵步驟,此技術難題的攻克,也意味著知識圖譜的發展將邁上新臺階。

知識圖譜作為人工智慧發展的一個重要基石,最大的價值是讓機器有了認知能力,可以幫助我們更好地從客觀世界中去挖掘、獲取和沉澱知識。而一個高精度的知識圖譜更是能夠廣泛應用於信息檢索、問答系統、推薦系統、金融風控、電子商務、教育醫療、公安刑偵等領域。

特別是在搜索領域,知識圖譜的應用讓搜索體驗完成質的飛躍。作為國內首家構建和應用知識圖譜的搜尋引擎,搜狗搜索早已將基於知識圖譜的人工智慧技術和差異化內容內置到產品中,一方面大大提升了產品體驗和用戶粘性,另一方面基於海量用戶與機器的互動,不斷從中獲取數據、優化算法,使得知識圖譜的構建更加完善,信息抽取技術突飛猛進。而這也正是搜狗知識圖譜團隊能夠力壓群雄,在本次信息抽取任務競賽中拿下最高分贏得冠軍的重要原因。

相關焦點

  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    北京百分點信息科技有限公司認知智能實驗室在實踐探索中,通過利用自然語言處理技術獲取結構化的信息抽取能力,探索出了一套行業知識圖譜構建流程方法。尤其是基於深度遷移學習,幫助構建法律百科詞條、公安文本知識圖譜等行業項目中,在實體抽取、關係抽取、事件抽取等方面都取得了理想的實踐效果。本文將從概念辨析、技術路徑、實踐總結,由虛到實、由淺入深引導大家理性看待知識圖譜技術的能與不能,以更好地在實踐中運籌帷幄。
  • 2020年中國面向人工智慧「新基建」的知識圖譜行業白皮書
    根據覆蓋範圍的不同,知識圖譜可以區分為應用相對廣泛的通用知識圖譜和專屬於某個特定領域的行業知識圖譜:通用知識圖譜覆蓋範圍廣,注重橫向廣度,強調融合更多的實體,通常採用自底向上的構建方式,從開放連結數據(「信息」)中抽取出置信度高的實體,再逐層構建實體與實體之間的聯繫;行業知識圖譜指向一個特定的垂直行業,注重縱向深度,具有豐富的實體屬性和數據模式,通常採用自頂向下的構建方式
  • 搜狗西工大聯合團隊DNS挑戰賽奪冠
    奪冠技術降噪效果究竟如何,讓我們先來聽一段語音:DCCRN處理前來自量子位00:0000:10經過搜狗-西工大聯合團隊的技術處理後,背景嘈雜的聲音已經完全去除,仿佛置身於安靜的錄音室。在實時賽道上幾乎等於是要求降噪處理的聲音與原音同步,具體規則如下:對於一幀長度為T毫秒的語音來說,在2.4Ghz的Core i5 四核CPU上處理時長不能超過T/2毫秒。使用的未來幀信息不超過40毫秒。
  • 明略科技HAO圖譜入圍2020 SAIL獎Top 30及年度榜單
    2020年7月9日,世界人工智慧大會雲端峰會開幕式上,2020卓越人工智慧引領者(SAIL獎,Super AI Leader)評選結果揭曉。明略科技與亞馬遜、IBM、百度、騰訊、京東、小米、華為等國際知名頭部企業,共同入圍TOP30的項目及2020年度SAIL榜單。
  • 萬字詳解:騰訊如何自研大規模知識圖譜 Topbase
    導讀Topbase 是由 TEG-AI 平臺部構建並維護的一個專注於通用領域知識圖譜,其涉及 226 種概念類型,共計 1 億多實體,三元組數量達 22 億。在技術上,Topbase 支持圖譜的自動構建和數據的及時更新入庫。
  • 平安產險在ICDM 2020 知識圖譜國際大賽中斬獲冠軍
    KGCS(Knowledge Graph Contest : Specification)知識圖譜大賽是由ICDM主辦的國際頂級數據挖掘賽事,是目前數據挖掘領域全球最具挑戰性的比賽。本屆知識圖譜大賽在定位用戶需求基礎上增加了極具挑戰的"意圖類型識別"任務,即對同一名用戶多種消費需求進行預測,相比命名實體識別競賽具有更高精確度的要求。
  • 知識圖譜入門系列
    01 什麼是知識圖譜 1. 定義 官方定義:知識圖譜是一種基於圖的數據結構,由節點(point)和邊(Edge)組成,每個節點表示一個「實體」,每條邊為實體與實體之間的「關係」,知識圖譜本質上是語義網絡。
  • 老焦專欄|知識圖譜建設方法論
    我們首先對裝備與故障進行建模,然後將已有的故障維修記錄、裝備設計要求等信息進行知識的抽取,形成知識圖譜,當故障發生時利用圖譜進行推理,找到故障的具體位置。很多文獻中把知識抽取按知識來源劃分,分為結構化數據、半結構化數據、非結構化數據的抽取:結構化數據抽取指將已經具備元數據信息的數據進行轉換(例如資料庫),將知識存入知識圖譜;半結構化數據往往指網頁中的表格列表;
  • 搜狗翻譯獨家支持PBIC 2020國際挑戰賽,展現優異AI同傳能力
    8月15日,主題為「創新實踐,公益非洲」的PBIC 2020 (第四屆) 青少年公益創新國際挑戰賽總決賽在北京舉辦。搜狗翻譯鼎力支持PBIC 2020賽事,為現場提供了精準流暢的AI同傳服務,通過架起語言溝通橋梁、助力公益無國界。
  • 從ACL 2020看知識圖譜研究進展
    目前,ACL 2020 收錄的文章大部分已經在網上公開。從論文的題目、主題等關鍵詞可以看出,主要的研究方向包括人機對話,多模態、多語言和多領域,圖神經網絡,以及經典的信息提取類問題,包括實體抽取(NER)、事件抽取以及關係抽取等。研究手段則仍集中於各類機器學習的方法,包括:神經網絡、預訓練、注意力、知識圖譜等。
  • 知識計算的新成績單,華為雲奪得CCKS篇章級事件抽取技術評測冠軍
    近日,在人工智慧旗艦學術會議2020全國知識圖譜與語義計算大會(CCKS)上,華為雲EI與蘇州大學組成的聯合團隊在"面向金融領域的篇章級事件主體與要素抽取"評測任務中獲得第一名的佳績。
  • 滿分奪冠!平安人壽AI團隊奪得國際權威NLP大賽SemEval第一
    近日,在全球權威NLP大賽SemEval-2020(International Workshop on Semantic Evaluation 2020)中,平安人壽AI團隊從300餘支專業隊伍中脫穎而出,以滿分成績斬獲自由文本信息抽取競賽(DeftEval:
  • WWW 2020:百度入選論文解析,涵蓋信息抽取、對抗生成等領域
    近日,國際頂級綜合學術會議WWW 2020 (The Web Conference 2020) 在中國臺灣如期舉辦。本次會議,百度研究院共有6篇論文入選,位居國內科技企業前列。而且其中大部分論文的全部作者均來自百度,展現出百度公司超高的科研水準和領先的技術實力。
  • 同濟王昊奮:知識圖譜與多模態大數據時代|世界人工智慧大會
    在2020年世界人工智慧大會雲端峰會中,達觀數據與浦東青聯聯合舉辦了「智能時代,語你同行」行業論壇,圍繞語言智能,在雲端與多位行業專家與學者展開了一場精彩線上交流盛宴。同濟大學特聘研究員王昊奮教授圍繞知識圖譜詳細介紹了多模態知識圖譜的構建、以及大規模知識推理、多策略知識問答等關鍵技術,並就行業知識圖譜在金融、工業網際網路、泛傳媒、抗疫等領域的實踐進行了詳細介紹。以下為演講內容:大家好!
  • 搜狗2020年Q2財報:AI驅動戰略升級,營業收入超18億
    8月10日,搜狗公司發布了2020年第二季度未經審計財報。二季度,搜狗積極以語言AI能力驅動戰略升級,繼續加強自然交互和知識計算領域的技術布局,利用語音、視覺、翻譯、對話、問答等前沿技術推動更大的業務賦能和協同,在此基礎上,搜狗公司營業收入超18億人民幣。
  • 一文全覽,ICLR 2020 上的知識圖譜研究
    雷鋒網(公眾號:雷鋒網) AI 科技評論:ICLR 2020 正在進行,但總結筆記卻相繼出爐。我們曾對 ICLR 2020 上的圖機器學習趨勢進行介紹,本文考慮的主題為知識圖譜。在AAAI 2020 舉辦之際,他也曾對發表在AAAI 2020上知識圖譜相關的文章做了全方位的分析,具體可見「知識圖譜@AAAI2020」。
  • 鉅派股權團隊解讀「新基建」產業獨角獸明略科技的數據生意
    拓展行業邊界,明略構造智能化城市明略數據是源自於大數據技術拓展出來的認知智能技術,在自然語言處理、語音識別、知識圖譜等技術上投入了很多研發力量,也在各個行業裡面不停嘗試。明略科技積累了業內領先的大數據分析能力,能夠在歷史數據達到10PB級、日均增量數據超過10TB級的環境下,進行數據價值的挖掘,實現毫秒級的預測性分析,並結合行業知識圖譜形成決策和行動。在認知智能技術方面,明略科技具備行業內領先的知識圖譜、自然語言處理等AI技術,在公安、工業、金融等多個行業構建了行業知識圖譜。
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 搜狗2016年全年財報解讀:對話 問答 翻譯 將AI武裝到牙齒
    今年年初,搜狗耗資4000萬打造的人工智慧機器人汪仔正式登陸江蘇衛視《一站到底》節目,節目中汪仔與最終獲勝的人類選手進行答題PK並取得最終勝利,成功展示了搜狗在自然語言理解和智能問答等領域的領先技術。其背後依靠的正是基於人工智慧技術的搜狗立知。立知是搜狗研發的面向未來的搜索技術,其背後蘊含語義分析,問題理解,信息抽取,知識圖譜,信息檢索,深度學習等眾多技術。
  • 浙大科研團隊15載攻克殲20等飛機裝配系列難題
    浙江大學飛機裝配創新團隊通過15年的「加速跑」,攻克了飛機裝配領域的一系列技術難題,開創了我國飛機自動化裝配新局面。  突破核心技術  飛機裝配是縮短飛機製造周期、降低製造成本、保障製造質量的關鍵環節。直到20世紀末,我國飛機裝配技術整體上仍較落後。