篇章語義分析:讓機器讀懂文章

2021-02-14 哈工大SCIR

聲明:本文發表於 《中國人工智慧學會通訊》第6卷第7期

作者:張牧宇, 劉銘, 朱海潮, 秦兵

引言:自然語言處理的研究從詞彙、詞典的研究起步,近年來一直把句子作為核心的研究對象,對篇章的語義分析多是語言學家從理論上進行探索,計算機科學家對篇章範圍語義現象的關注有限。但是,很多語義問題必須在篇章層面上才能夠得到根本性的解決,比如「共指消解」、「語義關係識別」和「事件融合與關係識別」等。同時,這些篇章級語義問題的解決對於詞彙級和句子級的分析同樣具有反哺性的指導意義。近年來,中文詞彙、句子級自然語言處理技術的發展,特別是詞義消歧、句法分析和語義角色標註等研究工作的進展為篇章語義分析的研究創造了技術條件。同時,搜尋引擎等重大網際網路應用也向篇章語義分析提出了應用上的強烈需求。如果能夠建立一套既具有理論深度,又具有現實可行性的篇章語義分析的理論和方法體系,對於自然語言處理學術和應用的發展無疑都將具有重要意義。本文即概述了目前主流的篇章語義分析方法,並簡要介紹了其應用前景。

1、什麼是篇章語義分析

篇章(Discourse),是指由詞和句子以複雜的關係連結而成,能夠完成一定交際任務的完整連貫的語言單元。篇章語義分析(Discourse Analysis)是指在篇章層面上,將語言從表層的沒有結構的文字序列轉換為深層的有結構的機內表示,刻畫篇章中的各部分內容的語義信息,並識別不同部分之間存在的語義關聯,進而融合篇章內部信息和外部背景知識,更好的理解原文語義。篇章語義分析的研究建立在詞彙級、句子級語義分析之上,融合篇章上下文的全局信息,分析跨句的詞彙之間,句子與句子之間,段落與段落之間的語義關聯,從而超越詞彙和句子分析,達到對篇章等級更深層次的理解。

2、篇章語義分析方法概述

篇章語義分析主要有以下三個主流的研究方向:

2.1 以篇章結構為核心

此類研究工作的目標是識別不同文本塊之間的語義關係,例如條件關係、對比關係等,亦稱之為修辭關係識別。根據是否需要將文本分割為一系列彼此不相交的覆蓋序列,可以將本類方法進一步分成兩大類:第一類以修辭結構理論(Rhetorical Structure Theory)和篇章圖樹庫(Discourse GraphBank)為代表,要求先將文本切分為彼此不相交的語義單元,並隨後分析各部分之間的語義關係及結構組成;第二類方法以賓州篇章樹庫理論(Penn Discourse TreeBank)為代表,不需要預先切分文本,而是直接識別篇章關係及其元素所在位置,並隨後識別具體的語義關係類型。

修辭結構理論(Rhetorical Structure Theory, RST)最早由Mann和Thompson在1988年發表的論文[1]中提出。除Mann和Thompson在該方向持續發表相關工作之外,Marcu在其論文中對RST理論進行了分析,並持續探索該方向,提出兩種基於RST理論分析的文本處理方法[2]:(1)識別提示短語(Cue Phrases, CP),然後將整句打散成若干個子句;(2)為無結構的文本建立一個有效的修辭結構樹。RST理論以文本結構為分析對象,從小單元之間的連接關係開始,逐步延伸到自然語言段落和完整的語篇。RST在漢語中的跨語言可轉移性有特殊的背景。可惜,雖然有不少對RST的中文介紹和初步應用計劃等,但實質性的發展應用很少。目前山西大學李茹教授的團隊正在嘗試進行中文RST樹庫的構建工作,所產出的資源已經具有一定規模,非常值得期待,只是尚未有公開的成果發表。因此,RST理論現在在中文尚沒有一套完整可用的系統或理論,應用難度較高。

篇章圖樹庫(Discourse GraphBank)最初由Wolf和Gibson提出[3]:該理論認為,相比於樹結構,篇章更適合於表示為圖。在最初的文章中,Wolf和Gibson詳細討論了圖表示與樹表示的差別,並構建了一個由135篇文檔構成的篇章樹庫資源。Wolf和Gibson提出,圖表示允許將文章中的不同內容以更自由的形式表示出來,從而可以儘可能的獲取豐富信息。關於Discourse GraphBank與RST Discourse TreeBank的區別可詳見Wolf and Gibson [3]。

賓州篇章樹庫理論(Penn Discourse Treebank)是賓州大學的研究人員採用的一種以詞彙為中心的方法[4],在句子級的Penn TreeBank樹庫的基礎上,以篇章關聯詞語為核心,從語義角度出發構建了篇章關係樹庫[5]。該研究檢測同一篇章內兩個文本單元(片段、分句、複句、句群、段落等)之間的邏輯語義關聯(因果關係、轉折關係等),將句內的語義分析結果擴展為篇章級別的語義信息,從而成為語義分析的重要解決途徑之一。

根據文本單元間是否存在篇章連接詞,可將篇章句間的關係分為包含關聯詞的顯式篇章句間關係(Explicit Discourse Relation,簡稱顯式關係)[6,7]與不含關聯詞的隱式篇章句間關係(Implicit DiscourseRelation,簡稱隱式關係)[8,9,10,11]。由於隱式篇章關係缺少關聯詞,無法直接推測語義關係類型,需要根據上下文進行推測,因此也更加難以識別。

目前採用PDTB標準構建的篇章語料主要面向英語[5],除此以外印度語[12]、土耳其語[13]和阿拉伯語[14]上也有相應的研究和資源出現。在中文上,布蘭迪斯大學的Xue教授最早嘗試了中文關聯詞標註於分析工作[15],並嘗試按照PDTB體系標註中文樹庫。除此以外,Huang和Chen也在相關工作上做了一定嘗試[16]。值得一提的是,哈爾濱工業大學社會計算與信息檢索研究中心秦兵教授課題組,採用PDTB框架,歷時數月,標註超過20,000個實例,構建了一份大規模的中文篇章語料庫[17],並於2014年對學術界免費共享。

整體來說,以篇章結構為核心的篇章語義分析研究中,文本的語義信息首先被轉換為文本塊間的修辭結構,隨後具體化為相應的語義關係類型(例如因果關係、轉折關係等)。對於以修辭結構理論(RST)為代表的一類研究而言,文本塊間的修辭結構應該滿足一種樹形結構;而對於以賓州樹庫理論(PDTB)和篇章圖理論(Discourse GraphBank)而言,文本塊間的修辭結構則傾向於線形結構,同時允許一定的交叉和跨越關係存在。這些研究兼有表現力和實用性,通過定義修辭結構和語義關係,這些方法可以獲取一定程度的語義信息,並且採用超越了詞彙級別的基本處理單元,表現力較強。缺點主要在於結構分析難度較大,無論RST還是PDTB都對篇章結構做了部分假設從而降低難度,提升操作性,但也損失了語義結構的完整性。更重要的是,在語義類型識別方面,由於語義問題本身的複雜性和歧義性,導致識別難度較大;而已有的相關研究主要關注篇章內部特徵的挖掘和使用,對外部語義知識的使用不足,這也在一定程度上限制了最終的識別效果。

2.2 以詞彙語義為核心

最典型的代表為詞彙鏈理論(Lexical Chain Theory),其由Morris和Hirst於1991提出的。「詞彙鏈」是指一個主題下的一系列相關的詞共同組成的詞序列[18]。該算法的基本假設非常直觀:用於描述特定主體的多個詞語,在語義層面上應該是相關的,並且圍繞特定主體展開構成一條相關詞彙的鏈條。這樣聚集起來的相關詞彙的鏈條即稱之為「詞彙鏈」,作為特定語言片段內部各個主題的指示。如果能夠分析獲知多個詞彙鏈在文中的分布,那麼對應的文章結構也就確定了,屬於一種靜態的語篇連貫研究方法。

與鏈狀的詞彙鏈不同,中心理論(Centering Theory)主要針對篇章結構中的焦點、指代表達式選擇、話語一致性等進行研究。最初由Grosz等[19]在1995年提出,通過跟蹤句子的「中心」變化來描述篇章。「中心」指的是將當前句子與其他句子關聯在一起的實體,如果一句話有了這種「中心」實體,那麼它將不再是獨立的句子,而是與上下文相關的語句。如此,Grosz等人將「句子(Sentence)」與「語句(Utterance)」區分開來,用「句子(Sentence)」指代一個普通的詞的序列,用「語句(Utterance)」代指這種具有中心的、與上下文相關的句子。所以他們認為,這些「中心」才是組成語篇結構的基礎成分。

篇章連貫性理論(Discourse coherence evaluation)是篇章語義分析研究的另一典型代表。該研究最初始於Grosz等人1995年提出的「中心定理」,通過對「中心」的刻畫直接反映了篇章連貫信息[19]。近年來,篇章連貫性分析研究獲得了比較快的發展,出現了一些操作性較強的方法和研究。2005年,Barzilay和Lapata提出了經典的基於實體的連貫性評估方法,該方法分析各個實體在多個句子中是否出現及相應句法角色,將待評估的文章轉化為Entity-grid,並利用該Entity-grid抽取特徵訓練有指導模型來進行連貫性評估[20]。2008年,Elsner和Charniak在經典的Entity-grid模型的基礎上,對篇章實體進行了進一步細分,引入新實體的概念和實體間的共指信息,顯著提升了系統性能[21]。隨後,他們二人進一步豐富了Entity-grid方法,向表格中的項中添加了關於實體顯著性的信息以更加提升系統性能[22]。

在上文介紹的以詞彙語義為核心的篇章語義分析研究中,文本的語義信息通過詞彙間的語義關聯體現。具體來說,語義相關的詞彙、實體在文檔中的分布情況,也可以體現篇章的行文結構以及各部分之間的語義關聯,此類研究中的不同理論與方法從不同的角度對篇章信息進行了刻畫。具體來說,語義詞彙鏈理論(Lexical Cohesion)通過分析普通詞彙(包括名詞、形容詞等)的語義信息構建主題詞彙鏈,利用詞彙之間的分布和轉移方式分析篇章語義。中心理論(Centering Theory)和連貫性分析則主要以實體為分析對象,利用實體(包括共指實體、相關實體等)的分布和重現刻畫篇章信息。這一類的研究理論完善,操作性也比較強;但以詞彙為分析對象,表現力比較有限,而且語義關係以關聯為主,對具體的語義類型(例如因果關係、轉折關係)沒有進行更細緻的區分。另外,此類方法通過詞彙的銜接來反映篇章結構,不利於刻畫複雜的篇章結構信息。

2.3 以背景知識為核心

此類研究工作需要藉助語義詞典作為背景知識幫助分析篇章語義關係。經過國內外專家的努力,目前已經產生一些初具規模,並具有一定實用程度的語義詞典資源。在國外,有以描寫詞彙上下位、同義、反義等聚合關係為主的WordNet[23],以描寫語言成分之間的各種組配關係為主的FrameNet [24]。而國內比較知名的有知網(HowNet)[25]、清華大學開發的以語義組合關係為主的《現代漢語動詞分類詞典》[26]、北京大學基於WordNet框架開發的中文概念詞典(Chinese Concept Dictionary,CCD)[27]、臺灣中研院集成多資源的SinicaBow(the Academia Sinica Bilingual OntologyWordNet)[28]、哈爾濱工業大學在同義詞詞林(Cilin)基礎上開發的同義詞詞林(擴展版)等。

隨著Web 2.0的發展,用戶產生內容使得網際網路上的信息量爆增。以Wikipedia(中文名:維基百科)為代表的,使用群體智慧構建的在線百科就是其中的典型代表。Wikipedia是一種在線協作式編輯的多語言百科知識庫,它以概念(concept)為單位維護一個獨立的頁面,其中包含對該概念的全面豐富的內容介紹(content)。Wikipedia具有開放式的分類,不局限於特定的層次分類。每個概念根據不同角度可以歸入不同的類別,即每個概念可以屬於一個或多個分類(category)。Strube和Ponzetto最早提出基於Wikipedia的語義相關度計算方案:WikiRelate。他們使用Wikipedia的分類節點為代表詞,計算節點之間的最短路徑衡量詞的相關程度,達到了與WordNet相當的效果[29]。Gabrilovich和Markovitch提出了顯式語義分析(Explicit Semantic Analysis,ESA)模型,他們首先將文本表示成高維Wikipedia概念向量,通過計算向量餘弦相似度等得到文本之間的相關程度[30]。這種將文本表示成概念集合的方式易於理解,且語義表示能力較強。Witten和Milne在前人工作基礎上,提出了WLM(the Wikipedia Link-based Measure)度量方法,主要使用Wikipedia概念中包含的大量超連結,而非分類和概念文章內容,反映文本的語義信息[31]。類似的方法還有[32,33]。

由於Wikipedia蘊含著豐富的語義知識,已有工作大都採用詞匹配或檢索方法將文本映射到Wikipedia的概念網絡,並以此作為對文本的補充。然而,由於Wikipedia頁面中的信息過多,引入整個頁面較易導致噪音問題。此外,中文維基百科的質量遠不及英文,也會限制中文相關的研究工作。哈爾濱工業大學的張牧宇博士根據認知心理學中的聯想主義理論將背景知識(例如Wikipedia)表示為統一的三元組結構後將其引入到篇章語義分析中,並將分析結果用於檢測篇章語義的連貫性以衡量聯想背景知識的效果[34]。

框架語義學(Frame Semantic)是由Fillmore等人在格語法基礎上進一步提出的研究詞語意義和句法結構意義的語義學理論。該理論認為詞彙的語義必須跟具體的認知結構相聯繫,同一個詞語在不同的結構中可能具有不同的語義,而這裡所說的認知結構即為「框架」[35]。框架語義學認為,詞語的意義通常於人腦中預先存在的概念結構相互聯繫,而這些概念結構又與個體所處的具體情境有關,涉及到實體屬性、社會制度、行為模式等語義框架的約束。因此,人們可以根據自己的經驗刻畫不同的背景框架,並進而對同一個框架下的各個詞語定義具體的框架元素。該項目最早起源於美國加州大學伯克利分校於1997年開始的一個以框架語義學為理論基礎,以真實語料為事實依據的計算機詞典編撰工程,且至今仍在進行。目前為止,FrameNet V1.5已構建了960個語義框架,覆蓋11,600個詞彙,其中超過6,800個詞彙被完全標註,已標註150,000多個例句,並仍然在不斷擴充。

從整體上來說,以背景知識為核心的篇章語義分析研究中,文本語義信息通過人工構建的背景知識資源體現,分析過程也圍繞相應資源來展開。根據知識源的特點,分析過程和側重點也各不相同。具體而言,語義詞典(Dictionary)和在線百科(Online Encyclopedia)相對寬泛,適用於多種語義信息需求以及豐富的應用場景;框架語義學(FrameNet)以動詞為核心,通過構建「語義框架」將語義知識轉化為計算機詞典,用詞義間的關聯反映語義,此方法信息豐富,對語義的刻畫相對完整,便於計算機使用,所提供的語義信息可以用於各種應用,價值很高。缺點在於嚴重依賴於背景知識資源的覆蓋率,對資源質量要求很高;而此類資源又大都專業性較強,構建過程耗時耗力,很難形成規模,難以窮盡現實場景,從而限制了實用性。而基於在線百科的資源,又存在噪音較大,信息不夠精確等問題。

3、篇章語義分析的應用

由於篇章語義分析以篇章結構和語義信息為分析目標,因此對機器翻譯(Machine Translation, MT)研究的促進作用最為直接。在已有的工作中,研究人員利用篇章語義分析技術從很多角度輔助機器翻譯系統的性能提升。首先,篇章語義分析研究結果能夠刻畫MT系統的輸入文本塊之間的語義關係,這對MT系統更合理地組織翻譯結果無疑是有益的[36]。此外,篇章語義分析對關聯詞、文檔結構都進行了比較深入的分析,這些信息有助於提升翻譯文本的連貫性,生成可讀性更好的翻譯結果[37,38]。另外,篇章級別的機器翻譯評價始終是一個難題,通過引入篇章語義分析研究結果,可以在篇章層面上利用核函數捕捉結構信息,有助於更好地進行翻譯質量評估[39,40]。

自動問答系統(Question Answering, QA)是另一個從篇章語義分析研究中受益的重量級應用。通常情況下問答系統包括問句理解和答案抽取兩個模塊:在問句理解部分,篇章語義分析有助於理解題幹各部分之間的語義關係,從而加深對問題的理解[41]。在答案抽取方面,篇章語義分析可以用來更精確地分析答案所在文本[42],進行候選答案的重排序,有助於更準確的回答問題[43]。除了傳統QA研究之外,近年來閱讀理解研究也受到了越來越多的關注。閱讀理解的任務是對於給定的一篇自然語言文章和給定與文章相關的問題,計算機根據詞語特徵等語義信息來自動選擇與問句相關的候選答案句。在閱讀理解任務中,文章主題的廣泛性要求對語料庫進行深度加工和處理,才能得到比較好的結果。閱讀理解研究可以直接應用到許多的社會領域,它不但是自然語言處理的一個重要的研究方向,而且可以對自然語言處理技術的成熟有很大促進作用。事實上,組成篇章結構的語句、片段之間有著明顯的語義關係,這些關係可以加深對問題的理解[41]。在文獻[44,45]中,已經證明了句法關係對閱讀理解答案抽取有促進作用,但是其性能的提升並不明顯。目前,已有的基於概率和機器學習的答案抽取方法中,都是將篇章中的各個句子看作是相互沒有語義關聯的獨立信息描述單位。但在實際上,篇章中的不同句子之間存在者緊密的邏輯語義關係,全部句子結合之後來才能完成對篇章主題的全面描述。因此,通過在篇章中逐一判別每個句子和用戶問題之間邏輯匹配度的方法來選擇答案句,就無法正確回答用戶的所有問題。基於此,即有了結合篇章語義分析的閱讀理解方法,與傳統QA類似,該研究也得益於篇章語義分析[41,46,47]而獲得了性能的顯著提升[48]。

4、挑戰與機遇

目前主流的篇章語義分析方法以有指導的分析方法為基礎,其依賴於帶標註信息的語料資源,而此類資源嚴重匱乏。其次,由於語料資源的匱乏以及篇章關係分析任務本身的複雜性,目前為止,中英文篇章關係的識別的研究均處於初期階段,限制了篇章語義分析研究的繼續深入。事實上,按照張牧宇博士的論文[34],原文之外的相關背景知識能夠有效地幫助挖掘原文內容中的語義信息。因此,原文並不能獨立於背景知識而存在,缺少背景知識必然會影響對原文的分析與理解。但是,目前缺少一種合適的背景知識表示方法,並且也缺少一種有效的將背景知識和原文進行連接的方法。這些問題限制了篇章語義分析性能的提升。

作為一個新興的研究熱點,篇章語義分析方面的研究還遠遠不夠,無論是背景知識獲取還是原文語義分析都有更進一步發展的空間。除本文介紹的應用之外,融入背景知識的篇章語義分析還可以應用在其他很多領域,例如:篇章語義分析結果有助於生成更好的文摘結果[49];篇章語義分析還可用於文本可讀性分析,即通過篇章語義分析判定文本結構是否合理、語義是否連貫,進而評估文章的可讀性[50]。總之,無論從理論研究的角度,還是從應用需求的角度,篇章語義分析都已經成為一個非常重要的研究方向。隨著研究工作的不斷深入和相關方法技術的逐漸成熟,篇章語義分析研究定會向更深入、更全面、更完善的目標前進,並促進機器翻譯、自動問答、自動文摘、以及自然語言生成等相關研究的發展。

5、參考文獻

請點擊左下方「閱讀原文」進行查看。

作者簡介:


「哈工大SCIR」公眾號

編輯部:郭江,李家琦,徐俊,李忠陽,俞霖霖

本期編輯:徐俊

長按下圖並點擊 「識別圖中二維碼」,即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公共號:」哈工大SCIR」 。點擊左下角「閱讀原文」,即可查看原文。

相關焦點

  • 【技術】語義分析技術與知識工程
    這裡的「自然語言」是相對於「彙編語言」、「C語言」、「機器指令」等人工語言而言的。因為人類的思維主要以自然語言為載體,一旦電腦程式理解了自然語言,人類全部的歷史、科學、文學、法律等文獻都可以被計算機記憶、運用,而這與知識工程的最終目的不謀而合。語義分析的理論和方法是從語言學、數學、計算機學等多個學科綜合發展而來。
  • 文本情感分析:讓機器讀懂人類情感
    真正的人工智慧系統不僅具有像人類的思考和推理能力,也需要也要能夠感知和表達情感。MIT 的Minsky  (人工智慧之父)早在 1985年在「The Society of Mind」中指出「問題不在於智能機器能否擁有任何情感 ,而在於機器實現智能時怎麼能夠沒有情感?」。賦予機器情感分析能力引起了社會的廣泛關注,研究領域也開展了很多相關的研究工作。
  • 賽爾筆記 | 篇章級機器翻譯簡介
    2.任務神經翻譯時代的篇章級機器翻譯致力於在神經網絡中引入並利用上下文相關信息,使得神經網絡能夠捕獲到相關信息並在翻譯過程中保留語義現象從而使得翻譯結果通順且流暢。我們的目標是使 Transformer 模型能夠利用文檔級上下文。
  • 姬東鴻 | 語義分析若干前沿問題
    關鍵詞:語義分析 事件結構 關係模型 語言資源 深度學習 語義分析是指針對各級語言單位包括字、詞、短語、句子、段落和篇章等的意義分析。(三)意義和挑戰實體鏈的分析無疑有助於篇章理解,具體來說,第一,對於句子結構來說,最長名詞短語識別有助於提高句子分析的性能;第二,對於篇章結構來說,最長名詞短語將篇章結構分析的粒度從句子層面細化到短語層面;第三,
  • 手機中的Siri是如何讀懂你的話的,原來是NPL
    這篇文章將告訴你答案。一、Siri技術的基石——自然語言處理(NPL)Siri,全名叫做蘋果智能語音助手。它成立於2007年,2010年被蘋果以2億美金收購,最初是以文字聊天服務為主,隨後通過與全球最大的語音識別廠商Nuance合作,Siri實現了語音識別功能。語音識別是自然語言處理的重要組成部分。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    第一是為百度的眾多產品提供最基礎的、NLP 模型算法,包括百度所有產品都在用的分詞算法、專名識別、詞性分析、語義理解、篇章理解等等一些基礎的一些工具。目前 NLP 部門為整個公司提供一個大型平臺 NLP 雲,未來這個平臺也會對公司外有所開放,目前(這個平臺)每天都有千億量級的調動量。還有貼近應用的一些大型的應用系統,比如說深度問答系統。
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    雷鋒網 AI 研習社編者按:語義分析(semantic parsing)是人工智慧的一個分支,是自然語言處理技術的幾個核心任務,涉及語言學、計算語言學、機器學習,以及認知語言等多個學科。近年來,隨著人工智慧的發展,語義分析也越發重要。
  • 中文自然語言處理數據共建讓機器讀懂「千言」
    中文作為最優美、最複雜的語言,其自然語言的數據共建將幫助機器讀懂「千言」,開拓人工智慧領域無限的遐想空間。  機器認知需依賴知識圖譜   「知識圖譜是機器認知世界的重要基礎。」   在融入知識的基礎上,機器的語言理解能力不斷增強。通過知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,同時具備持續學習能力,這讓機器自然語言突破了閱讀理解、對話理解以及跨模態深度語義理解等技術。   語言生成是語言與知識技術中的重要組成部分。
  • 篇章結構
    篇章是什麼通常來說,一篇文章是由小到大組合在一起:字詞-句子-段落-節-章-篇章,篇章是一篇文章最大的組成單位。篇章有自然段落和語義段落之分,書面語中首行縮進兩格的語言單位叫自然段落,講完一個主題或一個話題則是語義段落。試看兩首詩:例1:(王昌齡《塞下曲》)飲馬渡秋水,水寒風似刀。
  • 2017考研英語閱讀:理解三類詞性在文章中的語義
    考研英語閱讀在練習中要不斷的總結,熟悉篇章中各類詞彙的語義表現,對於閱讀文章,提高效率很有幫助。下面新東方網考研頻道就來談談名詞、動詞和形容詞在文章中的語義表達,2017考生注意理解。
  • 語義分析的一些方法(上篇)
    >語義分析,本文指運用各種機器學習方法,挖掘與學習文本、圖片等的深層次概念。而這其中,就離不開對用戶,對上下文,對廣告的語義分析,由此催生了一些子項目,例如文本語義分析,圖片語義理解,語義索引,短串語義關聯,用戶廣告語義匹配等。接下來我將寫一寫我所認識的語義分析的一些方法,雖說我們在做的時候,效果導向居多,方法理論理解也許並不深入,不過權當個人知識點總結,有任何不當之處請指正,謝謝。
  • 【分析方法】語義分析
    情報分析師工作循環,在我們搜集好數據後需對搜集到數據進行分析,這裡介紹其中一種分析方法語義分析。語義分析是編譯過程的一個邏輯階段, 語義分析的任務是對結構上正確的源程序進行上下文有關性質的審查,進行類型審查。語義分析是審查源程序有無語義錯誤,為代碼生成階段收集類型信息。
  • 科大訊飛機器智能閱卷技術實現機器批改作文
    隨著科技的發展,機器可以協助我們進行數據計算、體力勞動等工作。那麼,「閱卷」是不是也可以由機器代勞呢?答案是肯定的。目前,科大訊飛機器智能閱卷技術已經在安慶、合肥等地成功試點應用。經過對人機評分結果的分析,計算機在評分一致率、平均分差、相關度以及與仲裁分更接近的比例等指標方面都已達到或超過人工評分水平。這意味著,讓機器評閱主觀題已不再是空想。
  • 中心成果 |《中文句法語義分析及其應用》項目成果介紹
    本項目為實現大規模中文句法語義資源建設目標,制定了《語篇句子成分標註規範》《塊依存篇章標註規範》。在這兩個基礎標註規範的指導下,項目組實現了句子結構、「塊依存」資源的大規模建設。課題組主要理論研究成果為「意合圖」中文語義表徵框架。中文句法語義分析是一項語言工程,需要較好的可計算性,並達到較高的形式化程度。
  • 科大訊飛認知智能持續突破,機器閱讀理解SQuAD測試勇奪第一!
    閱讀理解是人類考試中必不可少的項目之一,對於機器,又該怎樣去作答和評判呢? SQuAD挑戰賽通過眾包的方式構建了一個大規模的機器閱讀理解數據集(包含10萬個問題),就是將一篇幾百詞左右的短文給人工標註者閱讀,讓標註人員提出最多5個基於文章內容的問題並提供正確答案;短文原文則來源於500多篇維基百科文章。
  • 百度CTO王海峰詳解知識圖譜與語義理解
    機器之心發布 機器之心編輯部 8 月 24 日至 27 日在杭州召開的 2019 年全國知識圖譜與語義計算大會(CCKS 2019)上,百度 CTO 王海峰發表了題為《知識圖譜與語義理解》的演講。
  • 科大訊飛機器智能閱卷實現機器批改作文
    隨著科技的發展,機器可以協助我們進行數據計算、體力勞動等工作。  那麼,「閱卷」是不是也可以由機器代勞呢?  答案是肯定的。  目前,科大訊飛機器智能閱卷技術已經在安慶、合肥等地成功試點應用。經過對人機評分結果的分析,計算機在評分一致率、平均分差、相關度以及與仲裁分更接近的比例等指標方面都已達到或超過人工評分水平。這意味著,讓機器評閱主觀題已不再是空想。
  • 機器還能寫作?是的!還是議論文
    議論文生成需先理解題意   文本生成可以分為句子級文本生成和篇章級文本生成等。   句子級文本生成包括標題生成、對話生成、風格遷移;篇章級文本生成包括詩詞生成、財報賽事、篇章議論文。
  • 【工具】語義分析系統---- NLPIR
    今天給大家推薦一個語義分析系統: NLPIR NLPIR能夠全方位多角度對文本進行處理,包括:網絡抓取、正文提取、中英文分詞、詞性標註
  • 賽爾原創 | 基於連通圖的篇章級事件抽取與相關度計算
    事實上,在很多應用中,尤其是面向真實的需求,篇章級的事件分析更有影響力。為此,本文在句子級事件抽取的基礎上,提出一種篇章級的事件相關度計算方法,利用句子級事件的抽取結果構建篇章事件連通圖,然後選取圖中重要的節點作為篇章級事件的代表,之後通過計算兩篇文章在篇章事件連通圖上的重合程度確定篇章級事件的相關度。