最大熵方法及其在自然語言處理中的應用研究

2020-12-06 starofAlzat

自然語言處理現狀

採用自語言與現代化的設備相交流,是人們的一個長遠性發展目標,不僅可以改變人們的生活方式,還會有助於信息技術的高速發展。在生活中,人們可以使用自己的語言來掌控計算機系統,並不需要主動的去學習計算機原因和內容的編程操作,可以利用其進一步的增強對人類語言文化的使用以及對現代化設備的智能操作。自然語言的探索可以實現人類和計算機的無隔閡互動,從而更加高效率的理論交流,是將現代化設備從科學領域轉變為人工智慧的過渡環節,一旦實現就可以帶領當前的科學技術進入到下一個發展階段中。要想切實的減少人機交流過程中的阻礙,需要在編製程中加強計算機設備對於自然語言的多重性領會,可以領悟到自然語言本身所具有的思想意識。上述兩種階段,前一種被稱作是自然語言理解,後一種責備稱作為自然語言生成。自然語言的處理總體上包含著自然語言的領會以及語言意識生成兩種環節,在過去的幾年中,研究人員對於自然語言的研究頻率較為廣泛,但是自然語言的生成探索程度較為薄弱,此種情況正在隨著探究而發生轉變。無論是自然語言的生成還是對其的本身領悟,都較為複雜,研究的過程還需要很長一段時間,針對當前的科學技術發展狀態而言,還需應當著重處理高質量的自然語言處理程序,在社會中,已經有多種系統正在服務於社會發展,例如:多種類型的資料庫、專家系統的自然語言接口、語言的自動翻譯設備以及信息檢索程序 [1]。

最大熵方法的歷史發展

最大熵方法本質上就是在遵守相應的最大熵原理建模,需要選用一個可以滿足在限制模型中最大熵值,此基本原理是因為在局部信息數據在被推算的過程中,需要滿足已知的多種條件,並從中感受到最大熵值的概率估算和建模過程是一個不包括偏見的研究結果。此類結果可以滿足全部既定事實,可以不進行對未知結果推算和前提性研究。利用最大熵方式進行建模時的主要優勢就是能夠將各種不特點選取一種框架進行刻畫,無需單獨性質的前提構建,但是此種探究也具備一定的劣勢,就是運算時內部的時間和空間構成較為困難,其中的數據量較為龐大,資源的消耗量也無法合理的控制。舉一個例子,在為「打」設立一個專屬的模型建設,此種模型會被注釋為P,其中的可能性詞彙就會存在多種概率,但是要想從中獲取更多注釋性詞彙就應當在此研究的過程中玄功既定的客觀事實作為依據,從而建立此類模型。在上述的例子中,可以分析出一個較為顯性的可能性詞彙,在「打」的使用過程中,它可能會存在量詞、動詞或者介詞三種含義的區分,從而就可以在輸入計算機系統的過程中設置第一個模型約束:P(量詞+動詞+介詞)=1

最大熵方法在自然語言處理中的適用區域

根據推算的理論過程而言,自然語言處理會根據詞性、句子以及章節採用三個不同種類的結構進行劃分,句子是整個語言信息傳遞過程中最常見的形式,也是能夠聯繫上下文語境的主要連接媒介。例如,在以詞性為主要的單詞劃分單元處理期間,需要檢索最優的句子標註,其中對語法的研究應當針對語句中的每一個單詞內所存在的修飾性聯繫。因為句子是一種主要的連接媒介,所以要想探究文章的承上啟下內容,就應當以它為主要的研究方向。利用最大熵方法就可以在內部模型的結構理論中,找尋有效的自然語言處理,從而實現對語言的加工。

英文短句 自然語言的句式中之前並不存在特殊含義的分隔符號,通常情況下語句中,句子的結尾符號都會表現其本身的句子含義情感,平淡的陳述為句號,疑問的語句為問號,驚訝或者有需要表明態度的符號為感嘆號,在正常的使用過程中均可以為語句結束的符號,但是在計算機系統的編制過程中卻有明顯的差距。在計算機英文輸入的過程中,所出現的「.」有可能存在於多種語句中,並且符號代表的含義會發生變化,例如:「Mr.Shreen is a good guy.」,其中會有多次「.」的出現,但是並不會代表語句的結束,與此同時,在後面還有可能會存在多種符號,比如:「Her said,「Mr.Shreen is a good guy.」」,中「.」後面還會使用引號。在網際網路的使用過程中,經常會因為書寫的問題導致句子的理解存在誤差。英語斷句的模型輸出方式存在兩種,分別為「是」和「否」,英文斷句的應用工具對象為普遍書寫的新聞語料,所以就會僅僅只是考驗句號、問號以及感嘆號,三種符號,語句中一旦出現空格或者轉換符號,就會形成候選串。最大熵使用選取六種屬性,第一,在前綴的使用中,候選串的語句結尾之前的詞符串通常會以後邊的結尾符號為主要的思考依據。第二,在後綴中,候選串在句子結尾之後的詞符串中,往往會以右邊的結束符號為主。第三,前綴以及後綴可以縮寫在專屬的列表之內,具備二值的作用,可以在訓練語表中使用。第四,左詞和右詞以候選串為主要的衡量標準,為其左側詞彙和右側詞彙。第五,左詞以及右詞專屬於列表內,具備二值特點,存在於訓練語表中。第六,候選串存有的數字,在0-9中的一個字符中。

英文詞性標註

英文詞性中的標準器會有45個詞彙,根據最大熵方法的理論研究,其中的英文詞性解注選用十八種特點,總的概括分類,可以將其分為以下幾個方面。第一,五個單詞,視為前一個詞彙的前後第一和第二單詞的本身含義。第二,兩個單詞的性質含義標註,即為前一個和前兩個單詞詞性的解釋。第三,前一個詞彙的三種拼寫特點,首字母的大寫問題、是否存在數字、轉接符號的問題。第四和第五分別為前一個單詞的四個前綴特點以及四個後綴特點。可以採用專用的WSJ02-21以及WSJ00-02試驗,系統會採用十七個專屬的模板,設定頻數閾值為10,並選擇64864個特點,藉助beam檢索的方式,當其大小值控制在5範圍內,需要控制其準確值為96.5%。

基本短語識別

在對自然語言的研究過程中,名詞短語的機械式譯文、文本的搜索、信息的提取以及文章屬性的分類都有著關鍵性的作用,第一,短語具備更加明顯的內容,增加情感結構,可以不再採用單一式的短語構成分詞做以展示,比如在英語的使用中,會有動詞以及介詞的使用,並在此基礎之上構建短語。第二,大量的專有性單詞本質上就是一種短語,比如:自然語言採集,最惠國待遇等,此類專有性單詞會在專業術語較強的文章中頻繁出現。第三,在中文的詞彙內容構成中,單詞的本身具備多種含義,並且詞彙和短語的使用規律加為明顯,所以在使用大型的文本處理過程中需要採用短語的形式介紹文章,並非使用詞彙,從而更能強調文章本身的含義和情感色彩。

中文基本短語識別

在中文的識別中,因為詞彙本身構成詞性較多,所以在研究的過程中較為複雜,經常會由形容詞、副詞、介詞、名詞、數量詞、動詞和的詞短語等詞彙構成,是在中文使用中的最基礎詞性用法。在研究十二種屬性時,應該對前一個詞彙的左兩個單詞進行註解,並了解單詞本身的含義。在運用最大熵值進行系統的編程過程中,需要考慮24種專屬模塊,其中應當僅僅採用較為簡單的特點。內部的20個模塊應當使用KOEKING 2000中的所有模塊,在分析的階段中也可以增加多種四個模板類型,比如:Wopo、W-1P-1、P-1T-1、W1P1,在使用第一種模板時,需要充分探索前一個詞彙的內在含義以及本身的詞性問題。在運用LDC開放式的中文資料庫時,經常將其視為主要的訓練和實用語料 [3] 。

英文基本短語識別

英文基本短語的識別設備會總共分析十一種基礎性的短語,其中分為形容詞、副詞、連詞、嘆詞以及名詞等多種形式的短語。最大熵方式可以是英文的基本短語構造在專屬設備的運行狀態下,採同和中文短語識別設備相同的分析方式,並將其分為十二個專有的屬性,可以為左側第一個詞彙的前後第一、第二個詞性註解,仔細研究單詞的專屬詞彙,並對前兩個專有的詞性進行標註,和中文的短語分析設備運行方式基本存在相同之處,能夠將其分為二十四種特點模板,並進行有針對性的分析。程序的運行會採用WSJ15-18訓練,在測試時會使用WSJ20,藉助SGC運算方式採集信息合同中的6000個特點,獲取最佳的準確程度,並將召回率調節為92.37%以及92.55%,通過最大熵值的方式的KOELING 2000的運行系統性價比較高。

結論

在本文的闡述中分析了自然語言處理以及最大熵值方法,研究其兩者的應用範圍,並詳細的闡述在現代化設備文本智能化自然語言處理系統中對多種語言的處理。

相關焦點

  • 自然語言處理的經驗主義和理性主義
    IBM公司的傑裡內克(Fred Jelinek)是一位使用統計方法研究語音識別與合成的著名學者,他在統計自然語言處理研究中取得的成績是人所共知的,可是他卻看不起使用規則方法研究自然語言處理的人。21世紀以來,使用神經網絡和深度學習方法自動提取語言特徵使用概率或隨機的方法來研究語言,建立語言的概率模型符號主義方法,以「物理符號系統假設」為基本依據,主張人類的智能行為可以使用物理符號系統來模擬隱馬爾可夫模型、最大熵模型、n元語法、概率上下文無關語法、噪聲信道理論、貝葉斯方法、最小編輯距離算法
  • 蘇州大學張民教授兩小時講座精華摘錄:自然語言處理方法與應用
    在這場長達兩個小時的講座上,張民教授圍繞 AI、自然語言及 NLP,還有相應的方法、應用及展望,向與會觀眾分享了自然語言處理的相應研究。雷鋒網(公眾號:雷鋒網) AI 科技評論整理了張民教授的講座概要及部分精華內容,以饗讀者。
  • 科普自然語言處理
    >自然語言處理是計算機科學領域與人工智慧領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯繫,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通信的計算機系統,特別是其中的軟體系統。因而它是計算機科學的一部分。
  • 自然語言處理深度學習的7個應用
    原文:7 Applications of Deep Learning for Natural Language Processing作者:Jason Brownlee翻譯:無阻我飛揚摘要:在這篇文章中,作者詳細介紹了自然語言處理深度學習的7種應用,以下是譯文。自然語言處理領域正在從統計方法轉變為神經網絡方法。
  • 信息熵是什麼,為啥漢語被稱為信息熵最大的語言?最普及的英語呢
    中國的歷史是世界上不可否認的最豐富的一種文化,而且關於對歷史的研究,中國敢說是最強的。在1949年外國學者發表了一篇論文,讓人們進入了一個信息化的時代,所有發生的事件都可以用信息的單位來度量,很多人就提出,語言作為人與人進行溝通的必須手段,裡面的信息量應該很大吧,到底有多少?經過各學者多年的探究和各種語言的統計,得出一個結果,漢語是世界上信息熵最大的語言。那麼這個信息熵是什麼呢?
  • 復旦大學黃萱菁:自然語言處理中的表示學習
    復旦大學黃萱菁帶來報告《自然語言處理中的表示學習》。黃萱菁,復旦大學計算機科學技術學院教授、博士生導師。1998年於復旦大學獲計算機理學博士學位,研究領域為人工智慧、自然語言處理、信息檢索和社會媒體分析。兼任中國中文信息學會常務理事,社會媒體專委會副主任,中國計算機學會中文信息技術專委會副主任。
  • 用飛槳做自然語言處理:神經網絡語言模型應用實例
    允中 發自 凹非寺 量子位 報導 | 公眾號 QbitAI 編者按: 語言模型的身影遍布在NLP研究中的各個角落,想要了解NLP領域,就不能不知道語言模型。
  • 對話UT Austin大學教授:未來5年自然語言處理最大的挑戰在哪裡?
    Mooney帶領他的人工智慧小組研究了多個領域,目前他的主要研究方向是自然語言處理和計算語言學。 香儂科技: 您有一些論文是關於將邏輯方法和分布語義相結合的(e.g.,Beltagy et al. 2016),這種綜合方法顯然有很多優點。
  • 閒談深度學習在自然語言處理領域的5大關鍵優勢
    在自然語言處理領域,深度學習將給予最大的幫助,深度學習方法主要依靠一下這五個關鍵優勢,閱讀本文將進一步了解自然語言處理的重要深度學習方法和應用。 在自然語言處理領域,深度學習的承諾是:給新模型帶來更好的性能,這些新模型可能需要更多數據,但不再需要那麼多的語言學專業知識。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    並著重介紹了大數據和自然語言處理的發展,對自然語言處理在大數據中扮演的角色作了探討。自然語言處理知識表示自動推理機器學習NLP、人工智慧、機器學習、深度學習和神經網絡之間的區別人工智慧:建立能智能化處理事物的系統。自然語言處理:建立能夠理解語言的系統,人工智慧的一個分支。機器學習:建立能從經驗中進行學習的系統,也是人工智慧的一個分支。神經網絡:生物學啟發出的人工神經元網絡。
  • 自然語言處理的最佳實踐
    雷鋒網 AI 開發者按,近年來,自然語言處理(NLP)在質量和可用性方面快速增長,這有助於推動人工智慧解決方案的實際落地。在過去的幾年裡,研究人員一直在將新的深度學習方法應用於 NLP。數據科學家開始從傳統的方法轉向最先進的(SOTA)深度神經網絡(DNN)算法,這種算法使用的語言模型經過了大文本語料庫的預訓練。
  • 科普丨什麼是NLP(自然語言處理)
    自然語言處理(NLP)是一種專業分析人類語言的人工智慧。Siri的工作過程就是自然語言處理在實踐中應用的一個鮮活案例。NLP正在成為我們生活中不可或缺的一部分,其與機器學習、深度學習一起達成的高度遠遠優於幾年前取得的成就。在本文中我們將深入了解NLP是如何應用、如何工作的。NLP可以做些什麼?
  • 用於自然語言處理的4個業務應用
    至頂網CIO與應用頻道 12月18日 編譯:你可能還沒有意識到,自然語言處理(NLP)對於企業來說已經不僅僅是一種新興的技術,它還是一種每天都在廣泛使用的技術。在線搜索、拼寫檢查——機會所有涉及語言的功能都包含自然語言處理算法。自然語言處理算法會教導計算機像人一樣使用語言。如果你從一組文檔中手動搜索信息的話,你可以查看關鍵字,就像是搜尋引擎一樣。
  • 自然語言處理(NLP)中的深度學習發展史和待解難題
    王小新 編譯自 sigmoidal量子位 出品 | 公眾號 QbitAI自然語言處理(NLP)是指機器理解並解釋人類寫作與說話方式的能力。近年來,深度學習技術在自然語言處理方面的研究和應用也取得了顯著的成果。技術博客Sigmoidal最近發布了一篇文章,作者是機器學習工程師Rafal。
  • 2018機器學習最大進展:炒作和恐懼情緒回歸理性 自然語言處理奪得...
    2018機器學習最大進展:炒作和恐懼情緒回歸理性 自然語言處理奪得大滿貫  olivia chan • 2019-01-16 11:36:11 來源:前瞻網 E1306G0
  • 第二語言習得的研究方法
    首先, 對國內四個漢語期刊的文章進行分類統計, 統計結果表明, 在有關語言學習和語言教學的文章中採用實證方法做研究的文章所佔比例非常小。然後, 介紹和討論第二語言習得研究中常見的定量方法和定性方法, 包括實驗研究、相關研究、調查研究、個案研究和觀察研究。
  • 中國的自然語言處理領域的人工智慧公司
    原來,它應用了最新的人工智慧自然語言處理技術。什麼是自然語言處理?自然語言處理的英文是Natural Language Processing,一般被簡寫為NLP,它實際上包括了三個方面:語音識別、自然語言理解與語音合成(有一些人把語音識別作為自然語言處理之外的技術,在本文中,我們將語音識別也包含在自然語言處理的技術範疇之內)。
  • 用飛槳做自然語言處理:神經網絡語言模型應用實例 - 量子位
    允中 發自 凹非寺量子位 報導 | 公眾號 QbitAI編者按:語言模型的身影遍布在NLP研究中的各個角落,想要了解NLP領域,就不能不知道語言模型。想要讓模型能落地奔跑,就需藉助深度學習框架之力,Tensorflow、PyTorch自然是主流,但在Dropout都成獨家專利之後,不儲備「B計劃」,多少讓人有些擔驚受怕這裡有一份飛槳(PaddlePaddle)語言模型應用實例,從基礎概念到代碼實現,娓娓道來,一一說明。現在,量子位分享轉載如下,宜學習,宜收藏。
  • 一文讀懂Smartbi的自然語言處理(NLP)技術
    從應用角度看,NLP具有廣泛的應用場景,例如:機器翻譯、信息檢索、信息抽取與過濾、文本分類與聚類、輿情分析和觀點挖掘等等。它涉及與語言處理相關的數據挖掘、機器學習、知識獲取、知識工程、人工智慧研究和與語言計算相關的語言學研究等。 NLP的興起與機器翻譯這一具體任務有著密切聯繫。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念,再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文,希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。本文第一部分介紹了自然語言處理的基本概念,作者將 NLP 分為自然語言理解和自然語言生成,並解釋了 NLP 過程的各個層級和應用,這一篇論文很適合讀者系統的了解 NLP 的基本概念。