漢語語音相似性編碼的研究

2021-01-12 雷鋒網

雷鋒網AI科技評論按:在單詞和短語之間進行語音區分,如區分「I'm hear」和「I'm here」或區分「I can't so but tons」和「I can't sew buttons」,這樣的事情每個人都遇到,尤其是遇到自動更正的簡訊、社交媒體上的帖子之類的時候。儘管乍看之下,語音相似性似乎只能對可聽單詞進行量化,但這個問題常常出現在純文本空間中。

如何對語音相似的漢語拼音進行研究呢?IBM 研究院的研究人員們發展了一種學習漢語 n 維語音編碼的方法,並可以推廣到許多其他不容易適應英語語音模式的語言中。雷鋒網(公眾號:雷鋒網) AI 科技評論編譯。

語音相似詞對

用 AI 的方法分析和理解文本需要乾淨的輸入數據,而這又意味著需要花費相當的精力對原始數據做預處理。不正確的同音詞和同義詞,無論是無意拼錯還是在玩笑中使用,都必須像其他形式的拼寫或語法錯誤一樣進行糾正。在上面的例子中準確地將「here」和「so」這兩個單詞轉換為和它們語音上相似的正確對應的單詞需要一種單詞對之間語音相似性的魯棒的表示。

大多數語音相似性算法是由英語的使用場景驅動的,並設計用於印歐語系。然而,許多語言,如漢語,有不同的語音結構。漢語的官方羅馬化系統拼音,用單音節來表示漢字的語音。拼音音節包括:(可選的)聲母(如 「b」、「zh」、「x」)、韻母(如「a」、「ou」、「wai」或「yuan」)和音調(有五個)。將這些語音映射到英語音素會導致相當不準確的表達,並且使用印歐語音相似性算法進一步加劇了這一問題。例如,兩個著名的算法,Soundex 和 Double Metaphone,會在忽略元音的同時索引輔音(並且沒有音調的概念)。

拼音

由於一個拼音音節平均代表七個不同的漢字,所以同音字在數量上甚至大於英語。同時,無論是在使用語音到文本時還是在直接鍵入時,拼音用於文本創建在移動和聊天應用程式中非常普遍,因為輸入拼音音節並選擇預期的字符更為實用。因此,基於語音的輸入錯誤非常常見,凸顯了用非常精確的語音相似性算法來糾正錯誤的需求。

 

可視化表示拼音縮寫的語音編碼

受這個使用場景的啟發,IBM 研究院的研究人員們發展了一種學習漢語 n 維語音編碼的方法,這個使用場景還可以推廣到許多其他不容易適應英語語音模式的語言。拼音的一大特點是韻母、聲母和聲調三個因素應獨立考慮和比較。例如,拼音對 {「xie2」、「Xue2」} 和 {「lie2」、「lue2」} 中即便聲母不同,韻母「ie」和「ue」以及聲調仍然可以是相同的。因此,一對拼音音節的相似性是聲母、韻母和聲調之間相似性的集合。

然而,人為地將編碼空間限制到低維 (例如,把每種聲母各自劃分為不同的類別,或者用不同的數值表示) 限制了捕獲語音變化的準確性。因此,正確的、數據驅動的方法是慢慢地學習適當維度的編碼。該學習模型通過聯合考慮拼音語言特徵,如發音地點和發音方法,以及高質量的帶注釋的訓練數據集,來獲得準確的編碼。

對現有語音相似性方法的 7.5 倍改進

因此,學習到的編碼可以用於,例如,接受單詞作為輸入,並返回語音相似單詞的排序列表 (語音相似性依次降低)。排名很重要,因為下遊應用程式不會擴展到考慮每個單詞的大量替代候選,尤其是在實時運行時。作為一個真實世界的例子,IBM 研究院評估了為來自社交媒體數據集的 350 個中文單詞中的每個單詞生成候選排序列表的方法,並且展示了比現有語音相似性方法的 7.5 倍的改進。

IBM 研究院希望這項工作對於代表語言特定的語音相似性所產生的改進,有助於許多多語言自然語言處理應用的質量。這項工作是 IBM 研究系統項目的一部分,最近在計算自然語言學習的 2018 屆 SIMLL 會議上發表,預訓練的中文模型可供研究人員在聊天室、消息應用程式、拼寫檢查程序和其他任何方面的應用程式上使用。

雷鋒網 AI 科技評論編譯。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 2020年漢語方言研究的新進展與新走向
    2020年,漢語方言學在方言事實的調查描寫與分析、方言文化研究等方面取得了明顯的進展,視野更加開闊,理論方法的運用和探索更加自覺,研究的廣度和深度都得到了提升。其中方言語音和語法研究成果最多。漢語方言學發展的新趨勢日益彰顯,為今後的研究提供了思路。
  • 討論題:古漢語、漢語古音、古埃及語與發現夏朝
    孤立的沒有聯繫的象形文字比較意義是不大的,但有關係的多個象形文字比較的相似性則構成邏輯,這種邏輯驗證關係越多,象形文字相似性比較屬於巧合的概率越是無限趨近於0。正如陳一舟在《發現夏朝》序中所說。這種方法是經得起檢驗的。       王國維證明商朝為信史的二重證據也是無需語音證據的,且證據和邏輯驗證關係相對很簡單,而《發現夏朝》給出的文字和邏輯關係驗證非常豐富。
  • 2011年現代漢語考研語音習題及解析
    【答案】音素是從音質角度劃分出來的最小語音單位。  音位是從語音的社會屬性角度劃分出來的最小語音單位,是具體語言中具有區別詞形作用的最小語音單位。  音位和音素都是最小的語音單位,但二者不是一回事,它們既不相同,但又有聯繫。
  • 20 世紀漢語聲調演變研究綜述
    近代語音以《中原音韻》為代表。《中原音韻》的聲調與中古音比較,其不同或曰演變即:平分陰陽,濁上作去,入派三聲。此謂聲調演變的鐵律,廣泛認同。學術界關注的焦點在於演變的時間。關於平分陰陽的時間。語音變化是有過程的,元代的記錄只表明此為事實,並不代表濁上變去發生於或完成於元代。對此,學者各有看法。李新魁認為濁上作去於漢唐時已開始(《漢語等韻學》,41 頁),又說全濁上「在唐時已變入去聲」(《古音概說》,99 頁)。史存直認為濁上變去「至遲在盛唐時」已發生(《漢語語音史綱要》,50 頁)。羅常培說「自唐時既已發生」(《漢語音韻學導論》,82 頁)。
  • 讀《漢語史稿》|漢語的近親有哪些?
    漢語在幾千年的歷史上也形成了不同的分支,這就是漢語的方言。一般將漢語的方言分為七大方言,即北方方言、吳方言、湘方言、贛方言、客家方言、閩方言、粵方言。。然而這七大方言,除了語音有區別,在詞彙和語法方面差別不大。當然也有學者認為,中國不同方言間已經無法正常交流了,因此應該算作不同語言。
  • 滄海與一粟的相遇:科學家發現人腦與宇宙存在結構相似性
    在這項大膽的先導研究中,一位天體物理學家和一位神經外科醫生通過定量分析,比較了自然界中兩個最複雜的系統:人腦中的神經元網絡和宇宙中的星系宇宙網絡。而他們也確實因自己的發現而吃驚,宇宙可能與人類大腦——這個大小僅是其十億億分之一的物體——具有自相似性。一種神秘的結構相似性竟然穿越了27個數量級,使二者在滄海一粟的無限落差中相遇。
  • 研究揭示自我和他人位置編碼的神經機制
    研究揭示自我和他人位置編碼的神經機制 作者:小柯機器人 發布時間:2020/12/25 15:17:48 2020年12月23日,《自然》雜誌在線發表了美國加州大學洛杉磯分校Nanthia Suthana、Matthias Stangl
  • 上海師範大學673現代漢語
    本博士點設有七個研究方向:現代漢語語法、對外漢語語法、漢語史、方言學、歷史比較語言學、計算語言學、近代漢語,分別由張誼生教授、潘悟雲教授、袁賓教授三位擔任導師。碩士生導師除上述三位博導外,還有劉民鋼教授、陳五雲教授、劉澤民教授、宗守雲教授。該學科點依託語言研究所,設有語言學資料室、語音實驗室和應用語言學實驗室,並建有「東方語言學網站」。
  • 詞彙類型學拓展詞彙研究視角
    詞彙類型學是詞彙學的跨語言和類型學分支,其研究目標是揭示不同語言詞彙系統在語義層面的共性與個性。目前語音、形態和句法領域的類型學研究已取得較多進展,詞彙領域的類型學研究卻發展緩慢。  定名學關注不同語言中哪些意義可以編碼為獨立的詞彙形式,對特定概念域的語義切分是自由變異,還是存在限制等問題。比如瑞典語言學家?魡.
  • Enhanced-RCNN: 一種高效的比較句子相似性的方法|WWW 2020
    始於1994年的WWW會議,主要討論有關Web的發展,其相關技術的標準化以及這些技術對社會和文化的影響,每年有大批的學者、研究人員、技術專家、政策制定者等參與。以下是螞蟻金服的技術專家對入選論文《Enhanced-RCNN: 一種高效的比較句子相似性的方法》做出的深度解讀。
  • 2020年寧夏教師招聘考試——現代漢語之語音專項習題(二)
    【導讀】華圖寧夏教師招聘考試網同步未知發布:2020年寧夏教師招聘考試——現代漢語之語音專項習題(二),詳細信息請閱讀下文!如有疑問請加【2019寧夏教師招聘考試交流群匯總】 ,更多資訊請關注寧夏教師微信公眾號(ningxiajsht),寧夏教師招聘考試培訓諮詢電話:0951-6028571/6027571 18295188220,微信號:ht18295188220   現代漢語之語音專項習題(二)   1.
  • 公務員行測:相似性最大原則
    為了避免考生出現上訴的問題,華圖公務員考試研究中心給大家一些專業的指導意見,希望對大家能有所幫助。 類比推理起源於我國傳統的對對聯,講究對仗工整。近幾年,類比推理在公務員筆試中出題的範圍越來越廣泛,如出現了一些考察構詞、發音、常識等類型的題目。難度也相應的增大。這些題目的出現,一方面豐富了公務員考試的內容,另一方面,也增加了公務員考試的難度。如例1。
  • 漢語3000年:從油印稿遺珍張世祿《漢語史講義》整理出版說起
    在廣泛徵集其遺稿的過程中,意外從張先生教過的學生手中,發現了他上世紀50-60年代漢語史教材4種油印稿,計100多萬字。筆者從中整理出70萬字的漢語史講義。近日,這一成果——張世祿《漢語史講義》(上下冊)由東方出版中心出版,這是繼王力先生《漢語史稿》出版後,我國語言史研究的標誌性創穫。作為張世祿先生指導的最後一名博士生,我為《漢語史講義》拂去歷史塵灰,以嶄新的面貌問世而激動不已。
  • 王力:漫談古漢語的語音、語法和詞彙
    我今天講的題目是「漫談古漢語的語音、語法和詞彙」。所謂「漫談」,就是隨便談一談。我們學習和研究古漢語的目的,主要是為了培養學生閱讀古書的能力,並不是為了教大家寫文言文。那麼,怎樣培養閱讀古書的能力呢?我經常說,要建立歷史觀點。什麼叫歷史觀點呢?就是利用歷史發展的觀點研究古漢語的語音、語法和詞彙。
  • 申小龍:漢語3000年
    近日,這一成果——張世祿《漢語史講義》(上下冊)由東方出版中心出版,這是繼王力先生《漢語史稿》出版後,我國語言史研究的標誌性創穫。作為張世祿先生指導的最後一名博士生,我為《漢語史講義》拂去歷史塵灰,以嶄新的面貌問世而激動不已。張世祿《漢語史講義》的一個基本特色是現代性,在理論上更傾向於把語言作為一個關係系統來觀察和分析。
  • Yann LeCun新作:473種模型大對比,中日韓文本分類到底要用哪種編碼?
    但是由於不同語言之間差別很大(例如像漢語、韓語、日語這樣的CJK語言與英語這樣的字母語言在處理上有很大不同)。例如最近有人使用字符級編碼的神經網絡(ConvNets)來處理語言中的單詞分割問題,但是很不幸的是,用字符來處理CJK語言並不很好,因為這時候字符的數量會變得非常巨大。所以能否找到一種在處理所有這些自然語言上都表現優良的模型呢?
  • 好書推介 | 《漢語史新視閾》導讀(二)
    江永審音,以等韻眼光考察古音,是基於中古音系統的學問,並不完全適用於漢語上古音研究。       段玉裁「古韻十七部」,不僅是他考古的結果,也是審音的功績。「六書諧聲」,著眼於音轉音變,突破了等韻局限,雖然韻部框架仍有不合理之處,但它確實是段氏審音的結果。
  • 對外漢語教學法 - 智慧樹知到答案題庫
    、「i+1」理論3、以下說法不正確的是 A、語言學原理中機械語言學家認為各種語言都擁有同樣的語法 B、功能法教學流派以交際功能為綱,強調語言的社會性 C、巴普洛夫提出了「教育適應自然」的觀點 D、漢語學習強調語言,文化可以後來補充,並不是學習語言的必備因素4、面對外國留學生,以下做法不正確的有 A、語音教學時可以利用吹蠟燭吹紙片的方法幫他們感受送氣不送氣的區別 B
  • 漢語背後的傷痛
    滿語的先天殘疾摧毀了漢語,首先,入聲字一下子就全丟了,這就是漢語同音字增多最根本的歷史原因,用滿語套學漢語的發音更是不倫不類,可以肯定地說,這是發音最糟糕的漢語。 歷史就是這麼殘酷,滿人的這種蹩腳漢語比起日本人的蹩腳漢語要幸運得多了,隨著使用人口的增加,這種讓當時的漢人老百姓笑掉牙的蹩腳發音漸漸成了滿清官方的通用官話。
  • 研究發現聲調與音位/韻律感知的腦網絡 具有與其特徵相關的相似性...
    聲調是漢語的重要特徵。在聲調語言中,聲調與音位一樣起到區分意義的作用。聲調具有獨特的語言學地位,而且其感知機制也非常值得研究。首先,聲調是造成漢語感知和西語感知的腦網絡差異的重要原因,了解聲調感知的腦機制能幫助醫生在外科手術中更有針對性地保護言語感知的區域;再者,目前人工耳蝸較少考慮到聲調等低頻韻律在漢語表達中的作用,研究聲調的感知機制有利於研發出更適合於漢語交流的助聽設備;另外,聲調是非聲調母語者學習漢語常遇到的瓶頸,掌握聲調感知的規律能促進對外漢語教學的設計和實踐。