CSSML(中文語音合成標記語言)的發展與應用

2020-11-28 CTI論壇

CSSML(中文語音合成標記語言)的發展與應用

2003/12/17

  近年來,隨著中文語音技術的迅速發展和應用的逐步深入,語音產業的廣闊市場及其所凸現的強大的產業帶動效應已經初步顯示出來。為促進中文語音產業的蓬勃發展,國家863專家組、國家信標委和技術監督局聯合決定由科大訊飛作為唯一的企業代表牽頭制訂中文語音技術接口標準與規範。2003年10月15日,由國家信息產業部主辦、安徽中科大訊飛信息科技有限公司承辦的"語音標準研討會"在合肥順利召開。來自國家信標委、863專家組、相關科研院校的語音技術專家、學者和語音技術的關鍵應用廠商共40餘人參加了此次會議。會上確定了由科大訊飛牽頭制定語音標準。

  CSSML(Chinese Speech Synthesis Markup Language),即中文語音合成標記語言,正是在上述背景下由科大訊飛起草,經歷數次中文語音技術標準研討會討論後形成的。

  CSSML標記語言針對中文合成領域內的特殊要求,對W3C定義的SSML規範中的標記進行擴展,並與SSML完全兼容。SSML(語音合成標記語言)是由W3C制定並在VoiceXML中使用,作為電話語音流程中語音合成控制的標準。SSML的基本任務就是在不同的應用平臺上為合成文本提供一個標準的控制語音輸出的方法,例如發音、音量、音調、語速等參數。而VoiceXML作為人與電話應用交互的流程描述語言,在當今的語音門戶、統一消息平臺等以語音驅動的應用中正發揮著越來越重要的作用。

  CSSML在交互式語音應用中前景廣闊。通常,語音合成(Text-To-Speech)系統會根據當前的語流環境確定文本的具體合成方式,例如,數字按數值發音還是按數字串發音、人名地名的識別、分句、英文按單詞發音或者按字母發音等等。

  隨著語音技術的迅速進步,目前這種自動處理在一般的語料中已經可以達到很好的效果,但用戶可能使用到一些專業性較強的、不符合常規的文本,特定文本集合的發音本身固有的不確定性往往是現有語音合成系統需要面對的一個難題,合成系統在處理這些文本時可能會出現一些錯誤,而使用加詞、特殊規則等手段難以解決,這時用戶可以通過CSSML標記文本來指定文本的合成方式,靈活解決一些語音合成系統難以自動處理的問題。再如,隨著信息服務的不斷豐富與深入,運營服務商常常需要面臨在同一語音平臺上需要提供不同的應用的情況。通過CSSML可以為同一平臺上的不同應用指定相應的合成風格與方式,從而滿足不同客戶的個性化要求。

  CSSML中使用基礎元素指定文本的格式。例如CSSML語言提供了一個段落元素、句子元素和詞語元素。通過像指定段落一樣指定句子、詞語的地址,包括起始地址和終止地址,根據制定的格式,語音合成系統就能更準確的生成語音。

  CSSML語言提供的Break元素,可以讓用戶調整詞語間停頓的時長,以逼近最真實的發音風格。用戶也可以通過文本替換"sub"元素,將合成文本中的特定文字替換為指定的文字,這在面向一些縮寫詞或者特殊用語的語音合成中非常實用。

  CSSML還提供指定某個預定的詞語或者詞語集合發音的標記。這個功能由"say-as"元素來實現。它是SSML中一個非常有用的組件。它能讓你指定一個模板,這個模板描述如何發音某個單詞或者單詞集合。通過"say-as",我們可以為縮寫的單詞指定如何發音,也可以為拼寫與發音不同的單詞指定發音。我們還可以列出數字和日期之間的區別。"say-as"元素包含了對email地址、貨幣和電話號碼等的支持。

  CSSML語言高級特性之一還體現在它的"prosody"元素上。通過它我們可以以某種指定地方式生成某個確定的文本集合的語音。我們可以指定聲音的語調、範圍、語速(單詞每分鐘)。通過指定一個文本集合的"prosody"元素值,我們可以更精確的定義如何生成語音。

  隨著中文語音技術的迅速發展以及市場應用的不斷深入,其前景日益受到來自社會各方面的重視,國家相關管理部門為了規範中文語音合成的良性發展而委託科大訊飛制定的CSSML,必然在今後的中文語音合成領域中發揮著至為重要的規範作用。作為中文語音技術與市場領導者的科大訊飛公司,從其InterPhonic CE 2.1產品開始已全面支持CSSML。為了便於用戶實際應用,在InterPhonic CE 2.2產品中,科大訊飛提供了CSSML Editor-一個可視化的CSSML編輯工具,幫助用戶直觀快速的生成、試聽和發布CSSML文本。

  我們有理由相信,隨著CSSML的發展和應用,將有助於中文語音合成技術邁向更加成熟和規範的明天。

科大訊飛公司供稿 CTI論壇編輯


相關連結:

相關焦點

  • MRCP協議學習筆記-語音合成標記語言(SSML)-2
    在前一個章節中,筆者介紹了SSML標識語言的第一部分。現在我們將繼續介紹SSML標識語言的第二部分。此部分包括了讀音中的Prosody的語音語調設置參數(break,emphasis,讀音和控制參數 voume,speak rate, pitch),標記符和metadata。
  • 語音合成在語音助手中的應用及擴展
    語音合成作為人機互動中必不可少的一個環節,隨著計算機的運算和存儲能力的迅猛發展,語音合成技術由早期的基於規則的參數合成,到基於小樣本的拼接調整合成,並逐漸發展為現在比較流行的基於大語料庫的拼接合成。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    眾所周知,語音合成技術發展已有數年,至今合成的工業級應用並不成熟,在百度地圖這類國民級應用中實現定製化更屬首次。此次百度語音技術「一騎絕塵」,推出全球首個地圖語音定製產品,其背後的技術進步路徑也再次向業界顯露。
  • 科學網—語音及語言信息處理國家工程實驗室揭牌
    本報訊 9月27日,由國家發改委批覆成立的語音及語言信息處理國家工程實驗室揭牌儀式在中國科學技術大學舉行
  • 科學網—語音及語言信息處理國家工程實驗室在中科大成立
    語音及語言信息處理國家工程實驗室在中科大成立
  • 中文語音處理在數字助聽器的設計
    目前國外對助聽器研究發展的一個熱點則是集中在中國,確切地講是基於對漢語語言和語音研究,開發相關的語音識別技術和產品。為中心的中文聽力學也不例外。
  • 智能語音前沿技術——發音檢錯糾錯和語音轉換
    而中文發音是中文學習中的重大難題,發音評測的新技術能針對外國中文學習者的發音錯誤的特點,利用可靠的發音自動評測方法及時、準確地糾正發音錯誤,可以大大提高中文輔助語音教學系統的教學效果。 語音轉換 隨著語音信號處理技術(包括語音識別和語音合成)的發展,在人機互動中語音已成為最自然最方便交互方式之一。語音不僅可以傳遞信息,也可以傳遞情感、態度和說話人的個人特徵。
  • 基於Tacotron2實現中文語音合成,免去調試環節,輕鬆上手
    語音合成技術被廣泛應用於人機互動場景,如手機語音助手、地圖導航、智能音箱、文章聽讀等,返回的結果會以語音方式播報。語音合成翻譯成英文是Text-To- Speech,簡稱為TTS。語音合成相比語音識別的應用場景少一些,因工作中有接觸過語音合成並實現,也許有些朋友也需要用到它,特記錄在此,本文側重實現過程,對技術感興趣的朋友建議參考其他文獻,但對於技術新手和初次接觸並期待快速實現的朋友,不妨看看。
  • 語音合成方法概述與總結
    語音合成主要流程框架主要分為前端處理和後端處理:前端處理主要是根據先驗知識對文本進行語言及語法層面的分析。對於後端合成部分,主要是對波形拼接和參數合成。基於 HMM 的蒙古語語音合成方法基於 HMM 的蒙古語語音合成方法主要包括以下流程:前端處理、模型訓練和後端合成。前端處理部分主要是文本處理,輸入的文本經過特殊字符轉換、拉丁校正、字母轉音素、上 下文標註轉換為對應的語言特徵。
  • 靈雲語音合成:多種產品形態滿足各種應用場景需求
    近日,捷通華聲推出搭載最新引擎的靈雲語音合成技術,聲線細膩、情感豐富、語速真實。得益於核心引擎的深度學習化與高音質聲碼器,最新靈雲語音合成技術的合成效果得到全面提升。
  • 手機語音翻譯如何操作?中文語音翻譯成英文的簡單方法
    比如工作中遇到需要翻譯成英文的中文文本,或者是出國旅遊與老外進行交流。那麼如何利用手機完成中文在線語音翻譯成英文呢?今天小編將要分享給大家兩個方法,幫你解決語音翻譯難題。以小編的小愛同學為例,開啟【小愛同學】進入錄音頁面,說出【中文並加上翻譯兩字】,即可翻譯為英文。(如果你要翻譯其它語言,需要在說出中文後,再加上韓文翻譯、日文翻譯等字。)
  • FinTech時代商業銀行智能語音識別技術應用與發展
    近年來,雲計算、大數據、物聯網和人工智慧等FinTech技術快速發展,促進了語音識別準確度的迅速提升,為商業銀行引入智能化服務提供了重要的技術資源,語音識別技術將掀起商業銀行服務模式的變革,為智能化服務增加新的元素。本文從商業銀行實際出發,對該技術的發展進行梳理,並提出商業銀行語音識別「4I」應用框架,以期推動FinTech時代下銀行綜合智能化服務能力進一步提升。
  • [論文分享]用GAN從MFCC合成語音波形
    本次論文分享的是一篇2018年發表在IEEE上的用GAN從MFCC合成語音波形的論文。這篇文章提出了一種從濾波器組梅爾頻率倒譜係數(MFCC)生成語音的方法,該方法廣泛用於語音應用程式(例如ASR)中,但通常被認為無法用於語音合成。首先,我們使用自回歸遞歸神經網絡預測MFCC的基本頻率和聲音信息。
  • 一文看懂語音合成:真能跟Siri戀愛?模擬人類語言暗藏哪些商機
    在技術發展下,聲音的波動被計算機捕捉、計算、指引,最終發出聲音。這一項帶著前人夢想的技術,不再單單出現在電影和小說裡,也承載起了巨大的市場走進千家萬戶,這就是語音合成。Siri的熱潮同步開啟的,不僅僅是語音合成技術在硬體上的應用,也包括一系列更具想像力的交互場景,帶來了巨大的商機。2015年春節,本就搭載了語音導航的高德地圖與郭德綱合作,推出了高德地圖歡笑版。用戶打開高德地圖,不僅能夠聽到導航播報,還能聽到郭德綱的極具特色的段子。這一次嘗試,讓高德地圖一度躍至蘋果App Store榜單第2名。
  • 中國"果粉"能否用上最好的中文語音助理
    中文Siri與訊飛語點相比較,用戶最直觀的感受,就是中文Siri在中文語音合成效果和識別準確率方面較「訊飛語點」差距明顯。有用戶評價並開玩笑說:「中文Siri的聲音就像個老大媽,訊飛語點的聲音則很甜美,喜歡重口味的就用中文Siri。」同樣,識別率方面,有評測認為,Siri對中文普通話的識別率在70%左右,而訊飛語點達到90%以上。
  • 人工智慧難點之——自然語言處理(NLP)
    (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...
    來源:達摩院語音實驗室橫向比較業界現有的各項中文語音合成服務的效果後,鄢志傑博士認為,達摩院語音實驗室這次交出了一份滿意的答卷。近幾年,由深度學習推動的 End2End 技術發展迅速。語音合成 (TTS) 領域,谷歌的 Tacotron、DeepMind 的 WaveNet,還有百度的 ClariNet,研究人員不斷提出更好、更快的端到端語音合成模型。
  • 基於DL的中文語音識別系統ASRT開源
    2月11日消息,一套基於深度學習實現的語音識別系統ASRT(全稱Auto Speech Recognition Tool),由AI檸檬博主開發並在GitHub上開源(GPL 3.0 協議)。本項目聲學模型通過採用卷積神經網絡和連接性時序分類方法,使用大量中文語音數據集進行訓練,將聲音轉錄為中文拼音,並通過語言模型,將拼音序列轉換為中文文本。
  • 賞金奇兵3怎麼設置中文 設置中文語音的方法介紹
    賞金奇兵3怎麼設置中文 設置中文語音的方法介紹時間:2020-06-23 09:56   來源:未知   責任編輯:毛青青 川北在線核心提示:原標題:賞金奇兵3怎麼設置中文 設置中文語音的方法介紹 【賞金奇兵3怎麼設置中文 設置中文語音的方法介紹】《賞金奇兵3》遊戲中玩家能夠使用遊戲自帶的中文語音,可能會有玩家不清楚要怎麼設置遊戲語言
  • 語音識別是什麼 語音識別聲學特徵介紹【圖文】
    人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。  語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。