為什麼你的語音助手說話不像人?關於TTS技術原理及挑戰

2020-12-11 雷鋒網

每一位剛(wan)鐵(nian)直(dan)男(shen),都夢想下班路上偶遇電影《Her》中的機器人女友薩曼薩。雖然「只聞其聲不見其人」,但僅聽聲音就能感受到各種情感的詮釋。 

薩曼薩背後的真人配音來自斯嘉麗詹森。有人說,「光聽聲音就已滿足我對她全部的幻想。」

可以說,消除人與機器之間的隔閡,拉近之間的距離,聲音是至關重要的。

而在現實生活中,AI 語音助手說話還遠遠達不到我們理想的聲音。

為什麼你的機器人女友說話不像斯嘉麗詹森?今天,Rokid A-Lab 語音合成算法工程師鄭傑文將從語音合成技術談起,給大家分析其中原因。以下,Enjoy

TTS背後的技術原理——前端和後端系統

讓語音助手說話的技術叫 TTS(text-to-speech),也就是語音合成。

打造自然、真實、悅耳的 TTS,是 AI 領域的科學家和工程師一直努力的方向。但前進過程中總會碰到各種「攔路虎」,它們究竟是什麼? 我們先從 TTS 的基礎原理講起。

TTS 技術本質上解決的是「從文本轉化為語音的問題」,通過這種方式讓機器開口說話。

 

圖 1語音合成,一個從文本轉化為語音的問題

但這個過程並不容易,為了降低機器理解的難度,科學家們將這個轉化過程拆分成了兩個部分——前端系統和後端系統。

圖 2前端和後端一起組成的TTS

前端負責把輸入的文本轉化為一個中間結果,然後把這個中間結果送給後端,由後端生成聲音。

接下來,我們先來了解一下前端和後端系統是如何分工協作的?

生成「語言學規格書」的前端系統

小時候我們在認字之前需要先學習拼音,有了拼音,我們就可以用它去拼讀我們不認識的字。對於 TTS 來說,前端系統從文本轉化出的中間結果就好像是拼音。

不過,光有拼音還不行,因為我們要朗讀的不是一個字,而是一句一句的話。如果一個人說話的時候不能正確的使用抑揚頓挫的語調來控制自己說話的節奏,就會讓人聽著不舒服,甚至誤解說話人想要傳達的意思。所以前端還需要加上這種抑揚頓挫的信息來告訴後端怎么正確的「說話」。

我們將這種抑揚頓挫的信息稱之為韻律(Prosody)。韻律是一個非常綜合的信息,為了簡化問題,韻律又被分解成了如停頓,重讀等信息。停頓就是告訴後端在句子的朗讀中應該怎麼停,重讀就是在朗讀的時候應該著重強調那一部分。這些所有的信息綜合到一起,我們可以叫」語言學規格書」。

圖 3.前端通過生成「語言書規格書」來告訴後端我們想要合成什麼樣的內容。

前端就像一個語言學家,把給它的純文本做各種各樣的分析,然後給後端開出一份規格書,告訴後端應該合成什麼樣的聲音。

在實際的系統中,為了讓機器能正確的說話,這份兒「規格書」遠遠比我們這裡描述的要複雜。

扮演「發音人」的後端系統

當後端系統拿到「語言學規格書」後,目標是生成儘量符合這個規格書裡描述的聲音。

當然,機器是不能憑空直接生成一個聲音的。在這之前,我們還需要在錄音棚裡錄上幾個到幾十個小時不等的音頻數據(根據技術不同,使用的數據量會不同),然後用這些數據來做後端系統。

目前主流的後端系統有兩種方法:一種是基于波形拼接的方法,一種是基於參數生成的方法。

波形拼接的方法思路很簡單:那就是把事先錄製好的音頻存儲在電腦上,當我們要合成聲音的時候,我們就可以根據前端開出的「規格書」,來從這些音頻裡去尋找那些最適合規格書的音頻片段,然後把片段一個一個的拼接起來,最後就形成了最終的合成語音。

比如:我們想要合成「你真好看」這句話,我們就會從資料庫裡去尋找「你、真、好、看」這四個字的音頻片段,然後把這四個片段拼接起來。

圖表 4使用拼接法合成「你真好看」

當然,實際的拼接並沒有這麼簡單,首先要選擇拼接單元的粒度,選好粒度還需要設計拼接代價函數等。

參數生成法和波形拼接法的原理很不相同,使用參數生成法的系統直接使用數學的方法,先從音頻裡總結出音頻最明顯的特徵,然後使用學習算法來學習一個如何把前端語言學規格書映射到這些音頻特徵的轉換器。

一但我們有了這個從語言學規格書到音頻特徵的轉換器,在同樣合成「你真好看」這四個字的時候,我們先使用這個轉換器轉換出音頻特徵,然後用另一個組件,把這些音頻特徵還原成我們可以聽到的聲音。在專業領域裡,這個轉換器叫「聲學模型」,把聲音特徵轉化為聲音的組件叫「聲碼器」。

為什麼你的AI語音助手說話不像人?

如果簡單的給這個問題一個答案的話,主要有兩個方面的原因:

你的AI會犯錯。為了合成出聲音,AI需要做一連串的決定,一但這些決定出錯,就會導致最終合成出來的聲音有問題,有強烈的機械感,聽著不自然。TTS的前端系統和後端系統都有犯錯的可能。

使用AI合成聲音時,工程師對這個問題過度簡化,導致沒有準確的刻畫聲音生成的過程。這種簡化一方面是來自於我們人類自己對語言,和人類語音生成的認識還不足夠;另外一方面也來自於商用語音合成系統在運轉的時候要對成本控制進行考量。

下面我們具體來聊聊造成AI語音助手說話不自然的前端錯誤和後端錯誤問題。

前端錯誤

前端系統,做為一個語言學家,是整個TTS系統裡最複雜的部分。為了從純文本生成出最後的「語言學規格書」,這個語言學家做的事情要比我們想像的多得多。

 圖表 5典型的前端處理流程

一個典型的前端處理流程是:

文本結構分析

我們給系統輸入一個文本,系統要先判斷這個文本是什麼語言,只有知道是什麼語言才知道接下來如何處理。然後把文本劃分成一個一個的句子。這些句子再送給後面的模塊處理。

文本正則

在中文場景下,文本正則的目的是把那些不是漢字的標點或者數字轉化為漢字。

比如」這個操作666啊」,系統需要把「666」轉化為「六六六」。

文本轉音素

也就是把文本轉化為拼音,由於中文中多音字的存在,所以我們不能直接通過像查新華字典一樣的方法去找一個字的讀音,必須通過其他輔助信息和一些算法來正確的決策到底要怎麼讀。這些輔助信息就包括了分詞和每個詞的詞性。

韻律預測

用於決定讀一句話時的節奏,也就是抑揚頓挫。但是一般的簡化的系統都只是預測句子中的停頓信息。也就是一個字讀完後是否需要停頓,停頓多久的決策。

從上面四個步驟可以看出,任何步驟都是有可能出錯的,一但出錯,生成的語言學規格書就會錯,導致後端合成的聲音也會錯。一個TTS系統,典型的前端錯誤有以下幾種類型:

1、文本正則錯誤

由於我們的書寫形式和朗讀形式是不一樣的,所以在前端非常早期的階段,需要把書寫形式轉化為我們實際朗讀的形式。這個過程在專業領域裡叫「文本正則」。比如我們前面說到的「666」

要轉為「六六六」。我們非常容易感受到TTS系統中文本正則的錯誤。比如下面這句:

「我花了666塊住進了一個房號是666的房間。」(點擊聽音頻)

我們知道前面的「666」應該讀成「六百六十六」,後面的「666」應該要讀「六六六」。但是TTS系統卻很容易搞錯。

另外一個例子:「我覺得有2-4成的把握,這場比分是2-4。」

這兩個「2-4」到底應該是讀「二到四」,「兩到四」,還是「二比四」呢?你應該一眼就能知道到底怎麼樣讀才是正確的。但是,對於前端系統來說,這又是一個難題。

2、注音錯誤

中文是一門博大精深的語言,正確的朗讀它可並沒有好麼容易。其中一個比較棘手的問題就是,面對多音字時,到底應該選擇哪一個音來朗讀呢?

比如這兩句:「我的頭髮又長長了。」和「我的頭髮長長的。」這裡的「長」到底應該是讀二聲的「chang」還是讀四聲的「zhang」呢?

當然,人可以很輕鬆的挑選出正確的答案。那麼下面這一句呢:

人要是行,幹一行行一行,行行都行,要是不行,幹一行不行一行,行行不行。(點擊聽音頻)

可能你也要略加思索,才能讀對這中間的所有「行」。對於AI來說就更難了。

你可能時不時的就能聽到AI助手在朗讀多音字時讀錯了,這種錯誤很容易就被你的耳朵捕捉到,並讓你立刻有一個印象:「這絕對不是真人在說話~」。

當然,多音字錯誤只是注音錯誤中的一種,還有其他的一些錯誤,如輕聲,兒化音,音調變調等。總之,準確的讓你的AI助手朗讀所有的內容並不容易。

3、韻律錯誤

如前面所說,為了更準確的傳遞信息,人在說一句話的時候需要有節奏感。如果一個人在說話的時候中間不做任何的停頓,會讓我們很難理解他說的意思,甚至我們會覺得這個人不禮貌。我們的科學家,工程師,都在想方設法的讓TTS朗讀得更具備節奏感一些,更禮貌一些。但是在很多時候TTS的表現卻總是差強人意。

這是因為語言的變化太豐富了,根據不同的上下文,甚至不同的場合,我們的朗讀的韻律節奏都不太一樣。韻律中,最重要的就是討論一句話的停頓節奏,因為停頓是一句話朗讀正確的基礎,如果停頓不對,錯誤很容易被人耳朵抓住。

比如這句:」為你切換單曲循環模式」。如果我們用「|」來表示停頓,那麼一個正常的人朗讀的停頓節奏一般是這樣的:「為你切換|單曲循環模式」。

但是如果一但你的AI助手說「為你切|換單曲循環模式」這種奇怪的節奏感時,你內心可能是奔潰的。

後端錯誤

聊完前面這個「經常犯錯的語言學家」,我們再來看看後端:這個按照「語言學家」給的 「規格書」來讀稿子的「發音人」。

前面提到,後端主要有拼接法和參數法兩種方式。現在蘋果,亞馬遜的AI助手Siri和Alexa 使用的是波形拼接的方法。而在國內,大多數公司都是使用參數法。所以我們關鍵來看一下參數法可能的後端錯誤。

後端系統在拿到前端給的語言信息後,要做的第一件事情是,決定每個漢字到底要發音多長時間(甚至是每個聲母,韻母要發音多長時間)。這個決定發音長短的組件在專業領域裡叫「時長模型」。

有了這個時間信息後,後端系統就可以通過我們前面說的一個轉換器(也叫聲學模型)把這個語言學規格書轉化為音頻特徵了。然後再用另一個叫「聲碼器」的組件把這些音頻特徵還原成聲音。從時長模型到聲學模型,再到聲碼器,這裡面的每一步都可能犯錯或者不能完美的生成我們想要的結果。

一個 TTS 系統裡,典型的後端錯誤有以下幾種類型:

1、時長模型錯誤

在一句話朗讀的時候,根據上下文語境的不同,每個字朗讀發音時間是不一樣的。TTS系統必須根據上下文去決定到底哪些字應該讀音拖長一點,哪些字應該讀短一些,其中一個比較典型的例子就是語氣詞的朗讀。

通常這些語氣詞由於攜帶了說話人的語氣情感,它們的發音都會比普通的字要長一些,比如這句:「嗯。。。我想他是對的。」(點擊聽音頻)

這裡的「嗯」,在這個場景下,很明顯需要被拖長,用於表示一種「思考之後的判斷」。

但是並不是所有的「嗯」都要拖這麼長,比如這一句:「嗯?你剛才說什麼?」

這裡的「嗯」代表是一種疑問的語氣,發音就要比上面句子中的「嗯」要短得多。如果時長模型不能正確的決策出發音時長的話,就會給人一種不自然感覺。

2、聲學模型錯誤

最主要的聲學模型錯誤就是遇到在訓練後端這個「發音人」時,沒有見過的發音。聲學模型的作用是從訓練音庫裡,學習到各種「語言學規格書」所對應的語音聲學特徵。如果在合成的時候遇到了訓練過程中沒有見過的語言學表現,那麼機器就不太容易輸出正確的聲學特徵。

一個常見的例子是兒化音。原則上來說,每個漢語拼音都有對應的兒化音,但在實際說話中有些兒化音被使用到的頻次極低,因此錄製音庫的時候通常並不會覆蓋所有的兒化音,而是僅僅保留最常見的一些。這個時候就會出現一些兒化音發不出來,或者發不好的現象。 

3、聲碼器錯誤

聲碼器的種類比較多,但是比較傳統、比較常見的聲碼器通常都會用到基頻信息。那什麼是基頻呢?基頻就是你在說話的時候聲帶震動的快慢程度。這裡教你一個簡單的方法來感受自己說話的基頻:把自己的除大拇指以外的其他四個手指按壓到自己的喉嚨部分,然後自己開始對自己隨便說話。

這個時候你就會感受到你的喉嚨在震動,這個震動的信息就是我們的基頻信息。發濁音時會伴隨聲帶振動,聲帶不振動發出的音稱為清音。輔音有清有濁,而元音一般均為濁音。所以合成語音中元音和濁輔音的位置都應該對應有基頻,如果我們前面提到的聲學模型輸出的基頻出現偏差,聲碼器合成的聲音就會聽起來很奇怪。

在訓練後端這個「發音人」時,我們也要通過算法來計算出基頻信息。不好的基頻提取算法可能會造成基頻丟失、倍頻或者半頻的現象。這些都會直接影響基頻預測模型的效果。如果應該有基頻的地方沒有預測出基頻,合成聲音聽起來就是沙啞的,對聽感的影響十分明顯。

一個好的聲碼器還要處理好基頻和諧波的關係。如果高頻諧波過於明顯,在聽感上會造成嗡嗡的聲響,機械感明顯。

總結

在這篇文章裡,我們介紹了 TTS 的基礎原理,以及分析了語音助手不能像真人一樣說話的原因:TTS 在做各種決策中會犯錯,導致朗讀出錯或者不自然。同時,為了讓電腦可以合成聲音,工程師會對文本轉語音問題做簡化,導致沒有準確的刻畫聲音生成的過程。這種簡化一方面來自於對語音語言生成過程的認知局限,同時也受限制於目前的計算工具。

儘管現在在這個領域內有很多新的方法,特別是使用深度學習(Deep Learning)方法來直接做文本到語音的轉化,而且已經展示出來了非常自然的聲音,但是讓你的 AI 助手完全像人一樣說話仍然是一項非常具有挑戰性的工作。

雷鋒網(公眾號:雷鋒網)按:本文作者鄭傑文,愛丁堡大學人工智慧碩士,師從國際著名語音合成專家Simon King教授。 現任職Rokid ALab 語音合成算法工程師,負責語音合成引擎架構設計,後端聲學模型開發等工作。

雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 手機語音助手有這麼難用嗎?
    「對不起,你可以大聲點說話嗎?」案例二:「小C,幫我切換到第三首歌。」「對不起,我沒聽懂你的意思。可以換一種說法嗎?」案例三:「小C,幫我解鎖手機。」「對不起,你的聲音驗證沒通過。」很多時候,我們使用手機語音助手並不能快速準確識別我們的需求,這是現在很多人更願意直接手動操作手機,而不用語音助手的主要原因。其實很早之前的音頻數碼產品,就有意無意地出現了語言識別技術。磁帶機有選曲功能、語音複讀機能自動識別語音的停頓,這些可以說是語音識別技術的雛形。
  • 蘋果、Google、微軟、亞馬遜,哪家的語音助手會的語言最多,以及...
    蘋果、Google、微軟、亞馬遜,哪家的語音助手會的語言最多,以及為什麼?比如,直到今年秋天,三星的 Bixby 才會增加對德語、法語、義大利語和西班牙語的支持,這些語音加起來有超過 6 億的使用者;微軟的 Cortana 用了很多年才支持西班牙語、法語和葡萄牙語。在人工智慧取得重大突破並飛速發展的今天,為什麼語音助手的發展如此緩慢?人類要重建巴別塔,該如何努力呢?為什麼語音助手支持一種新語音這麼難?
  • 谷歌助手精通30種語言智商碾壓各大競爭對手 語音助手學習語言有多...
    令人驚訝的是,谷歌助手、蘋果的Siri、亞馬遜的Alexa和微軟的Cortana只能識別出其中相對較小的一部分語言。直到今年秋天,三星的Bixby才獲得了德語、法語、義大利語和西班牙語的支持。全球共有6.16億人使用這些語言。Cortana花了好幾年時間才精通西班牙語、法語和葡萄牙語。那麼,為什麼創新的步伐如此緩慢呢?
  • 語音助手功能在手機上到底有沒有用
    隨著語音識別、AI技術的日益成熟,如今這項功能在手機已經完全普及,並且延展到了智能電視、智能家居等領域中,它的未來前景也被無限看好。實際上,語音AI技術帶來的功能也不再局限於簡單的虛擬助理,發展出了語音輸入、語音翻譯等更多實用的應用,它對我們生活的滲透進了方方面面。 蘋果語音助手Siri剛剛推出時,曾經引起過一陣不小的熱潮。
  • 懶人必用華為語音助手,說話即可實現語音翻譯,知道的人還不多
    語音助手這個功能大家都不陌生,但是我詢問了一下身邊的人,,發現很多人都將這個功能閒置在那,很多人覺得不是很智能,那就大錯特錯了,華為手機的小藝是非常好用了,今天就拿語音翻譯來給大家嘮嘮吧。
  • 小娜走了,微軟小冰又來了,語音助手到底有沒有用
    在技術上小娜被設計為雲端驅動,智能運算都依託於雲伺服器完成,終端只做輕量級的整合,這也是現在主流語音助手實現的原理,這樣的設計十分適合打造成跨平臺的服務。 而且此時的谷歌語音助手Google Assistant的技術已經要領先於Cortana了,這對用戶而言就更沒有去下載Cortana的理由和動力了。除了有想體驗一把Cortana手機端的小夥伴曾經在商店裡扒一扒,大多數人可能直到微軟宣布從應用市場下架,都不知道App Store裡還藏了個Cortana。
  • AI語音助手助力行業轉型升級
    AI語音技術能聽會說更懂你,智能導遊「聲」入人心據了解,智能導遊通過前端降噪、語音識別、語義理解、人聲合成等AI技術,向用戶提供服務,如小程序「玩轉故宮」,依託的是騰訊雲小微AI語音助手的核心技術騰訊雲小微AI語音助手技術賦能下,智能導遊在交互方式、語音服務以及深度學習上出現了「質」的突破。首先,是交互方式的進化。
  • Facebook語音技術Aloha曝光:未來將進化成多平臺語音助手
    近日,Facebook在語音交互領域有了新動作,據美國科技媒體TechCrunch報導,Facebook正在測試一種叫做「Aloha」的語音識別技術。一位App研究人員在Android版Facebook應用和Facebook Messenger應用中發現一種新語音功能。研究人員猜測,Facebook可能只是以此作為基礎,確定研發方向,然後讓它進化成更複雜的數字助手。
  • 鎂佳科技CEO莊莉:從語音助手到全場景語音引擎
    非常高興在億歐世界創新年會與大家分享我們在「軟體定義汽車」時代下,在車載語音方面的實踐。車載語音是在「軟體定義汽車」時代非常重要的交互手段。首先我們可以去回想過去幾年在車內經常用到的語音助手。語音助手通常從集成包來講,其調試非常的不方便,因為集成的東西比較多,所以更新迭代的過程很複雜,為一輛車做個性化語音定製非常困難。
  • 語音助手哪個好用點?五款好用的手機語音助手評測
    未來更懂你的極有可能是人工智慧語音助手,人工智慧技術的重要載體的語音助手到底怎麼樣?語音助手哪個好用點?智能語音助手兼具理性與感性。不但可聊騷,而且可通過語音的便利性控制和管理各類智能家居產品。問題來了,智能語音助手又該如何挑選呢?   現階段,AI(人工智慧)絕對是科技行業的流行詞。
  • 小夥吐槽手機語音助手「太憨」!網友:你用錯了姿勢
    ;其實他們的背後的廠商在技術上都出於同一賽道,並沒有哪一個品牌擁有了可以用於消費級別的黑科技。所以說當我們提到「哪個語音AI助手最好」這個問題時,更多的討論的並不是科技的領先,而是在聊語音AI落地場景、生態產品設計和實際體驗。語音助手基於語音ai基礎上開發,根據貝恩公司此前的一份調研數據顯示,未來人機互動方式中,語音交互將會佔到30%左右,語音AI會成為未來最主流的交互方式。儘管人工智慧助手已經不再是新鮮事物,但目前來看這項技術依然還處於發展的初級階段。
  • ​智能導遊聲入人心,AI語音助手讓旅遊更有趣
    AI語音技術能聽會說更懂你,智能導遊「聲」入人心據了解,智能導遊通過前端降噪、語音識別、語義理解、人聲合成等AI技術,向用戶提供服務,如小程序「玩轉故宮」,依託的是騰訊雲小微AI語音助手的核心技術,運用語音交互提供AI導覽服務,為景區遊客提供更為人性化的服務。
  • 宗寧:語音助手大作戰,人工智慧到底能做什麼?
    在百度的李廠長坐著無人駕駛汽車上五環的時候,阿里則發布了自己的第一款智能音箱,看似後者似乎不太起眼,但可以預見的是,無人駕駛汽車的應用還有些遙遠,但明天很多人就可以用音箱在淘寶購物了。人工智慧的語音外殼在《變形金剛5》裡面,最完美的植入是什麼?實際上就是大黃蜂的聲音了。汽車人給他換了一個聲帶之後,它說了幾句話就把它憤怒的又拆掉了,因為她說話的聲音,是Siri的聲音。
  • 千萬別瞧不起華為語音助手,你這樣用!強大到不可想像!
    在智能機發展中萌生諸多趣味功能,好玩又給用戶帶來極大便利,語音助手就是其一,包含智慧語音,天氣查詢,聽歌識物等等功能,在使用時幫我們深層挖掘手機特色體驗。所以不要再將語音助手當做雞肋,學會下面這幾個語音功能,讓你輕鬆秀翻全場。
  • 你的手機語音助手合格嗎?這4個標準一定要有!
    蘋果語音助手Siri剛推出時,在智慧型手機行業掀起了一股不小的波瀾。如今距離語音助手在智慧型手機上出現快十年了,這項功能已經在大部分智慧型手機上普及,並且在智能電視、智能家居中也逐漸成為標配。在語音助手百花齊放的環境下,很多語音助手依然有著不完美的地方,當用戶遇到特殊情況不能觸摸手機時,語音助手的作用能否發揮作用就至關重要了。
  • 鑽石與小度:智能語音助手背後的「馬斯洛需求模型」
    文章經授權轉自公眾號:腦極體(ID:unity007)作者: 風辭遠從軟體到硬體,從輔助功能到產品核心,從前沿科技走向千萬普通人的生活,智能語音助手的一路發展,經歷了數次技術、形態、商業市場上的徹底蛻變。很多人都會好奇,智能語音助手的未來會走向何處?其實這件事並不那麼難以預測。
  • 訊飛智能辦公滑鼠M210:語音錄入、實時翻譯、語音助手全搞定
    臨近年末,「打工人」們又開始陸陸續續的寫總結,交報告了。文山會海總想找個秘書來口述打字,搞搞中英翻譯。雖然秘書請不起,但大家可以瞧瞧我最近入手的訊飛智能語音滑鼠 M210,看看它能否幫你的辦公場景排憂解難。
  • AI語音助手和虛擬IP形象結合,或成品牌營銷新名片
    近期,《世界網際網路發展報告2020》在世界網際網路大會上發布,報告指出,當前世界各國大力推進以5G、人工智慧、物聯網等數位技術快速發展。在這種環境下,全球科技巨頭在人工智慧領域進行深度布局,推動AI技術進入全新發展的時代。  與此同時,AI語音助手在行業內廣泛應用,人機互動的方式逐漸自然。
  • Siri已死,語音助手對我們來說只剩智能鬧鐘了?
    也許還偶爾會讓語音助手們「播放一下今天的新聞」、「查看一下今天的天氣」、「找一首歌」、「搜索一個名詞」什麼的,但說實話,這類用途更多的是作為節省時間的選項,頻次不高且雞肋,你要正兒八經的說它是「助手」,我是不承認的。
  • 華為語音助手一點也不傻!小藝這樣用,強到不可思議
    說起語音助手,大多數人第一反應肯定是先想起了蘋果的Siri,小米的小愛同學。但是這裡我覺得華為的小藝也應該擁有一些牌面。下面就一起來看看小藝的使用方法,讓你開開眼界,看看它到底有多強大吧。那麼在手機的設置裡面點開智能輔助找到語音控制對語音喚醒進行設置一個喜歡的關鍵詞。這下找不到手機的時候就可以叫手機座機告訴你它的位置。二、語音撥打電話手機裡面的聯繫人保存的太多,經常想要打電話的時候找不到需要的聯繫人?那麼和小藝說一聲想要撥打給誰,就可以快速的和對方取得聯繫,超級的方便!