讓米粉瘋狂的克隆技術:深聲科技如何用90秒錄音克隆出你的聲音?

2020-12-22 雷鋒網

「通過克隆,把自己心愛之人的聲音永久珍藏……這可能就是科技應該有的溫度吧。」

與小米的最近一次合作中,深聲科技為其提供了聲音克隆技術,應用在其最新發布的小愛同學定製聲音功能上,能讓米粉合成自己的、甚至是父母、兒女、戀人的聲音,同時還支持音色分享功能。比如,明星將自己音色分享給粉絲後,就能通過聲音實現明星和粉絲的「常相伴」。

智能語音助手這個頗具想像力的AI應用,正逐漸成為智能終端的基礎功能,包括智慧型手機、智能家居、車載、陪伴機器人等,其普及率有了較大提升,而聲音克隆技術的應用,很可能會加速整個進程。

說到聲音克隆技術,並非深聲科技所獨有的,但與競爭對手相比,深聲科技CEO周俊明表示:「聲音克隆技術上,我們在音色還原度、發音準確率、音質清晰度等方面,具有明顯的優勢,手機語音助手是我們首個落地場景。」

聲音克隆面臨哪些技術挑戰?

2020年1月中旬,深聲科技聲音克隆產品正式上線。在此期間,深聲團隊在眾多競爭者中成功拿下了小米方的需求標的。作為與小米小愛同學的一次深度合作,深聲科技將為之提供聲音克隆核心技術支持。

包括雙方的需求對接、內部評估,再到交付,前後用了1個多月時間。

與傳統語音合成相比,聲音克隆面臨更大的技術挑戰。首先,聲音克隆需要C端用戶配合錄音,就不能對其錄音環境和設備有過分要求。

我們會建議用戶選擇一個儘可能安靜的地方,使用手機完成錄音過程。

其次,考慮用戶的體驗,需要儘可能縮短錄音的時長。

這就對我們有很高的要求,傳統的語音合成需要幾十分鐘到幾個小時的語音數據,相比之下,聲音克隆的數據量少,對聲學模型的訓練有更高的要求,比如發音模糊、發錯音、音素覆蓋等一系列問題。當然,最重要的還是音色還原度的問題。

現在,用戶只需配合朗讀20句話短文本,大約錄音90秒的語音數據,就能快速克隆出自己的聲音,將個人的情感表達、發音特點等信息遷移到合成聲音中,就連口音也能很好地克隆出來。

再次,在實際應用中,還要考慮海量用戶發起聲音克隆請求的高並發問題。為了節約成本,提升用戶體驗,就要解決模型切換、模型並發數,以及合成延遲等一系列挑戰。

海量用戶對聲音克隆的頻繁調用時,模型間的切換邏輯非常重要。

最後,因為採集到的用戶數據會上傳到伺服器進行模型訓練,考慮到用戶隱私安全的保護,團隊提供了私有化部署的方案,以確保用戶數據不外洩。

是否迎來大規模商業化?

過去一段時間,百度、訊飛、搜狗等公司也曾推出聲音克隆服務,但似乎並未贏得用戶市場的關注。為什麼深聲科技此次聲音克隆技術的上線,會在用戶市場引起如此大的反響呢?

周俊明表示,聲音克隆大規模商業化需要具備幾個條件:

一是克隆的聲音有較高的音色還原度,跟真人聲音無差異;二是用戶使用門檻不能太高,例如錄音條件、發音標準等不能有太高要求;三是對計算資源的消耗,需要具備個人都能用得起的基礎;四是具備創造出真正的價值,能夠提升人們的生活品質。

從這個角度來講,深聲科技與小米的合作開始,就已經具備了將聲音克隆技術大規模商業化的能力。

在談到與普通語音合成的差異時,周俊明表示:

普通語音合成,解決的是如何將語音內容很好地傳遞出去、更容易地被接收的問題。而聲音克隆,體現了用戶的社會屬性,能夠讓用戶通過聲音來服務於他人。這就意味著,每個人的聲音的價值能夠得到充分體現,在包括親子互動、情感陪伴、泛娛樂在內的各種場景中具有巨大的應用價值。

安全問題如何解決?

將聲音克隆引入智能語音助手,會不會引發更多語音詐騙案件的發生?

目前可能普通存在這樣的擔憂:合成技術的水平發展越高,合成語音與人聲的差異就越小,技術鑑定的難度就越大。對此,周俊明也指出,

不必過度擔心。問題在於人耳的敏感度不夠高,才會對克隆聲音沒有發覺。但應用技術手段進行區分還是毫無壓力的,克隆出來的聲音在語譜圖中跟真人的聲音有明顯區別,克隆聲音中的很多特徵信息已經丟失了。

作為技術服務的輸出方,深聲科技也十分關注如何規避這項技術的非法應用,在推出之前就考慮了到法律倫理的問題,並給出了三點應對方案:

一是將聲音克隆能力只授權給那些有控制能力的企業客戶,對於C端用戶來講,只有選擇音色的權限,沒有自定義克隆聲音內容的權限;二是加強對內容安全的嚴格審核。不支持用戶用隨意一段語音進行克隆,要求用戶對指定文本進行錄音,從而降低聲音被利用的風險;三是通過身份認證、結合生物識別等技術,以限制聲音克隆的使用。關於深聲

深聲科技是一家專注於「智能語音」技術研發和業務落地的人工智慧公司,於2018年在廣州天河成立。深聲科技擁有一支頂級的人工智慧技術團隊,自主研發了行業領先的語音合成、聲音定製、聲音克隆等語音AI技術。

深聲的語音AI技術已在眾多場景中落地,包括語音助手、智能客服、有聲閱讀、車載語音、AI教育、動漫等。深聲提供的「文字轉語音」技術服務,支持的語言也從中文、英文,逐步擴展到了國內方言和海外語種。除了持續不斷的技術突破,深聲的語音數據製作效率也有了大幅度提升,比如三天交付客戶專屬定製聲音, 兩個月支持一門新語種。

讓聲音服務好每個人的生活,深聲致力於將語音AI技術融入人們生活的點滴之中,賦予企業和用戶以創新與科技力量來創造更美好的世界。

對深聲科技智能語音技術感興趣的讀者,可前往深聲科技的官網http://www.deepsound.cn/ 或微信小程序「深聲AI」親身體驗。

相關焦點

  • 人類克隆出了綿羊,還克隆了猴子,為什麼就不能克隆只恐龍?
    克隆一詞來自於英文單詞clone的音譯,意思是利用生物技術由無性生殖產生與原個體有完全相同基因組之後代的過程,在植物界很普遍,比如扦插與壓條繁殖等都是屬於克隆,但在動物方面的突破還是二十世紀末期,1996年英國農業部支持下的綿羊多莉克隆成功,成為轟動世界的新聞!
  • 克隆羊多莉:人類克隆技術裡程碑式的代表,可「下場」你知道嗎?
    那人工克隆就是我們通常所說的"克隆技術"(在本文中的"克隆"和"克隆技術"都只指代人工克隆)。現代克隆技術一共出現了三個發展階段。第一階段是微生物克隆,用一個細菌在短時間內複製出數以萬計的和它一模一樣的細菌,甚至繁殖出一個又一個遺傳物質完全一樣的菌群。第二階段則是生物技術克隆,就是利用DNA進行克隆。
  • 克隆技術這麼發達,為什麼我們不克隆恐龍?
    人類克隆過牛羊豬,也克隆過猴子和貓,那為什麼我們不克隆恐龍呢?恐龍絕對是眾多生物中,人們最希望復活的生物。在《侏羅紀公園》中,復活恐龍似乎很簡單:在一個偏遠的實驗室裡,科學家們從琥珀裡找到了一隻吸飽血液的蚊子,並從它的內臟中提取出了DNA。眾所周知,蚊子會吸血,就算是恐龍的血液也照吸不誤,因此在它的體內是完全有可能存在恐龍血液的。
  • 「毛髮克隆」技術,來了?!
    打開某度搜尋引擎,搜「毛髮克隆」能蹦出一大堆結果,個個都看起來像「掌握了核心科技」,很多小哥看到信息都差點從椅子上掉下來:「毛髮克隆」已經面世了?技術成熟了?是我網線山寨了還是怎麼滴,沒得到消息啊...「毛髮增殖或克隆」是一種治療脫髮的新技術,首先,我要說:目前全世界還沒有克隆頭髮的技術。
  • AI代接騷擾電話,小問秘書聲音「克隆」功能重磅上線
    近日,小問秘書AI重磅升級,開通VIP可享多項新功能:1、個性化聲音「克隆」製作:小問秘書支持用戶以自己的聲音用於代接對話,避免AI電話助理產生的熟人社交隔閡,讓用戶不再分身乏術。用戶僅需在手機端錄製15句話,即可輕鬆獲得高質量的「克隆」聲音,用自己的「真聲」接電話。
  • 當研究出克隆技術後,為何科學家要禁止複製人?這背後有什麼隱情
    目前,對於克隆反對聲音最大的來自傳統與宗教。但是傳統與宗教一般會預設一個禁止辯駁的公理,比如「靈魂的神聖性」。假如對於打破砂鍋問到底的你來說,諸如靈魂存不存在?到廝有沒有東西本質貝有神聖性?這樣的問題都是要放在解剖臺上的話,基於傳統和宗教的論據對於你來說可就是平凡( Trivial)的。
  • AI軟體克隆你的聲音,全球詐騙案件已屢次得逞!
    如果你是家公司的CEO或者你在YouTube上有很多視頻,騙子就極有可能用它來合成你的聲音。」 並且,雖然Pindrop只看到了少數這樣的案件,但涉案金額很高。Pindrop估算涉及的詐騙金額可能高達1700萬美元。
  • 克隆魚誕生50年 中國克隆技術陷入困境—新聞—科學網
    如他所說,克隆技術的最新成果,是「用一滴血克隆出幾十隻老鼠」。今年7月,日本的研究人員從實驗鼠尾巴處提取了一滴大約15至45微升的血液,分離出其中的白血球細胞作為供核源,再利用克隆技術,成功再造了幾十隻「一模一樣」的老鼠。 「還有冷凍克隆、連續克隆的例子。」
  • 能不能用克隆技術讓恐龍復活?為什麼?
    先說一些我的答案:用克隆技術是無法讓恐龍重生的。如果能的話,不僅僅是恐龍,已經滅絕的所有已發現的生物都能復活了。但事實上,滅絕的生物就滅絕了,想要復活就當下的科學技術而言,無疑是天方夜譚的。那麼,克隆到底是怎麼回事呢?它為什麼無法讓恐龍重生呢?我們簡答的來探討一下這幾個問題。
  • 克隆的高科技_科海泛舟
    開始,人們覺得興奮,肢體的殘疾,器官的老化,都可以藉助克隆技術來「更新換代」,人可以因此永葆青春,減卻多少疾病的折磨。很多疑難雜症也顯現出治癒的曙光。但人們的興奮點沒有持續多久,冷靜下來的人又產生了新的憂慮。如果從一個人的體細胞中克隆出新的生命,那麼這個「新人」與體細胞的提供者是什麼關係,是父母與子女的關係,還是兄弟姐妹關係?這是倫理學要回答的問題。這就不只是有趣了,它還顯得很棘手。
  • 既然人類能克隆出綿羊多莉,為什麼就不能克隆一隻恐龍?
    其實,人類能克隆出多莉,而不能克隆出恐龍的原因,是因為DNA具有半衰期,超過一定年限的DNA,無法利用克隆技術還原出原本的樣貌。具體原因我們分析一下。克隆多莉的方式提到克隆,人們會認為非常科幻,一般科幻電影或者小說裡才會出現的情節。
  • 既然克隆技術已經很成熟了,為什麼不克隆一些恐龍出來呢?
    好吧,僅就目前的克隆技術來說,克隆貓,克隆狗,克隆羊,甚至是複製人都是可以的,但克隆恐龍不行,那麼人類之所以無法克隆恐龍,不是因為恐龍的體型太大,而是恐龍滅絕的時間太久了,人類根本找不到完整的恐龍DNA了,所以這才是無法克隆恐龍的直接原因。
  • 複製人的優缺點
    為什麼不同的國家、不同的種族幾乎都反對複製人,原因就是這是另一種生育模式,現在單親家庭子女教育問題備受關注,就是關注一個情感培育問題,人的成長是在兩性繁殖、雙親撫育的狀態下完成的,幾千年來一直如此,複製人的出現,社會該如何應對,複製人與被複製人的關係到底該是什麼呢?    二是身份和社會權利難以分辨。
  • 兩隻克隆猴誕生 中國利用克隆羊多利技術成功克隆獼猴
    它們的「故事」登上國際權威學術期刊《細胞》封面,這意味著中國科學家成功突破了現有技術無法克隆靈長類動物的世界難題。雌性長尾獼猴代表著一個技術上的裡程碑。它代表著能夠創造出可定製和基因一致的猴子種群,從而加速治療帕金森、阿爾茨海默病和癌症等疾病。但這一突破將不可避免地引發人們的擔憂:複製人類比以往任何時候都更加接近。
  • 為什麼近年來克隆技術話題銷聲匿跡了?聽完科學家的解釋明白了
    人類進入科技時代之後,開始了對各個事物的探索和研究,而生物技術更是成為了科學家研究探索的重點。因為生物技術直接關乎著人類自身,人類的健康長壽都要依靠生物技術才能夠實現。克隆技術,經歷了三個發展時期:第一個時期是微生物克隆,即用一個細菌很快複製出成千上萬個和它一模一樣的細菌,而變成一個細菌群;第二個時期是生物技術克隆,比如用遺傳基因――DNA克隆;第三個時期是動物克隆,即由一個細胞克隆成一個動物。
  • 克隆恐龍基本不可能
    原標題:克隆恐龍基本不可能  科技日報訊 (記者常麗君)人們究竟能否克隆出早已從地球上滅絕的恐龍?據物理學家組織網9月12日(北京時間)報導,英國曼徹斯特大學生命科學系研究人員利用目前最先進的下一代測序技術證明,琥珀化石中存在DNA的可能性極小,想讓恐龍再次行走在地球上基本不可能。相關論文發表在《公共科學圖書館·綜合》上。
  • 24年前就造出克隆羊,為何不複製人?看看克隆羊的下場,多恐怖
    科學技術,既是人類前進的動力,也是一把雙刃劍 對於科學技術是第一生產力這句話想必很多人都不會反對,但是還有句話也最重要,那就是科技也是一把雙刃劍。21世紀的我們的生活能夠發生翻天覆地的變化也正是因為有著科技的推動,人類依靠著科技帶來的技術革命,瞬間改變了整個時代前進的方向。
  • 中國科學家準備複製人類?!
    中國科學家負責的世界上第一個位於北方港口城市天津的克隆設備,宣稱已為複製人類做好了準備!世界上最大的克隆工廠將在七個月後敞開大門,到2020年將克隆一百萬頭奶牛!警犬、賽馬和其他動物也排隊等著克隆。Boyalife集團與韓國公司Sooam生物技術研究院合作推動克隆設施,目前開發了對心愛的已故寵物和猛瑪象的克隆。
  • 獵戶星空10段話克隆你的聲音!-獵豹 ——快科技(驅動之家...
    作為一名「科技樂觀主義者」,傅盛和世界上的另一個「自己」進行了一場隔空對話。短短幾十秒裡,機器人「傅盛」的對答、繞口令樣樣精通。即使是仔細辨別,你也很難確認哪一個才是真正的傅盛。能夠達到如此驚豔的效果,其實要歸功於獵豹移動旗下人工智慧公司獵戶星空研發的語音合成技術。只要聽十段你的話,就可以克隆你的聲音,聽起來是不是很炫酷?
  • Java 面試:對象克隆
    如何實現克隆先介紹一下兩種不同的克隆方法,淺克隆(ShallowClone)和深克隆(DeepClone)。在Java語言中,數據類型分為值類型(基本數據類型)和引用類型,值類型包括int、double、byte、boolean、char等簡單數據類型,引用類型包括類、接口、數組等複雜類型。