最近AI合成主播又雙叒叕一次成為了輿論熱議的話題。
國際層面,AI合成主播正式上升到外交領域。新華社AI合成主播在剛剛落幕的第六屆世界通訊社大會的人工智慧專題討論會上亮相。新華社與會代表在討論會上分別介紹了用漢語播報新聞的「新小萌」、用俄語播報新聞的「麗莎」(Lisa)以及一位用英語播報新聞的男主播。
其中「麗莎」是由新華社、俄羅斯塔斯社和中國搜狗公司共同研發的全球首個俄語AI合成主播。從視頻片段可見,這位虛擬新聞主播在外型、口形、聲音和姿態方面都足夠達到以假亂真的程度。據報導,與會的南非通訊社執行長弗雷德裡克斯表示,新華社推出的AI合成主播讓新聞界同行看到了如何使用人工智慧解決面臨的挑戰,他同時堅信人工智慧是新聞傳播業的發展方向。
視頻 / 全球首個俄語AI合成主播
國內層面,早些時候的6月5日,紫金山新聞客戶端AI虛擬主播上線儀式在南京市新聞發布廳舉行,江蘇省首個AI虛擬主播上崗。這位被戲稱為「學霸員工」的AI主播,既能夠在播報新聞時實現中、英、日、韓、俄、法、西、意、葡、德、泰、越南等14種語言的無縫切換,同時還能支持文本到視頻的自動輸出。AI合成主播在省級範圍內正在逐步走向普及應用,背後正是人工智慧在國內傳媒行業的產業化轉型升級。
綜合回看,面對AI合成主播與更廣泛領域上的人工智慧,整個社會認知已經從最初的技術崇拜,到後來的技術恐慌,再到如今更為理性的技術運用,以及技術在更廣泛領域場景下的應用和探索。
本文則建立在此向好社會心理之上,重新梳理支撐AI合成主播新鮮形式與實質體驗的核心技術,展示人工智慧閉環系統,分析AI合成發展方向;同時探討如何客觀認識技術顛覆就業與行業,以及5G移動通訊時代下AI在傳媒業的潛在發展機遇。
雖然人工智慧帶來的落地應用一直處在是否終將代替人的討論之中,但是究其核心還是以人為本,圍繞人開展進行。帶著這樣的前提去認識支撐AI合成主播的「搜狗分身」技術,有幾分合理,亦有幾分玄妙。
系統介紹下這一AI合成主播的技術基礎——「搜狗分身」技術誕生於搜狗「自然交互+知識計算」的人工智慧理念之下,由語音合成和形象合成兩大引擎組成。語音合成引擎負責將輸入的文本轉換為對應的語音,形象合成引擎則負責讓AI分身帶有動作,有感情地講述輸入的文本。二者相結合之後,再利用錄製的音視頻數據來進一步實踐建模。此外,在與大數據結合之下,這一技術還能夠實現依靠少量用戶真實音視頻數據定製高逼真度的分身模型,降低信息表達與傳遞的個性化定製成本。
圖片來源 / WiFi新連接
在《1號風向 | 面對AI合成,真人主持人請淡定!》文中曾有介紹,支撐全球首位AI合成女主播「新小萌」的關鍵技術有三項,分別是收集合成聲音樣本、收集合成人體肌肉運動樣本,以及將發音與面部活動進行匹配。這其中第三項的實現過程因涉及條件太多實現起來最為困難。因為當AI新聞主播播報某一個特定詞彙時,它的處理器需要通過語境來判斷這個詞的含義是好是壞,以及好壞程度如何,從而反映到主播面部情緒上。
曾經一度,上述語境合成技術是制約AI合成主播營造更優用戶觀感的痛點所在。但第六屆世界通訊社大會的俄語AI合成主播則向我們展示了搜狗在音視頻合成上的新技術探索——搜狗最新的圖像的生成能力,在已有的表情+唇形生成技術基礎上,又添加了微表情能力的建模;同時基於海量大數據學習得到的超深度神經網絡,AI主播更豐富的頭部姿態得以預測,表情細節和整體形象展示在逼真自然層面上有了進一步實現的可能。
由上述可見,人在AI合成主播的更迭升級中,既是數據基礎,又是參考指標,同時亦是落點服務對象。暫且不談諸如語境合成等尚未發展成熟到足以讓AI主播徹底代替真人的技術限制條件,在討論虛擬機器人主播的發展過程中,首先需要明確到的是,AI完全替代真人,是一個毋庸置疑的偽命題。因為任何單一媒介形象做到無可替代,本身就是一個偽命題。
這也是社會心理從技術恐慌到技術運用的認知驅動。曾有反擊評論引用系列英劇《黑鏡》中科技對人性的利用和破壞,但其實《黑鏡》向來不仇視科技,「它熱誠地推演技術上的革新,構築了一個個未來世界」。正如《黑鏡》製片人查理·布魯克在此前接受採訪時所言,科技的發展幫助人們發展出一種全新的能力以及交流方式,可問題是人類目前還無法同步適應科技的巨大能量。
這也就是說,人類和機器之間的最大矛盾,並不在於技術是否能夠最終取代人類的輿論糾纏之中,而是在於技術水平與人類認知之間的不匹配。特別地,絕對科學的先進算法在其社會倫理上是有單級趨向限制的。
傳媒行業之所以會有人對AI合成主播的不斷更迭表示焦慮的原因,是在於太多真人實崗建立在技能應用的一些重複勞動性工作之上。擁抱AI的信心前提,是從業人員對於自身職業轉型的能力提升。我們已經過了討論「應不應該」的時期了,面對「能不能」的問題,行業需要追求實現地是AI虛擬與真人主播協同合作,既提高報導效率,也節約運營成本。智能時代直擊推進內容營銷,同時也拓展交互信息應用場景,但傳媒行業始終是需要感情因素的介入完成信息的輸入和輸出。當然,知識積累與應用加強也始終是情感因素應用的關鍵,真人主播不能依賴災難事件報導的素材機會。
在5G商用元年討論5G與AI的雙核驅動再合適不過了。
AI合成主播誕生於大數據合成之上,這足可見媒體的未來不再僅僅是內容和傳播,而是數據和服務,生產與傳播會在技術的支持下實現高度融合。
那麼如果我們站在數據與服務的工業產品立場上來看待5G帶來的機會,一是連接,二是雲端協調計算。現在5G正處在起步階段,但AI合成主播與整個新聞運營體系的配合,已經展現出其能夠在4G的基礎上實現更加智能化與自動化的互聯。
特別是當其表現不僅僅局限於應用速度快時,它帶給傳媒行業的發散性能力就會突顯出來,傳媒行業的各個職能角色或許可以實現互聯。這就意味著,系統運作從內容生產之上,會進一步拓展到報導指揮、搜集創意、資料庫開發、智能糾錯、人機互動、廣告增值服務等多個領域,AI與真人的配合會成為常態,從業人員會越來越明確哪些領域可以交給AI來完成,轉型升級的門檻會不斷降低,更多的AI應用得以在真人工作場景下實現落地。
因此,5G基礎上的AI傳媒應用或許有可能完全改變現有觀眾消費內容信息的方式。
一方面在於通過整個社會的智能化變革,觀眾能夠更加身臨其境地感受AI合成主播播報新聞的多種場景,特別是佐以VR與AR的結合,屏幕前後的隔閡與距離會日益弱化;另一方面則可以結合視頻思維的應用。華為中國區副總裁曹澤軍表示曾在6月10日的東方明珠「智慧中臺」啟動儀式上表示,超高清視頻將成為5G使能的首個行業。那麼AI使能於5G,則可以基於機器視覺和圖像識別對畫質提升和內容審核效率上尋求進一步突破。當內容與信號傳輸不再需要通過基站時,整個傳媒行業的運作會更為短平快,AI與真人的具體分工也會更加明確。
技術從來都是定義時代最為直觀的定語前綴,文章本質是想表述呼應時代脈搏。技術本身是沒有好與壞之分的,其本身也不應用單一道德標準來進行評估。所謂擁抱技術,是尋找到人與技術更為平衡的相處模式。
從AI合成主播,到AI同傳、AI變聲,人工智慧的一系列落地應用是技術為行業轉型帶來的直觀機遇。回望百度的「all in AI」、騰訊的「AI in all」,再到聯想提出的「讓世界充滿AI」……AI即未來,或許如今鮮有人會再輕易否認這一論斷。AI賦能媒介是它若干分支中的一支。從媒介出發,更多AI應用會陸續投入到娛樂、醫療、健康教育、法律、金融等多領域多場景中,5G+AI終會緊貼於現實生活之中。
當然,技術治理是討論人工智慧逃不開的焦點話題。但是任何新技術、新媒介的誕生都會產生各式各樣、人不能完全預料到的社會問題,因此這不應成為拒絕技術的藉口。歐盟委員會曾在今年4月公開發布了AI倫理法則,提出了實現可信賴人工智慧的七個要素,涵蓋了保證人類的自主性、人工智慧技術的穩健性和安全性,保證隱私和數據管理,保證AI算法系統的透明性,要求AI提供多元化、無歧視、公平的服務等方面的內容。這是一個很好的示例,為更合理地擁抱AI建立信心基礎和全產業拓展的前提。