對80、90後包括00後來說,人生中很多「見證奇蹟的時刻」,都是與騰訊旗下一款款國民級產品共同度過的。比如第一次向千裡之外的網友發出那句「你好嗎」,感受到了天涯若比鄰的真正含義;又像是第一次用微視拍一條小視頻,看到貼圖與自己的臉龐完美貼合,體會到數字世界與現實世界是怎樣連接的奇妙。
技術之於現實世界魔術一般的驚人改變,很多時候都是這樣,以一款產品為契機,去改變一個用戶、一個群體乃至一代人的生活。
而魔術製造者從不休息。2019年12月25日,雲視頻會議產品「騰訊會議」正式發布,在背後為其提供支持的便是神秘的騰訊多媒體實驗室。
今天我們不妨從「騰訊會議」的魔術出發,去探尋其背後的魔術工廠。
遠程會議:移動辦公的最大短板
說起遠程會議,估計我們的各位「社畜」讀者已經非常熟悉了。在分布式辦公、移動辦公非常普遍的今天,隨時打開微信群語音交流工作,或是開啟QQ群視頻來一場遠程會議,都是很普遍的事。
但遠程會議的體驗,過去是大家有目共睹的差——通話延遲十分常見,更讓人煩惱的是如果誰所處的環境有噪聲,便會影響所有人的體驗。尤其很多筆記本電腦的收音設備都距離鍵盤很近,在做會議記錄時,往往需要暫時關閉麥克風才能保持不打擾他人。像挪動水杯、一兩聲咳嗽這樣在面對面會議中很常見情況,在遠程通話中都會變成幹擾會議的噪音。更別提視頻會議時,直面攝像頭的尷尬了。
而這種情況並非無法解決。很多軟硬體廠商也會選擇用降噪算法、壓縮算法等方式來優化網絡通話體驗。但在會議場景中,卻很難找到相對理想的統一解決方案。尤其從鍵盤打字這種近音幹擾噪音如何優化,到多人通話的低時延保持,再到視頻流與音頻流結合的優化,往往都是移動會議場景才會面對問題。如果沒有針對性的解決措施,用戶很難找到替代方案。
而騰訊會議這款產品,就是針對這一場景的驚人「空間魔術」。
空間魔術:騰訊多媒體實驗室如何把同事「變」到你身邊?
騰訊會議的魔術可以被分為四個部分:音畫、聯通、評估與網絡。
在音畫方面,騰訊多媒體實驗室不僅提供了視頻美顏算法,還特地收錄了車站噪聲、風雨噪聲等常見的環境噪聲,以及咳嗽聲、鍵盤聲、放水杯聲等常見的會議噪聲。通過定點降噪處理,剝離噪音還原清晰人聲。同時騰訊多媒體實驗室還打通了VoIP、PSTN等多種語音通話技術,在儘可能廣泛的帶寬和採樣率中應用音頻超分算法,通過技術處理提升語音品質。不僅如此,多媒體實驗室還推出了真實網絡場景的語音質量運維和保障方案。在提供良好的通話效果之外,也通過這一方案幫助用戶更好地對雜音、噪音進行定位,為通話效果提供保障。
在音畫能力和聯通能力背後,重要的支撐力就是評估能力。大多數時候遠程會議通話的清晰與否,都只能由用戶自己主觀判斷。這對會議通話的產業化發展是非常不利的。而騰訊多媒體實驗室則擁有專業的音視頻實驗室和測試設備,利用上百個符合ITU/3GPP/AVS等國內外標準的指標對通話質量進行評估。多媒體實驗室自己也建立了大規模音視頻主觀質量資料庫,在此基礎之上研發了可以部署到業務線中的評估算法。這樣一來不僅在研發時可以有衡量標準,也可以監控用戶的體驗質量。最後,針對多方通話可能面對的各方網絡連接狀態不同的情況,騰訊多媒體實驗室還應用了智能網絡探測算法,覆蓋多種網絡類型,在複雜的網絡環境之下提供優質的通話服務。
除此之外,騰訊會議還提供一鍵錄音、雲端加密存儲等功能,讓產品形態更加完整,囊括會議進行和會議記錄保存的整個周期。
如此一來,即使身處嘈雜的街邊,用戶也能享受到如同身處封閉會議間式的通話體驗。科技就如同變魔術一般,讓身處天涯海角的人們在同一「空間」內無礙溝通。
魔術師的進階之路
從反覆出現的名字就能看到,在空間魔術背後提供動能的「魔術師」,就是騰訊多媒體實驗室。雖然這一名字較為新鮮,但騰訊多媒體實驗室的魔術師進階之路,卻從多年前就開始了。
想想開頭提到的,很多人小時候第一次「見證奇蹟的時刻」就是通過QQ與遠方的親人朋友聊天。但很快這種溝通模式就從文字進化成了語音和視頻,也就是說,從很久以前,騰訊就已經在處理語音視頻會話的技術問題了。
到了2011年左右,當移動端產品逐漸普及,QQ語音通話這一體驗和電話通話十分接近的功能迎來了更廣闊的需求。於是QQ成立了音視頻中心,開始著手解決語音視頻功能移動化的問題。尤其是弱網的適應性、以及移動終端的豐富類型,都是在提供優質影音服務之前,必須要解決的問題。
從這一時刻起,騰訊多媒體實驗室的技術基地開始加速累積。但也正因一開始為解決QQ產品需求而生,使得騰訊多媒體實驗室的技術與QQ業務深度耦合。但到了2014年,隨著硬體能力的提升和普及,語音視頻服務開始出現在更多的產品之中——K歌、直播、遊戲……尤其像直播、K歌等源自模式創新且注重運營的產品,往往都是業務比技術優化更先上馬。此時這些產品所嚮往的,正是已經在應用場景取得成果並且能夠儘快與自身業務場景結合的技術。騰訊自己也通過布局投資和成立新業務開始涉足這些領域,此時急需的,是技術與產品之間的解耦,完善SDK使技術可以復用,在更廣泛的空間中發揮價值。
於是在2016年騰訊音視頻實驗室正式獨立,最終成長為今天我們所看到的騰訊多媒體實驗室。從最初的成員數只有個位數,到現在全球超過100多人的團隊,強大的人才儲備結合接近二十年的累積,還有無數次來自真實場景的技術鍊金,一切都為這位魔術師累積了充足的工具箱。
從魔術師,到製造魔術的工廠
從騰訊會議這一款產品中,我們也能窺見一二。
除了能夠提供聲音降噪、音頻超分等語音方面的算法之外,在騰訊會議這款產品中還能見到騰訊多媒體實驗室強大的編解碼能力。
例如在遠程會議常見的屏幕分享場景中,常常會出現畫面卡頓、文字等細節內容模糊的情況。騰訊多媒體實驗室針對屏幕分享場景做了大量優化。在編碼方面推出了專門針對屏幕內容的屏幕內容編碼器TSE,並在其中加入屏幕內容編碼工具,以提升編碼效率。至於文字模糊問題,騰訊多媒體實驗室則採用了YUV444編碼,很好地解決了因為色度分量下採樣導致的質量損失。
在實時音視頻能力上,騰訊實驗室除了有豐富的場景經驗外,還對於業界先進的學術成果保持持續追蹤,就像在擁塞控制這一常見需求上,騰訊實驗室就調研了各種學術界和業界最新的擁塞控制算法,結合自身累積的場景經驗,提出了新的實時擁塞控制算法,在不同網絡場景下都能迅速給出可靠的帶寬預測,以便運營方即時做出各種準備。
不僅如此,騰訊多媒體實驗室還在音視頻質量評估、互動沉浸式媒體方面有著強大的累積。能夠實現端到端的音視頻內容質量評估的客觀音視頻質量評估算法,以及全新的互動式媒體交互手段,都是騰訊多媒體實驗室已經開始向產業世界所輸出的能力。
魔術師的帽子裡,有抽不盡的彩帶、飛翔的白鴿和跳躍的兔子。一切都是為讓整個世界增添更多魔法色彩而服務。但一位魔術師,所面對往往只是一群人、一個劇場、一條街道。
在這裡,我們就可以重新審視騰訊多媒體實驗室的布局與籌劃。
騰訊強大的產品基因,以及優圖、AI Lab、安全實驗室等其他部門提供的豐富技術能力,最後加上騰訊雲這一輸出口,可以讓騰訊多媒體實驗室的技術擁有更妥帖的落地能力。目前除了在騰訊會議中外,全民K歌、鬥魚直播、NOW直播等產品中,也能見到騰訊多媒體實驗室所釋放的「空間魔術」。在接受採訪時,騰訊多媒體實驗室相關負責人也表示,未來騰訊多媒體實驗室的技術,將會儘可能地開放給社會,讓更多產業參與者能夠在此基礎之上優化自身產品。
這樣看來,與其說騰訊多媒體實驗室是某一項產品背後的魔術師,不如說這是一座「魔術工廠」,不僅用一隻帽子裡的兔子驚豔他人,而是源源不斷批量生產「魔法」,讓世界與狀態理想接軌——讓更流暢無卡頓的直播,拉近陌生人之間的距離。或是一首無縫銜接的遠程合唱,讓遠在天邊的家人也能感受到一起K歌的快樂。
對於成長於網際網路和公寓樓中的千禧一代來說,遷徙、分離、孤獨似乎成了他們生活的常態。但一款能讓他們隨時聯繫到家人朋友的通訊軟體,一種能讓他們相隔千裡也有對坐而談感受的技術,幾乎是生活的必需品。用技術消弭物理空間的阻隔,是這場空間魔術的最大魅力,也是騰訊一直在做的。而這一魔術顯然不會僅僅被騰訊擁有,而是通過雲端撒向世界,如同一場溫暖的雪,為即將到來的未來取暖。