2020年9月17-18日,以「數智未來,全速重構」為主題的雲棲大會於線上舉行,一場聚焦於視頻雲的專場論壇也在雲上展開。阿里雲視頻雲攜手眾多行業探索數字視頻新形態,創造業務新價值,毋庸置疑,一個新交互時代將全面來臨。
今年的疫情已將視頻行業推向了風口,從線下到線上,很多行業和場景都能感受視頻帶來的變化,雲會議、雲課堂、雲賣貨、雲旅遊,一切都基於視頻的場景全面爆發,以視頻雲技術為基礎,誕生了新內容、新交互、新體驗。
視頻技術的極致追求:超低延時與超高清
從線下搬到線上的雲活動,這背後的本質是直播技術,今年其已成為各行各業的標配。阿里雲智能視頻雲資深技術專家何亞明在雲棲大會上分享,直播有三個重要元素:成本、質量、延時。對於一場直播,成本考慮的是如何高效、便捷觸達直播的受眾,並能支撐百萬千萬的並發。質量,考慮的是音視頻的畫面清晰度,流暢度、卡頓度。再者是延遲,低延時是實時互動的關鍵,是視頻直播的核心技術。成本、質量、延時之間是相互平衡的關係,在直播中,延時是最直接的體驗,行業將延時分為普通延時、優化延時、低延時、超低延時幾類,達到5秒的延時才可成為低延時,而阿里雲提出的是超低延時技術(RTS),延時可以做到1秒以內,同時在低延時直播連麥的部分,主播和嘉賓是利用WebRTC通道,延時可達300毫秒,體驗順滑。視頻雲團隊是通過對直播全鏈路的優化,來實現1秒以內的超低延時,這對用戶端、企業端都是極大的技術普惠。
雲棲大會 阿里雲視頻雲業務負責人 林昊
阿里雲視頻雲業務負責人林昊表示,他堅信視頻的技術必然會朝著兩個核心方向不斷演進:超低延時和超高清。於是在不斷探索超低延時的同時,視頻雲的另一個研發核心是如何通過窄帶高清的技術普惠,帶來極致的視頻體驗。
當下,視頻內容全面爆炸,視頻製作也愈發平民化,數據顯示,2020年中國人日均觀看在線視頻的時常高達250分鐘,近三年全球每月的視頻流量增長了三倍,這些視頻分布在短視頻、點播、直播等領域。阿里雲視頻雲的重點任務就是讓網際網路上這些海量視頻都提升為高質量視頻,並追求這個過程中的極致成本,最終普惠影院級的視頻服務。要達到這個目標,需要解決三個問題:第一,如何應對低質量的視頻源;第二,網際網路視頻是將視頻的製作成本轉移到雲端,所以製作成本極高,需要普惠降低成本;第三,電視廣播一般帶寬很高,動輒百兆級別,但很多用戶還是在弱網低帶寬情況下接入網絡。阿里雲智能視頻雲首席科學家陳穎表示,視頻雲團隊通過窄帶高清編碼來解決上述問題,達到高清晰、低成本、低寬帶,實現廣播級的、普惠的視頻服務。簡單而言,「窄帶高清」就是把用戶上傳的視頻,通過視頻雲的處理、轉碼之後,變得更清晰,同時對帶寬的佔用更低。在此,視頻雲團隊對「視頻質量的提升」進行了重新定義,基於用戶主觀質量並對其建模,通過千頻千面的大數據分析對不同的視頻達到最優效果。阿里雲視頻雲最新推出的窄帶高清版本,最大亮點更是將其成本相比原來有數量級的下降,從而實現技術的極大普惠和大規模的商業化。
阿里雲視頻雲的技術普惠,攻克了疫情期間一些重要場景的互動形態問題,突破了一些商業發展的瓶頸問題,也在創造一些行業交互發展的新空間,很多行業和場景都演進到新的發展與探索階段,我們能看到,視頻雲技術在引領行業增長的第二曲線。
視頻雲新基建助力在線教育「戰疫」
疫情期間,全民教育從線下轉為線上,阿里雲視頻雲的網絡與媒體處理產品,全面助力學校「停課不停學「,這得益於一直以來打造的數字視頻新基建。針對在線教育領域,視頻雲擁有一站式教育解決方案,通過集成實時音視頻通訊、視頻直播、點播等產品,可支持互動課堂、直播大班課、課堂錄製存檔、自動生成學員精彩集錦、授課效果分析、課堂錄播等完整的在線教育功能。
不僅能服務在線課堂,視頻雲把服務能力拓展到了更廣闊的教育場景。以學信網為例,在疫情期間恰逢整個中國的研究生複試,數據顯示,2020年碩士研究生招生報考人數達到了341萬,遠程視頻面試作為其新的交互形式,可以通過多機位視頻互動、多項技術核驗認證,來保障面試過程科學有效、公平公正。學信網技術負責人程衛星講述,學信網基於阿里雲承接起了今年遠程面試的重要任務,短期內,在學信網硬體條件有限的情況下,視頻雲團隊將雲服務集成到學信網的業務系統中,充分結合業務特點和業務流程,助力其極大提高系統的承載力和穩定性。在面試期間最高峰同時有3199考場、9758路視頻並發,整個系統運行平穩順利。學信網通過視頻面試系統的使用,與往年相比,複試的調劑效率顯著提高,整個工作周期明顯縮短。
林昊分享阿里雲視頻雲助力學信網在線複試
AI編輯部開啟智慧新聞表達時代
目前,傳統媒體已經進入到深度融合階段,如何利用視頻AI的能力賦能是重要問題。人民日報媒體技術股份有限公司總經辦成員楊海霞在論壇演講提到,傳統媒體的核心鏈條包含視頻拍攝、生產製作、媒資管理和分發傳播,面對大量的視頻內容生產製作和審核分發,提高效率是核心問題,而視頻AI恰起到關鍵作用。
針對媒體內容的生產製作環節,體現在智能轉碼、智能合成、智能配音三個場景能力。首先,針對大量外部視頻素材的轉碼需求,可利用阿里雲視頻雲的窄帶高清技術,直接與自身業務系統集成,來完成轉碼智能動作,並在過程中對不佳畫質做技術處理,提升整個視頻的質量。第二,是生產精品視頻的大量原材料的AI智能合成,包括對內容的智能提取、轉場效果、背景音樂等按照一定模板進行智能合成,批量化生產輸出視頻,如現在很多賽事的精彩集錦和數據新聞等。第三,AI智能配音,即AI通過聲紋採集和文字轉語音可系統智能地完成內容的自動配音和合成,極大提高生產效率。
在媒資管理和分發傳播環節,人民日報與阿里雲視頻雲團隊合作,通過人臉庫和物理庫,實現人物識別、物體識別、語音識別、OCR識別,從而生成智能標籤,利用於高效的媒體檢索,並更好的在分發端進行智能推薦和相關推薦。此外,當前的黨媒正在將UGC模式更好的應用其中,這就涉及要對UGC生產提供智能的支持,同時又要通過智能審核保障內容的安全性,在一些大的省級融媒雲平臺上,已經廣泛應用到了這些智能技術。綜合從全業務場景和鏈條來看,視頻AI能力已大大提升了傳統媒體生產、分發的效率和質量。
直播翻譯系統助推電商出海
電商直播是今年的熱門話題,它結合了視頻直播和網紅直播的優勢,處在蓬勃發展中。被稱為「國際版淘寶」的阿里巴巴跨境電商平臺「速賣通」(AE),面向海外買家,其平臺商家也非常希望能更好地利用直播溝通把商品賣到海外。但是,AE的商家中,87%為中國人,受限於外語能力無法參與直播,同時,AE的用戶來自於上百個國家,即使主播有外語能力,也無法覆蓋到每一個用戶語種。基於此,阿里雲視頻雲與達摩院共同打造了世界上第一個電商直播翻譯系統,該系統依託於視頻雲強大的視頻直播、媒體處理服務能力,結合了導播臺的ET字幕產品方案和達摩院視頻翻譯技術方案,最終打造的AE直播翻譯整體鏈路延時小於1秒,讓電商直播溝通體驗全新升級。
該系統在今年5月上線後,大批「無外語能力」的淘系商家湧入AE直播,自如的運用中文進行直播賣貨,通過直播翻譯系統譯成英語、俄語、西班牙語等等,世界各地的觀眾都能看到帶有當地語言字幕的直播視頻,同時還可與主播互動溝通,最終,帶來的銷售轉化高於普通AE商家的20倍。未來在此基礎上,阿里雲視頻雲還會聯合達摩院深度研發多語向互譯,讓商業沒有語言障礙,讓技術普惠能量進一步升級釋放。
虛擬交互技術驅動娛樂新價值
疫情期帶來了在線娛樂行業的爆棚式發展,也讓行業本身更加審視在交互體驗上的突破價值。優酷聯合阿里雲視頻雲團隊,開展了對互動視頻體驗的全新升級,集中體現在三個關鍵詞:一是直播化,即基於DIBR重建技術,讓用戶在自由的視角進行任意的觀看,實現自由視點互動直播化。二是遊戲化,通過人臉識別、動捕系統等體感互動技術,賦能視頻的遊戲化體驗,其中的技術已應用在優酷即將播出的動漫IP上,可實現用戶和IP的互動,進而增加用戶粘性。三是特效化,在綜藝、體育領域與AR特效的融合,創造全新的交互體驗,尤其當AR特效應用於體育賽事場景中,可以讓觀眾實時了解當前賽事的情況,例如,優酷2020的CBA直播牽手視頻雲團隊,比賽中以「子彈時間」特效,通過自動化、準實時的CBA雲特效合成,讓觀眾以自如的視角觀看當前誰在投籃,顯示命中率是多少,當前陣型如何等等,達到現場實時直播輸出的效果。
所有以上的特效互動技術,都得益於目前CV和CG技術,兩者結合助力於互動特效視頻的自動化、批量化生產,相較於傳統方案可以提速百倍。基於此,我們對未來的期待一定是虛擬世界、增強世界和物理世界三元合一的狀態。
林昊在雲棲大會分享觀點
2020年視頻行業的爆發,加速了視頻雲技術的應用和對多場景互動形態的探索,日前,國際權威數據機構IDC曾發布一份中國視頻雲調查報告,數據顯示阿里雲連續兩年整體市場份額佔據第一。阿里雲視頻雲團隊致力於不斷創新內容和交互方式的改變,「未來,隨著人工智慧、5G、AR、VR 技術的加速創新、視頻與雲計算的高效融合、以及視頻雲技術本身的不斷演進,一定會有越來越多的行業和場景,基於視頻進入新內容、新交互的時代!」 阿里雲視頻雲負責人林昊表示。
聲明:本站轉載此文目的在於傳遞更多信息,並不代表贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯繫,我們將在第一時間刪除內容,本網站對此聲明具有最終解釋權。