剛剛過去的雙十一,在巨大的購物狂潮中,蘊含著一個亮眼的名詞——「直播帶貨」。李彥宏稱之前也說過「直播電商現在已經成為了一種趨勢,並且我認為它將來還會成為一種重要的商業形式,直播可能會成為和視頻、文字一樣的重要媒體。」
全民直播時代
其實我們生活中也能感受到直播帶來的影響力,不管是直播帶貨、遊戲直播還是秀場直播,直播行業的影響力、覆蓋範圍以及從業人員都在迅速增大,並且現在已經進入了巨頭的時代,上個月,騰訊促成了虎牙、鬥魚的合併就是一個重要的標誌。
據艾媒諮詢數據顯示,去年,中國直播電商行業總規模為4338億元,預計今年國內直播電商行業規模將達到9610億元,接近萬億級體量,更有說法預測,到2021年規模將達到2萬億元。
而對於我們DIY玩家來說,相對接觸更多的應該還是遊戲直播了,對於遊戲直播來說,如果想帶給觀眾一個較好的體驗,對於設備以及環境、場地的需要還是很苛刻的。
這一般來說需要一個儘量安靜的環境,這樣就不會帶給觀眾過多的環境雜音,而如果沒有這樣的條件,那就只能斥資在設備上下功夫,比如降噪效果好的收音系統。除此之外,還有直播環境的布置,凌亂的環境總是會給人不好的視覺體驗,而且會影響觀眾的注意力。
這樣的要求顯然是阻礙「全民直播」這樣時代趨勢的因素,而時代趨勢應該是,只需要一臺主流的電腦,就可以進行不錯的直播活動。英偉達今年伴隨著安培新架構顯卡一起推出的NVIDIA Broadcast軟體,就是為了解決這個問題而開發的。
NVIDIA Broadcast軟體的主要作用有三個方面,分別是語音降噪、虛擬背景和網絡攝像頭畫面的自動跟隨,現在玩家只需要一臺搭載NVIDIA RTX顯卡的主流電腦,配合上NVIDIA Broadcast軟體就能實現專業級的直播效果。
為什麼需要RTX顯卡
近年來AI計算、機器學習或者說深度學習這樣的概念不斷被提及,特別是在晶片上,比如剛剛蘋果發布的M1晶片,內置專用的16核神經網絡引擎,非常適合AI計算,擁有最高達每秒 11 萬億次的驚人運算能力。同樣的,手機中的高通驍龍處理器和華為的麒麟處理器中的NPU也是這類擅長AI計算的單元。
而為個人計算機首先帶來高效AI計算的就是NVIDIA RTX顯卡中的Tensor Core(張量核心),簡單的來說, NVIDIA RTX顯卡中的Tensor Core是專門針對深度學習而設計的特殊計算核心,它尤其適合深度學習訓練和深度學習推理,而在噪音消除、虛擬背景、人像跟蹤這樣的應用中,正是深度學習大展拳腳的領域,擁有Tensor Core和NVIDIA RTX顯卡可以很好的實現這些功能。
體驗平臺
對於遊戲主播來說,最適合他們的RTX顯卡肯定是基於最新安培架構打造的新一代旗艦——RTX 3090顯卡了,本次筆者用來體驗NVIDIA Broadcast軟體所搭建的平臺就是圍繞著一張RTX 3090顯卡搭建的平臺,顯卡用的是索泰的RTX 3090天啟OC。
索泰RTX 3090天啟OC除了具有目前最強的消費級遊戲GPU——RTX 3090核心之外,還具有24GB的GDDR6X顯存,不論是對於遊戲應用還是創作應用來說都是目前最好的消費級顯卡。當然此次選擇它更重要的原因是,由於NVIDIA Broadcast軟體主要是利用NVIDIA RTX顯卡中的Tensor Core的AI功能,而RTX 3090顯卡就是目前NVIDIA RTX顯卡中Tensor Core性能最強的一款顯卡型號。
不同於上一代的圖靈架構顯卡,索泰RTX 3090天啟OC顯卡基於新一代採用安培架構的RTX 3090核心打造,搭載的是第三代Tensor Core,它能夠提供比圖靈顯卡上的第二代Tensor Core高出4倍的效能,帶來的更強勁的AI運算。至於其他的硬體部分,如下表所示,不再贅述:
功能體驗
接下來我們依次看看NVIDIA Broadcast軟體依次在噪音消除、虛擬背景、人像跟蹤這三個主要功能上的使用體驗。
噪音消除
在說到這個功能之前,有必要先提一下它的前身,也就是在圖靈顯卡時代NVIDIA推出的RTX Voice軟體,該軟體可以利用AI識別來對音頻進行處理,實現降噪的效果。筆者之前也對RTX Voice軟體進行過體驗,得出的結論是「這個AI還處在學習階段,只要用戶足夠多的用RTX Voice軟體,提供更多的數據供其學習,配合背後工程師們的努力,RTX Voice軟體會變得越來越智能的,體驗也就會越來越好些了。」
如果你對之前的RTX Voice軟體的效果還有印象的話,會發現現在的NVIDIA Broadcast軟體在噪音消除方面的表現確實要好上一些,不過距離完美仍然有距離,至少在將「降噪」開至最大的時候,對於聲音的處理仍然有些許人聲丟失,所以大家使用的話可以酌情將「降噪」等級開到自己覺得合適的等級就好,無腦拉至最大或許並不是最好的體驗。
另外就是,雖然對於複雜條件下的人聲和噪音處理還是有些錯誤,但是在筆者的體驗過程中,在較為單一的噪音環境中,比如鍵盤聲、風扇氣流聲,NVIDIA Broadcast軟體都可以很好的識別並且完全去除掉,效果還是非常不錯的。
虛擬背景
虛擬背景這個功能也是利用顯卡的AI計算來識別主播本人和座椅(和現在手機的AI攝影的原理差不多,不過加入了對主播座椅的AI識別),然後將這兩部分與背景可以區分開來,就可以進行背景模糊、換背景或者直接扣掉背景的操作了,效果如下。
這是不做任何處理的攝像頭輸出圖像
開啟最強程度的背景模糊如上
換背景的效果
就體驗來說,這個虛擬背景的功能有一定效果,特別是對於人物的識別很準確,不過對於座椅的識別就很不智能了。當然對於人物的識別由於應用很久了,所以AI模型已經有很多的積累,對於直播來說,如果只讓觀眾看到一個人以坐著的姿勢出現,但是身後並沒有支撐會顯得很奇怪,所以英偉達為Broadcast軟體加入了對座椅的識別。
但是可以明顯看出,對於「座椅識別」這部分,相比已經成熟的人物識別來說太差勁了,畫面中「主播位」的座椅可以識別,但是邊緣錯誤的問題還是有點明顯,而對於畫面中其他部分的座椅則是完全無法識別了。
需要說明的是,筆者使用的攝像頭規格是720P 30FPS的,並未達到真正主播那麼高的規格,如果是更高清的攝像頭,那麼Broadcast軟體會接受到更多的數據,或許AI識別的效果會更好一些,那麼虛擬背景的體驗也會更好一些。
人像跟蹤
這個人像跟蹤其實是基於自動裁剪和縮放來實現的,也就是說在攝像頭的視野覆蓋區域內,它會首先識別出主播頭部,然後僅顯示出頭部周圍的局部畫面,這樣你移動頭部,但是只要不超出攝像頭的視野覆蓋範圍,它會重新識別你的頭部位置,然後顯示出新位置下的周圍畫面,這樣畫面中就看起來是攝像頭在跟隨頭部在轉動一樣,我為該效果做了一個GIF圖如下。
就效果來說,這個體驗還是非常好的,給觀眾的感覺就是攝像頭會自動跟隨主播轉動一樣,感覺非常智能。不過體驗過程中確實還是有明顯的延遲,會讓畫面在動的時候變得模糊。
總結
相比之前的RTX Voice軟體,這次隨著安培顯卡一起發布的NVIDIA Broadcast軟體增加了對於視頻的AI處理能力,並且在RTX Voice的基礎上提供了更好的噪音消除功能,雖然從效果來看仍然還有進步空間,但是已經可以明顯看到機器學習的進步速度是真的很快,進步的效果很明顯,噪音消除的功能在較為單一的噪音環境中已經能取得很好的效果。
而對於新加入的虛擬背景功能,能極大的方便直播用戶在任何地點都能以乾淨整潔的環境方便的直播,也可以利用背景模糊功能來凸顯畫面的主體,相當不錯。人像跟蹤功能也能使得直播效果更好,仿佛有個專門的攝影師在實時操控攝像頭,來讓主播永遠處於C位。
不過要較好的應用虛擬背景和人像跟蹤功能筆者建議要配合上一個素質較好的攝像頭,當然,在更主要的RTX 顯卡選擇方面也肯定是越強大越好,這樣更強大的Tensor Core可以帶來更強的AI計算能力,體驗也會更好一些,目前具有最多Tensor Core的消費級顯卡RTX 3090肯定是最好的選擇。