來源:映維網 作者 顏昳華
如果你看了今年微軟的Build大會,你可能在「舞臺」中發現其中一項創新技術。劇透警報:這個舞臺是假的。主持人都呆在安全的家裡。利用華盛頓大學的背景摳圖過程和和Azure Kinect傳感器,微軟製作出仿如真實存在的大會演講。
日前,微軟人工智慧負責人大衛·卡莫納(David Carmona)撰文介紹了這次創新背後的故事,下面是映維網的具體整理:
我最喜歡的遊戲是《帝國時代》。我是在大約20年前通過同事入坑,而我現在依然與我的兒子一起對戰,但他總是毫不留情地把我幹翻。從封建時代到城堡時代再到帝國時代,升級文明是遊戲的一個神奇時刻。每一個時代都帶來了新的技術,並為你抵禦對手和贏得戰爭的戰略開闢了全新的途徑。
我有時候認為我們現在的世界同樣是介於這樣一個過時期。就如同《帝國時代》一樣,新的時代將帶來新的技術,並允許我們用來應對外部幹擾和重新規劃我們的戰略。對於Covid-19新冠肺炎,我們發現自己正處身於一個飽受幹擾的時刻,而這迫使著我們重新思考應該如何行事。現場活動就是其中之一。
疫情使得用戶無法親臨大型現場活動,所以我們一直在尋找全新的方式來與客戶溝通。再說一次,如果你參加了Build大會,你已經親身體驗了我們微軟全球活動團隊是如何將一切轉移到虛擬空間。
我們採用了一種實驗性的方法來展示我們的內容,並且通過利用其他人的創新,我們構建了一種在「虛擬舞臺」中展示活動環節的獨特方式。
這個概念來自於2017年Adobe Research和華盛頓大學發表的兩篇背景摳圖論文。這種方法允許任何人使用人工智慧模型預測主體周圍需要摳圖的元素。它基本上取代了背景,不需要綠幕。
所以, 我們利用我們的Azure Kinect傳感器和一個基於華盛頓大學研究的人工智慧模型,以背景摳圖過程作為基礎,並為我們的演講者創造一種可以輕鬆在家錄製演示內容並出現在虛擬舞臺的全新方法。
Azure Kinect攝像頭通過紅外線捕獲深度信息,這種數據有助於提高人工智慧模型的精度。我們使用一個名為Speaker Recorder的應用程式來管理來自Azure Kinect攝像頭的兩個視頻信號:RGB信號和深度信號。錄製完成後,我們通過命令行工具應用AI模型。具體的細節請查看微軟人工智慧實驗室。
我們使用的人工智慧模型是基於華盛頓大學最近發表的研究成果。這所大學開發的一種深度神經網絡可以拍攝兩幅圖像,一幅包含背景,另一幅包含人員。神經網絡的輸出是一個平滑的透明掩模。
這個神經網絡是基於圖像訓練,掩模工作則是手動完成。華盛頓大學的研究人員採用了Adobe提供的一個數據集,而其中的大部分圖片都是設計者手工創建的透明掩模。
通過這種方法,神經網絡可以學習如何平滑頭髮等區域。但它存在一定的局限性。如果此人穿著與背景顏色相似的服飾,系統會將其渲染為圖像中的洞,從而破壞幻覺。
所以,華盛頓大學的研究人員將把這種方法和另一種方法結合起來。第二個神經網絡嘗試通過觀察圖像來猜測輪廓。在我們的虛擬舞臺中,我們知道屏幕有一個人,所以神經網絡將嘗試識別那個人的輪廓。添加第二個神經網絡可以消除顏色透明度問題,但頭髮或手指等小細節可能是一個問題。
有趣的是,華盛頓大學的研究人員創造了一種稱為Context Switching(情景切換)的架構。根據情況,系統可以選擇最佳解決方案,並從兩個方案中獲得最佳結果。
在我們的示例中,由於我們使用的是Azure Kinect,所以我們可以更進一步,用Kinect提供的輪廓替換第二個神經網絡,因為存在捕獲的深度信息,所以結果更加精確。
另一種稱為對抗性網絡的人工智慧技術進一步改進了模型。我們將神經網絡的輸出與另一個識別圖像真假的神經網絡相連接。結果是一個可以創造更自然圖像的神經網絡。
人工智慧模型、情景切換和神經網絡創造了更為自然的舞臺效果
結果?就是你在Build創新空間中看到的虛擬舞臺。虛擬舞臺的用途無窮無盡,這個過程允許我們靈活地將其應用到更長形式的會議之中,就像我們在微軟人工智慧虛擬峰會中的主題演講一樣。如果你想了解我們是如何為虛擬峰會利用舞臺,請關於6月2日上午9點的Microsoft LinkedIn直播。
整個訓練過程和代碼請訪問GitHub。誰知道呢,或許虛擬舞臺的虛擬活動將是我們邁向下一個時代的方式。
我好像聽到我的兒子正在叫我再來一盤《帝國時代》……
原文連結:https://yivian.com/news/75346.html